作者|胡描 编辑|罗丽娟


(相关资料图)

算法、算力、数据,是AI技术发展的三大要素。

其中算力、数据提供商们,被看作为AI时代中的“卖水人”。

在算力赛道上,生产了A100、H100 GPU的英伟达,一度挤入了与亚马逊、苹果、微软等同列的万亿美金市值梯队。

而数据服务商们也成为了“既得利益者”。即便国内大模型还处在“乱战”之中,资本已经给予了数据服务商们足够的“热情”。

成立于2005年的海天瑞声,是国内最早从事AI训练数据的研发设计、生产及销售业务的企业之一。今年以来,海天瑞声的市值从年初最低的17.5亿左右,涨到了截至6月12日收盘的66.4亿元,涨幅超过了270%。半年之中,其市值最高时一度飙升超过了110亿元。

在一级市场上,据36氪报道,今年以来B轮及以前的十余家数据标注平台,集体迎来了接近100%增幅的高估值。

对于海天瑞声做的是一门什么样生意的问题,海天瑞声CEO王晓东做了这样一个比喻:

“现在叫数据时代新基建,我们公司是卖水泥的,提供的是高质量水泥。无论你盖什么楼,砌墙、打楼板、打地基,你都得需要水泥。”

作为一种刚需,AI大模型时代的到来,对整个数据行业而言,意味着更多的机会,更大的市场,从业者们均不愿意错过。

在近期,海天瑞声进行了一场企业品牌焕新,英文名称从“SpeechOcean”改成“DataOcean AI”,中文名“海天瑞声”不变。

王晓东表示:“此次品牌升级不仅是一个简单的改名,还代表着海天瑞声将在数据科技和人工智能领域的进一步发展和探索。”

但另一方面,行业也迎来了全新挑战。

在技术上,基于人类反馈的强化学习(RLHF)成为了一项可能让机器像人一样思考的重要技术。其原理是将人类的反馈纳入训练过程,为机器提供了一种自然的、人性化的互动学习过程。众所周知,RLHF 也是ChatGPT 成功的秘密武器。

而传统的数据标注停留在更加基础的阶段,难以满足AI大模型的需求。

海天瑞声CTO黄宇凯也用了一个比喻形容传统数据标注与RLHF的区别:“以前教起来简单,这个学生是小学生或者幼儿园,现在学生成长为初中生、高中生了,教他会更难一些。”

这不仅意味着数据企业需要对RLHF相关技术进行更多的投入,还意味着对数据训练师的专业要求也在提高。

不能忽略的是,入局大模型之争的互联网企业、科技公司出于对自身核心数据的重视,也在加快布局数据标注团队。以百度为例,其拥有行业内最大的自建标注团队,在山东济南、山西临汾、重庆奉节等10个地区有自建标注基地。

这也让第三方数据服务商的处境更加尴尬。

行业的洗牌已经来临,没有资源积累、技术壁垒、人才储备的数据企业,将很难在这一轮洗牌中留下。而对于数据行业的头部企业来说,“越洗越大”的机会也在来临。

对于数据行业的发展、AI大模型时代给数据行业带来的挑战和机会、企业如何保持核心竞争力等话题,全天候科技与黄宇凯进行了一次对话。

海天瑞声CTO黄宇凯 图片来源:海天瑞声提供

以下为全天候科技与海天瑞声CTO黄宇凯对话内容,经全天候科技整理:

Part 1 数据是门怎样的生意

全天候科技:从业这么多年中,你感受到AI行业或者是下游科技企业,对数据的需求有哪些变化?顺应需求,你们在做哪些业务调整和拓展?

黄宇凯:变化挺大的,2005年左右还是以语音数据为主,我们当时做语音合成,后来做语音识别相关的数据服务。也会做一些NLP,比如说与搜索相关的数据服务,在2010年左右,搜索还是很热的。然后是图像图片,有一阵子图像识别很火,我们就去做图像识别的数据。

我们永远是跟着AI下游的客户的技术发展做各种突破,他们的数据需求我们都可以去提供服务。

2012年前后,深度学习突飞猛进。 数据集的需求不断变化,从一开始的找猫找狗,识别率比较低,到后来学深度学习发展起来,立马提升了一个大台阶,原因是背后的范式发生了变化。深度神经网络复杂度越来越高以后,它的数据需求量就有了一个飞速增长的过程。

我们可以说半被动地去接受,响应技术的变化。以前可能几十小时,后来几百小时,以前可能一两百人,后来要上千人,大规模的这种数据集业务,对我们来说都是很好的业务机会。

到这两年,AI大模型起来了,我们看到(客户)对数据的需求有新的变化,对我们来说也有大量的新机会。我们要有一定的敏感度,要挖掘到大模型对数据的要求和传统深度学习对数据要求有什么相同的地方,我们怎么去学习掌握它一样的地方,利用好我们原来的一些优势。

全天候科技:数据量的需求上去了,就需要企业在数据量上多去布局,多去搜集,现在还是谁拥有的数据最多,谁就有更多优势的阶段吗?

黄宇凯:这里有一个关键的点——数据量上去以后,设计其实很重要。

比如山东人说普通话,你要做这样一个语音识别的数据集,让1000个山东人来说普通话,你怎么选这1000个人?让这1000个人说什么样的话?这里面是有很高的技术壁垒的。又比如某些语言里平翘舌音不分,我们要提供数据集,就要在平翘舌音的覆盖面上尽量多放一些这种句子。

这些都需要语言学家去理解语言或者方言的特点,要去设计数据集的结构。

再举一个图像方面的例子,比如找猫找狗,不是说有1000张、10000张猫的图片,就是一个很好的数据集。要去判断猫的种品种、颜色,又比如猫的姿态、体态,在什么光线下拍的照片,在这张图片里的占比、位置,要做出这么一张数据集,最好包含了多样性,才是一个比较好的数据集,这背后是有一套的设计方案和逻辑的 。

AI识宠 图片来源:网络

我们的团队有很多的经验,大概知道客户要做什么,对数据集的要求是什么,能设计出一个好的数据集。把数据集给到客户后,他的算法团队拿这个数据去训练,让他的训练效果很好,这样客户才愿意第二次、第三次来找我们。

全天候科技:如何设计数据集的结构呢?怎样的数据集才能算是好的数据集呢?

黄宇凯:数据集方案我们需要和客户沟通不止一轮,客户的算法团队从算法、训练模型的角度,我们从数据采集和数据标注处理的角度,两者放在一起,才能变成一个更好的模型。

这个过程我们要来回碰,双方的技术人员要去讨论方案。第一版方案做出来,我们还要去推导、精细调优它,一版一版做。微软、亚马逊,国内的BAT都是我们的头部大客户,我们和这些头部大客户的算法团队一起成长。

像一些自动驾驶领域的客户,有些客户对于什么样的数据集能够帮助他的算法做得更好,他一开始也不明确,因为行业内没有标准。我们做的时候可以告诉他应该如何调整,有的地方标注精度99%就够了,有的就需要99.9%,有些类型以静态物为主,标的时候可以粗一些,有些类型就需要标的细一些……这些方案都是需要和客户之间来回磨合,客户慢慢就知道了。

他在成长,其实我们也在成长,所以我们和很多大客户有很强的绑定关系。这个行业很多大客户一般和一家数据公司合作以后,他不会轻易更换。因为数据很关键,对核心数据供应商的频繁调整,对他其实是一个消耗。

而对我们来说,这些knowhow也可以服务一些其他的客户。

Part 2 做技术投入,太早太晚都不行

全天候科技:数据行业是否也是一个有先发优势的行业,比如早期积累的数据集越多,服务了越多的客户,做了足够多的方案,你们的边际成本也会下降?

黄宇凯:边际成本肯定是有的。

最简单的一个例子,节省了磨合时间。我们的项目管理团队、供应商,以及我们自建的标注基地、标注员之间,是有一个已经磨合好的信任关系的。初期磨合可能难一些,顺了以后形成了稳定团队,项目的输出能力就是很强的,数据质量也是有保证的,这是一个边际效应。

我们还有一类边际效应是我们的数据集产品,我们的业务形态里,接近一半是通过数据集的形式去卖的。

比如A客户找我们一起来去打造一个算法,我们做出了一个很好的数据集,对他算法提升很不错。这里有一个商业逻辑,数据的拥有权是属于客户还是属于我们,这是可以协商的事情。

知识产权完全归他,我们的项目团队也能继续服务其他客户。很多客户他不需要知识产权,而我们拥有知识产权,我们就可以对它做复卖。

我们管这些叫成品库,如果B客户也想做相关的业务,我就可以直接把库卖给他。他拿到这个库以后,可以用更短的时间迅速的做出一个好的产品。

我们目前在语音方面有近1000多个成品库,并且整个库的质量是很高的。基本上第二次复卖的时候,就除了销售成本没有其他成本,几乎是100%毛利。

全天候科技:但现在大模型起来了,它对数据的需求也在发生变化,比如它用到的RLHF和传统的数据标注就不一样,你们原来的优势还会在吗?

黄宇凯:RLHF就是我们经常说的强化学习,它和传统的数据标注形式上不一样,但本质是一样的。

举个例子,让AI写一个摘要,以前做NLP的标注你给个文章写出来就行了。所谓摘要,就是给长段的文本用三四句话归纳一下。标注场景其实相对简单,比较直接。

而大模型时代里,同样去训练大模型学会写摘要的能力,就要用RLHF这种方式,数据标注员做标注就不是那么简单了。不仅要准确,还要考虑到各方面的代表性,甚至语气、长度、篇幅,要求会很高。

本质都是一样的,还是把人的知识通过那几条、几十条或者几百条的数据,教会这个模型。只是以前教起来简单,这个学生是小学生或者幼儿园,现在学生成长为初中生、高中生了,教他会更难一些。以前可能普通老师就行,现在就得是硕士、博士毕业的老师才能做这个工作。

图片来源:人人都是产品经理

全天候科技:这是不是也对数据标注员的专业素养提出一个更高的要求?

黄宇凯:是的,比方说985、211毕业的学生,我不是开玩笑,是真的能招到这样的一些人才来做数据学习。或者说有一些技术点的人才,我们最近比较关注人才的工程化能力,特别是大模型训练的工程化能力这一块。

以前我们这块是不需要做太多的积累和投入的,所以这块人员比较少,现在到大模型时代,我们需要有这样的人,我们也会去定向招聘这样的人才。

全天候科技:海天瑞声对于大模型的关注可能更早,你们有在提前布局跟大模型相关的业务吗?

黄宇凯:我们关注比较早,GPT2的时候我们就开始关注。今年大模型起来了,我们判断后再去做的投入,我们还是相对谨慎的。因为技术投入有一定的风险,要去判断、预测未来技术方向到底在哪,因为技术方向有可能会变。

去年大家都不知道今年大模型会火成这个样子,国内现在学术界也开始关注这些事情。在这些基础上,我们从上到下也会去投入做学习理解。另一面也是看客户,我们有非常高水平的客户群,他们会有很多的反馈给到我们。

Q:现在会不会晚了?今年需求肯定急速增长,如果没有提前布局,会抓不住这些机会吗?

黄宇凯:我觉得早、晚都是有可能的,就像中国在大模型上,肯定已经晚了。只是晚多久的判断,有些人说几个月,悲观的人认为晚两年。国外也是,Google它也晚了。

对我们数据公司来说,现在我们会做一些投入,就像几年前我们做自动驾驶,要去判断什么时候切入自动驾驶。

一开始我们做自动驾驶也是有一些零散的项目找过来,我们自己会去研究一些技术和论文,看看自动驾驶到底在一个怎样的水平,然后做一些有限的投入。随着商业的节奏,我们的技术节奏也起来了。

如果你永远担心晚了,永远是早投,你会面临浪费的问题,这个度它也没有什么标准答案。

至少我们现在和中国行业里做大模型的节奏差不多。我们做了一些投入研究,一些原来我们不擅长的再补补课,原来擅长的再加深一下。在业务侧,像RLHF有些项目在持续推进,这也不是说一两周、一两个月的事情,已经比较长时间了。

Part 3 大模型时代的数据行业洗牌

全天候科技:今年以来,AI大模型的热度超过了所有行业,许多投资人也在试图找数据标注企业进行投资。对于AI的“数据商”们来说,这是一个怎样的阶段?

黄宇凯:数据行业是一个非常好的赛道,(AI)技术越往后发展,它越是以数据为载体来做传播,所以数据会越来越重要。

大模型发展起来以后,AI也开始平民化,以前AI也是无处不在,目前AI感觉更厉害,触角伸到各行各业,它背后或多或少都有数据的需求。对我们数据行业来说,这个市场就会非常大,就看你能不能抓住这个机会。

做好技术投入、资源管理、knowhow积累,把自己壁垒越建越高,那就行了。如果你不好好做这些事情,你可能就失去这个机会了。

全天候科技:很多互联网、科技公司在做AI大模型的时候,也在搭建自己的数据团队,也在抢夺人才,他们的加入,对数据行业会有怎样的影响?

黄宇凯:我觉得这个行业会是一个长期共存的状态,有三类企业会一直存在。一类就是算法公司自建团队,一类是像我们这样的专业数据服务提供商,第三类是我们的上游供应商,会给我们提供人力外包。

这个行业这么多年来,不管你是机器学习阶段、深度学习时代,还是大模型时代,都有共存的关系。

客户不自建团队了,全部找我们这家公司,我觉得也不可能。因为他们内部有一些最高级别的数据安全要求,或者内部有其他数据,大公司总是会保留一定的自建团队。

但我也不觉得他们会把我们的份额都拿走,因为确实存在一些竞争的问题,导致客户互相之间是隔离的,特别是很重要的数据,互相之间肯定会屏蔽。对于这些壁垒,海天有这么多的资源,全球的采集能力,说实话也不是随便一家公司能有的。

Q:作为一个中立的数据服务商,你们可以给大厂提供哪些方面的数据补充?如果只是第三方,是否意味着你们只能做一些边缘业务?

黄宇凯:我觉得他们需要什么我们都可以做。很多人认为大厂做什么都行,因为大厂有所谓的生态。国内大厂经常是什么都想做,但最终还是会有很多业务划分出来,形成一个生态上下游关系,这是正常的技术发展的趋势。

我不觉得我们是边缘业务,他们有数据,但要用起来那才叫有用。而从那么多数据里面,把有用的挑选出来,这个过程相当于把数据做蒸馏,这个才是核心技术。

这部分技术就是我们的knowhow。就像银行的某个数据,这是他有的,但是我知道怎么把这类数据用最高效的方式、最节约成本,最快的速度变成他的算法。

Q:AI大模型它对数据的需求变化,会让数据提供商行业有一个洗牌吗?什么样的企业更能够适应这个时代,而什么样的企业可能被这个时代抛下了?

黄宇凯:更关注技术、对商业敏感的企业,更关注资源、有资源积累的企业,更关注安全合规的企业,在这三类上关注度比较高的企业更容易活下来。

技术的投入是需要代价的,但如果有些企业在技术投资上长期处于谨慎状态,投入比较少,长期来说它的护城河就不够,那就慢慢会有风险。像我们这种头部企业,我们一直非常注重技术的投入、资源的培养,以及合规这三块,也有持续的投入,在洗牌的过程中也会越洗越大。

相对来说,市场占比小的企业更可能被洗掉。特别是刚才提到的第三类,提供人力外包的这些公司,说实话他们可能真的要想清楚他们的壁垒在哪,不然他们有可能会被替换掉。

关键词: