当大模型不再稀缺：得数据者得天下

紧随OpenAI、谷歌的步伐，国内大模型军备竞赛正打得火热。继百度、三六零之后，本周阿里、华为、京东等大模型陆续浮出水面。

大模型不再稀缺之后，AI竞赛的下一步将走向何处？民生证券分析师吕伟发表研报指出，尽管目前表面上大模型百花齐放，但是能够拥有高质量数据场景助力持续迭代，使得逐步性能逼近ChatGPT的大模型预计最终仍是“凤毛麟角”。数据将成为差异化竞争的关键，最终是得数据者得天下。

分析师认为，未来的AI竞争中，三类企业将掌控主动权：

【资料图】

1.同时拥有搜索引擎、浏览器、办公插件等高质量数据的公司；

2.掌握音箱、摄像头等物联网终端数据的公司；

3.垂直行业有绝佳数据卡位优势的企业。

具体来看：

搜索引擎公司

搜索引擎公司天然具备数十年网络爬虫积累的高质量互联网数据资源，而且凭借这一数据卡位战略入口，其数据资源与质量仍将不断迭代提升：当搜索引擎爬虫完成对某个网站或者某个主题下所有相关网站的抽取后，需要对其进行处理和分析。这通常包括以下几个方面：1）数据清洗与去重；2）数据挖掘与分析；3）建立索引以便后续查询。
继微软公司已经在其必应（Bing）搜索引擎中部署ChatGPT系统背后的技术后，据《华尔街日报》4月6日报道，谷歌CEOSundarPichai透露，谷歌计划在其搜索引擎中添加AI对话功能，目前该公司正在对几种搜索引擎版本进行测试。他表示，此举是为了应对ChatGPT等聊天机器人带来的竞争和商业压力，但聊天机器人不会对谷歌的搜索业务构成威胁，AI的进步反而能进一步增强谷歌的信息检索能力。
从GPT-1的1.17亿参数到GPT-2的15亿参数，再到GPT-3划时代的1750亿参数，OpenAI依托筛选过的优质数据形成参数量的阶梯式上升，最终带来GPT-3乃至ChatGPT具备理解上下文、连贯性等诸多先进特征。
在提出GPT-3的论文《LanguageModelsareFew-ShotLearners》中，OpenAI在收集近一万亿文字（参数）的数据库后，放弃直接使用海量数据训练模型，而是转向通过三种模式筛选优质数据进行训练，从而从万亿参数归纳出众人所熟知的1750亿参数，其核心原因在于“未经过滤或轻度过滤的爬虫数据往往比筛选后数据集质量更低”。

物联网终端

近期天猫精灵。通过音箱端接入阿里大模型，做出了一款阿里版ChatGPT个性化语音助手，标志这一趋势已经开启。AIoT终端的“卖铲人”以及视频摄像头数据入口企业都拥有巨大优势。

垂直行业有绝佳数据卡位优势的企业

彭博新闻社近期发布了专门为金融领域打造的大型语言模型(LLM)—BloombergGPT就是垂直数据优势“挑战”巨头通用大模型的案例。
在过去40年里，彭博收集了海量的金融市场数据，拥有广泛的金融数据档案，涵盖一系列的主题。使用该公司数据终端的客户遍布全球，包括交易员、投行、美联储、美国其他官方机构以及全球各大央行等。这些特有数据，使得BloombergGPT比ChatGPT拥有更专业的训练语料。
据彭博社发布的报告中可以看出，研究人员利用彭博社现有的数据，对资源进行创建、收集和整理，构建了一个3630亿个标签的数据集，并基于通用和金融业务的场景进行混合模型训练，以支持金融行业内各种各样的自然语言处理(NLP)任务。

映射至国内，掌握垂直优质数据的公司，将有机会开发自己的BloombergGPT。

本文主要观点来自民生证券吕伟（执业：S0100521110003）发表的研报《当大模型不再稀缺：得数据者得天下》，有删节

关键词：