吴恩达：从文本AI革命到视觉AI大变革

著名计算机科学家Andrew Ng在近期的AI硬件峰会上宣称：“我们在文本领域所见到的革命将会出现在图像领域。” Ng展示了一项他称之为“视觉提示”的技术，使用Landing.ai的用户界面，通过在图像上涂鸦来提示AI代理识别图像中的对象。在舞台上的短短几分钟内，演示了如何提示代理识别一只狗，并计算培养皿图像中的细胞数量。

(资料图)

Ng告诉观众：“在计算机视觉领域，就像三年前的自然语言处理（NLP）会议上的情况一样，目前有一种特殊的氛围。”他解释说，进展主要是由大型transformer 网络推动的。这对于文本处理中的大型语言模型（LLMs）是成立的，而且在视觉领域，使用未标记的数据进行训练以及扩大模型规模也正在成为事实，“这有助于[视觉]模型的泛化能力”。

Ng指出大规模视觉模型（LVMs）的技术尚未成熟，尽管人们对其充满期待。在讨论中，Ng提出了一个未解之谜：如何为训练大规模LVMs所需的数据提供来源？目前，最大的文本生成LLMs通常依赖于互联网上的大量语料库进行训练。互联网能够提供大量未标记、非结构化的训练数据，而少量标记数据可以用于微调和指导调优。

通常，视觉AI需要使用标记数据进行训练，但Ng认为情况可能不会总是如此。采用将图像的部分区域隐藏起来，然后由神经网络填补这些区域的技术可以在未标记数据上进行视觉网络的训练。

另一种途径可能是合成数据，但至今为止，合成数据对于生成数以万计文本标记所需的代ChatGPT大小模型的代价太高。

Transformer 网络在语言AI中占据主导地位，并且正在进入视觉AI领域。Ng认为，Transformer 最终会成为所有形式AI的事实上的神经网络架构吗？

他表示：“不，我不这么认为。Transformer 是我们工具箱中的绝佳工具，但我认为它们不是我们唯一的工具。”尽管生成式AI为大量可用的非结构化数据带来了奇迹，但它对于我们处理结构化数据的能力并没有提供帮助。结构化数据，比如电子表格中的数字列，不适合Transformer ，因此仍然需要采用其他方法进行AI处理。

在当前的趋势中，LLMs越大，它们在泛化方面的能力就越好。但是LLMs可以变得有多大呢？是否存在实际上的极限？Ng表示：“我认为我们还没有用尽扩展的可能性。但现在它变得困难了，我认为还有其他创新途径。”他指出，在许多用例中，一个含有130亿参数的模型和一个含有1750亿参数的模型的性能可能是一样的。对于像语法检查这样简单的任务，一个运行在笔记本电脑上的30亿参数模型可能就足够了。

对于基本的文本处理任务，比如情感分类，10亿参数可能已经足够了，可以运行在移动设备上，而处理对世界有“相当多知识”需求的任务可能需要数百亿的参数，更复杂的推理可能需要千亿级的参数。

他说：“有可能未来我们将看到更多的应用在边缘设备上运行。当您需要进行真正需要1000亿参数模型的复杂任务时，我们将退而求其次，但我认为许多任务可以使用更适中规模的模型运行。”

Transformer 及其基于的注意力机制是六年前发明的，但到目前为止，硬件制造商只是在谨慎地开始专门为这个重要工作负载定制加速器。对于Transformer 的架构是否已经开始成熟，或者我们应该期待这个工作负载在未来会有更多的演变？

他表示：“这很难说。”他说：“原始论文是在2017年发表的……如果这是最终架构，我会感到有点失望，但我也愿意接受震惊。注意力机制效果非常好。生物和数字大脑有很大的不同，但在生物智能中，我们的大脑就像演化将各种元素组合在一起一样——但它确实非常高效。在Transformer 之前，神经网络也能做得很好。再看看x86架构已经持续了多久！”

本文作者：陶烟烟，来源：芝能汽车，原文标题：《AI Text Revolution is Coming to Images》

关键词：