一周焦点

1、聚焦北京智源大会:AI安全监管迫在眉睫;名人焦点言论;


(资料图片)

2、苹果大事件—MR引入脑机接口进行行为预测;iOS17引入大语言模型;

3、大模型:

国产大模型—悟道3.0全面开源 比GPT-4算数能力更强的GOAT大模型 灵活调用各种API的Gorilla模型 MetaVL开启下一个多模态时代 GPT写指令的程序-PromptAppGPT

4、AI应用:

Stability AI又放大招,核弹级更新一键扩图 Tafi3D角色生成引擎重磅来袭,游戏、影视动画创作将直接受益 AI医疗-Carbon Health的新AI工具,创建医疗记录
见智视角

北京智源大会堪比AI界春晚

轰轰烈烈的2023智源大会,可以说是本年度国内AI领域规格最高的、最受瞩目的大会。众多AI圈知名创始人和专家纷纷发表了言论。

总得来看,关注度最高的还是AI的安全性,人工智能正以爆发式的速度发展,未来十年可能就会出现超强AI。而对AI的风险监管等级高到要建议成立类似国际原子能机构的组织。

OpenAI的创始人Sam Altman提出两种监管方式:一是可扩展监督,尝试用AI系统协助人类监督其他人工智能系统。二是可解释性,尝试理解大模型内部运作「黑箱」。

其次,大模型的开源是必然的发展路径。

这个观点见智也曾多次在日报\周报中进行过分析,对于政务、金融等行业应用视角来看,模型的安全高于一切,必然不可能采用长期处于封闭训练的大模型作为通用大模型。Sam Altman也表示,openAI未来会有更多开源。

名人焦点:

“AI教父”Geoffrey Hinton在2023北京智源大会上发言焦点:

1、人工神经网络很快会比真正的神经网络更强大吗?会,且很快会发生。

2、算力成为了AI发展的阻碍,"activity perturbation"的算法可以用于训练神经网络,且节省算力。

3、超级智能控制问题非常重要,希望年轻一代的研究人员能够找到解决方案,使超级智可以为人类带来更好的生活同时又不会剥夺人类的控制权。

4、AI会欺骗人类,且发现操纵人来获得更多的权力很容易。

Midjourney创始人David Holz在2023北京智源大会上发言焦点:

1、 Midjourney的目标之一是建造新的人类基础设施;使用midjourney不仅仅是学习如何使用这个工具,而是学习所有的艺术和历史:

2、 用户界面友好可以让人工智能变成用户们自思维的一种延伸;

3、 当前世界害怕人工智能很正常,但同时,人们又不想要一个缺乏智慧的世界:

“索罗斯战友”、传奇投资人Stanley Druckenmiller再度力挺AI:

斯坦利·德鲁肯米勒(Stanley Druckenmiller)日前表示:人工智能可以像互联网一样具有创新性。如果对AI的判断正确,会再持有英伟达两到三年、甚至更长时间这一立场,这与罗斯柴尔德家族对英伟达的高位减持形成对比。

字节跳动创始人张一鸣在香港成立了一个个人投资基金Cool River Venture,主要聚焦科技投资,尤其是AI领域。

苹果大事件

在iOS17中加入transformer语言模型,用于提高文字和语音转文字时的准确性。

见智研究观点:

苹果使用transformer模型用于一些基础应用符合苹果一直以来的务实精神,苹果从不强调某项技术是否先进,而是要在用户体验上做到极致。这也是苹果一直强调技术落地到应用的体现。预计苹果设备在明年将会拥有自己的llm模型,而这个模型按照苹果一贯的隐私保护模式,应为纯本地化的模型。

Vision Pro里用了“脑机”,通过检测眼睛准确预测用户下一步要做什么

见智研究观点:

苹果通过全新的神经技术对人的行为进行预测,从而大幅减小了vision产品整个UI操作的延迟,大幅提升用户体验。从无数细节中可以看到,苹果在用搬山能力处理每一个细节,这个软硬整合能力,不是谁能可以随便模仿的,它所体现的每一个细节,都看出苹果花费巨大的功夫在解决交互体验。这也是苹果之所以伟大的地方。

大模型

1、国产大模型—悟道3.0全面开源

继智源悟道大模型项目连创中国首个+世界最大纪录之后,悟道3.0进入全面开源的新阶段。 悟道3.0是一个大模型系列。 具体来说,包括悟道·天鹰(Aquila)语言大模型系列、天秤(FlagEval)大模型评测体系、「悟道·视界」视觉大模型系列,以及多模态大模型系列。

见智研究观点:

特别值得关注的是国产大模型的优势在于中文语料,并且是安全合规的数据库。比如悟道·天鹰就是中英双语大模型,不只能生成中文,还能读懂大量的中文世界的原生知识(放了近40%的中文语料);并且由于规模小,该模型在消费级显卡上就支持运行,方便C端用户训练。

2、比GPT-4算数能力更强的GOAT大模型

新加坡发布AI模型,算数能力强于GPT-4新加坡国立大学推出了Goat模型,称该AI模型“专门用于算术问题”。研究人员表示,"在对LLaMA模型进行微调后,Goat在算数上实现了比GPT-4更高的准确度与更出色的性能。

见智研究观点:

专用领域的AI模型将会此起彼伏的出现,在通用模型的基础上进行专用数据的投喂和训练,很容易实现高于通用大模型的专项水平。未来还会有更多行业会采用这种方式进行AI模型训练,包括金融、政府等领域;比如微软开始向美国政府提供GPT-4和GPT-3两个大型语言模型的聊天机器人技术,未来可以基于Azure云服务进行专项模型训练。

3、灵活调用各种API的Gorilla模型

UC伯克利华人博士生做了一个以大猩猩命名的Gorilla模型,可以灵活调用各种API,性能超过GPT-4。API的功能是一种通用语言,使不同的系统之间能够进行有效地沟通,正确使用API可以提高LLM与更广泛的工具进行互动的能力。

见智研究观点:

API调用一直是LLM大模型最具有挑战对的任务之一,主要是由于无法生成准确的输入参数,并且LLM容易对API调用的错误使用产生幻觉。Gorilla的优势在于理解和推理约束能力,并且还能够大大缓解了LLM会经常遇到的幻觉问题,使得检索反馈结果的准确性更高。

4、MetaVL: 将上下文学习能力从语言模型迁移到视觉,开启下一个多模态时代

实验证明,跨模态的上下文学习能力可以转移,该模型显著提高了视觉-语言任务上的上下文学习能力,并且在模型大小方面能够有显著的优化,例如在VQA、OK-VQA和GQA上,所提出方法在参数数量减少约20倍的情况下超过了基准模型。

见智研究观点:

上下文学习能力从单模态迁移到多模态的可能性,证明了在视觉-语言任务中通过迁移可以显著提升上下文学习能力,甚至在模型大小方面实现优化。这意味着多模态情况下的对话能力将得到加强,对于现有的文生图来说可能会带来新的变化,生成模式对用户将更友好。

5、给GPT写指令的APP

CCF理论计算机科学技术委员会委员张长旺,开发了一个基于低代码提示语的快速应用开发框架PromptAppGPT,可以实现基于GPT的自然语言快速应用开发。

见智研究观点:

ChatGPT能够发挥多少能力,很大程度上取决于Prompt的质量。Prompt是指用户在发起对话时输入的初始消息,作为与模型进行交互的指令方式。所以这是为什么现在都在学习Prompt的核心原因。

而PromptAppGPT的推出能够帮助用户大大提高效率,提供多任务条件触发、结果验证和失败重试能力,可以让原本需要多步骤的手动生成任务变成自动完成,不需要自己记忆和输入繁琐的Prompt咒语,只输入任务核心必要信息就可以轻松完成任务。

应用

1、Stability AI又放大招,核弹级更新一键扩图

AI修图继续开卷,PS平替Uncrop Clipdrop一键扩图+重构图片。

Stability AI又又又更新了,它联合Clipdrop推出了Uncrop Clipdrop——一个终极图像比例编辑器。通过创建扩展背景,这个工具可以补充任何现有照片或图像,来更改任何图像的比例。

见智研究观点:

AI作图圈几乎每周都会有重磅更新,之前我们也持续对AI作图产品和工具进行更新,上周还有谷歌定制大师StyleDrop又来炸场。AI作图可以说是AI应用内卷最严重的赛道了,无论是巨头还是小厂都将作图大战进行到了白热化的阶段。从这个节奏来看,无疑是对用户端的最大利好,未来AI高质量作图免费也会成为常态化趋势。

2、强大的3D角色生成引擎重磅来袭,游戏、影视动画创作将直接受益

Tafi一家领先的3D数字内容和软件提供商刚刚宣布推出一款突破性的文本转3D角色引擎,该引擎将改变艺术家、开发人员和其他专业人士的创作过程。仅基于简单的文本输入,即可在几分钟内轻松生成高质量的3D角色。生成数百亿种独特的 3D 角色变体。 将角色直接导出到Blender,Unreal或Unity。

见智研究观点:

该款引擎的推出极大的解决了3D创作中最困难的部分,将使得3D角色创造成本更低。传统的视觉训练模型渲染非常耗费时间,而Tafi的这款基于自然语言文本生成自定义 3D 字符的引擎不仅仅使得每一个3D角色都是独一无二的,更重要的创作时间缩短到只要几分钟。这对于游戏NPC、影视动画角色的创建带来极大的降本增效。

3、Carbon Health的新AI工具通过生成记录和计费代码来减少医生的工作量

采用GPT来创建医疗记录不仅仅是能够提高医生的工作效率,同时还能够有助于提供更加标准化和一致的医疗记录,这对于不同医院病历之间的协作和信息共享非常重要。

见智研究观点:AI工具还能够为医生提供有关患者护理的指南和建议,基于大量的医疗知识和数据。这有助于医生做出更准确、更综合的诊断和治疗决策,提高患者的治疗效果。

但仍需注意的是:尽管AI在医疗记录方面具有很多优势,但它并不能完全取代医生的专业判断和临床经验。

下周关注

360智脑发布会定档6月13日。

关键词: