特邀嘉宾:凌云光技术股份有限公司董事/副总经理【杨艺】、凌云光技术股份有限公司BU总经理【熊伟】
摘要:
1、AIGC为什么火了?
(资料图)
AIGC是从文字、声音、还有图画等二维层面的应用陆续发展起来。目前人们更关心AIGC在三维世界中能做什么?首先要将技术数字化,自动化,最后达到智能化。AIGC能够通过虚拟数字人得到一次重大的发展。
2、数字人上用到AIGC技术仅有一成
虚拟人的主要制作过程包括:建模、驱动,渲染。目前AI能占10%的辅助作用。非常期待AI的参与能力能够达到90%,这样就能提高节目制作效率。还需要几次技术的质变才能达到从10%到90%的利用率提升。
3、数字人制作成本在快速下降
之前制作一个15分钟渲染的沉浸体验式节目,需要700w元的制作成本。现在基本上可以实现每分钟10w元。未来希望能够实现每分钟1w元,甚至每分钟几千元的价格。
4、产业链的核心环节是什么?
虚拟内容制作中,大量的成本是在资产创作环节。比如说数字人三维模型以及基础动画的创建,是最重要的资产内容。
正文:
见智研究:
AIGC为什么在当下突然火了,还掀起了全民热潮?
杨艺:
在互联网上原来是有UGC、PGC,现在很开心看到大家把AIGC也放在里面。AIGC首先是分成两段,先是AI,然后才是GC,也就是用AI来generate content。
现在虚拟现实和元宇宙等更多指向三维世界的创造是大家非常关心的话题,然而AIGC其实在过去是从文字、声音、还有图画、和平等二维世界陆续发展起来。
最近一段时间,二维世界中的AIGC也有了非常好的技术进步甚至能达到以假乱真的个程度。
我们现在更关心在三维世界里,AI到底能为我们做什么?
现在的AIGC在三维世界中能承担的角色还比较少。所有的技术首先要将它数字化,再自动化,最后达到智能化。
而现在的AI技术在三维世界里处理点云,再转换到自动化的内容,整个制作的过程我们还没有掌握出很好的规律,所以AI暂时是帮不上什么大忙,更多是在信息采集及处理时候的一些辅助作用。
所以AIGC目前在三维世界里的作用还比较有限,但比较可喜的事就是出现了虚拟数字人。
虚拟数字人就相等于做出了三维的形象,并且能放在虚拟世界里。声音与文字又作为载体让AIGC在三维空间中释放出活力。所以我们非常期待AIGC能够通过虚拟数字人得到一次重大的发展。
见智研究:
AIGC目前用在了数字人制作的哪些方面?
杨艺:
首先要进行建模,建模了之后要驱动,驱动之后要基于各种环境进行渲染。在用光场技术获取点云的时候还会经常出现一些干扰。
当需要进行修补工作的时候,AI技术可以很好地加速修补这样的自动化工作。在驱动过程中,从动作采集到自动驱动甚至智能化驱动,AI技术也能比较好地发挥它的作用。
另外我们都知道渲染是需要很多适应光的照明条件,目前AI只能占到建模渲染驱动上10%的辅助作用。
我们非常期待它的参与能力能够达到90%,这样就能大幅的加快节目制作的效率。我们还在不断地打磨,还需要几次技术的质变才能达到从10%到90%的利用率的提升。
进行渲染的工具是比较复杂的。首先在装备上需要做的稳定可靠,获得的信息要完整,而且它还要软件结合,和软件也结合在一起,这是一个工具基础建设装备的过程。所以在这十年中,我们有了这些基础,就有幸参与到了整个虚拟数字人的成长阶段。
在世界 VR 大会上发布了对虚拟数字人的定义:
第一个 level 就是三维建模,首先,先获得一个数字人的形象,基本上是用来做平面宣传,相对偏静态的;
第二个 level就是我们跟动作已经绑定在一起了,所以他需要采集和动作合在一起;
第三个level就开始要形成很好的实时渲染能力,能够实时表演;
第四个 level是要有 AI 的能力,比如说像冬奥手语,数字人之类直接来进行回答你的问题;
第五个 level我们定义为是需要智能,不仅能够有 AI 的知识,还能够进行交互,而且在交互的时候你能懂得他的表情,他也能够懂得一些你的语气语义所带来的这种含义。
目前,虚拟数字人制作起来超级贵,甚至达到千万级别,我们基本上做一些名人的数字人,比如说去制造邓丽君,梅兰芳大师等,制作过程非常精细,甚至需要带着一定的微表情,基本上都要手动去每帧去调整,然后每个面片每个面片去绑定,所以成本就是非常昂贵。
当然,不同的 level 的追求和费用是不一样的,而且它背后牵扯到的技术还没有达到全自动,这个效率又决定了费用的提高。
目前我们开发这么多的装备和软件以及算法,就是为了让工作效率提升,未来用 10 万级的成本就能够实现现在百万级的数字人效果。这是未来一年到两年的时间我们的主要的奋斗目标。
见智研究:
未来要实现这种级别的跨越,可能会涉及到哪些软硬件升级?
杨艺:
首先在数据采集这个层面上,最初都是用3D的照明,相当于数字人的采集系统。
它是用复杂的散斑照明系统,来模拟各种环境光的照明,甚至还增加偏振,让各种色彩维度的信息的能够模拟,包括人脸上的皮肤发质等等在不同的环境下能够被很好地适应。
在今年年底,在研的last stage 的产品就能够比较好地服务于我们的应用,整个后面的渲染工作就可以从原来完全无法自动化向自动化推进一些。
另外,我们希望动作捕捉系统能够有更高的精度,同时在算法软件上,也就是运用一些 AI 的技术,把我们大量采集到的数据中获得的一些噪声和干扰能够比较充分的剔除掉。
这样获得的数据能够比较好的推动自动驱动和自动绑定技术,所以算法工作,还有的硬件装备的提升,对整个工作的自动化的提高,会产生很大的推进效果。
而且的话我觉得我们比较有幸能看到,在渲染引擎上,无论是国内还是国际,尤其是国际的UE ,从 UE 4 到现在的UE 5确实是在数字人这个层面上的后期升层过程中已经是非常友好,都高了很多,所以这些话合在一起的话,能够让数字人更加逼真性和写实。
见智研究:
数字人距离大规模的商用还有多远呢?
熊伟:
虚拟人在音乐主播、线上表演、电商直播、教育、银行客服等方面都已经在展开。但是制作成本相对来讲比较高的。
随着这两年AI的制作技术的大幅提升以后,数字人无论在形象上,还是解决问题的能力上会越来越满足大规模商业化的需求,未来两到三年的这个时间之内可以实现的。
之前湖南博物馆的项目经验,制作一个 15 分钟的一个深度沉浸体验式的节目,需要700w元的成本。
现在我们基本上可以做到每分钟达到 10 w元。但我们的目标是希望未来能够实现每分钟1 万,甚至每分钟可以几千元。这样的话,会迎来比较规模化的商业到来。
见智研究:
数字人产业链是如何划分的?
熊伟:
从创造数字内容或者是我们沉浸式角度来讲的话,大概可以分为四个层级。
那基础的层级就是通信,运算, GPU 运算、 CPU 运算,云计算、区块链等底层技术。
在上一层是交互体验终端,像是XR、3D显示。
然后再上一层就是创作内容,包括内容制作工具,内容制作的团队,创造 IP的团队。
顶层,就是应用以及运营分发平台了。
见智研究:
这个行业的核心的竞争力是什么?
熊伟:
未来其实整个数字人的平台的制作,它其实是一个多环节组成的,就是我们刚刚前面说的这种关键技术,是里面一个很重要的核心点。
当然整个数字 IP 打造是另外一个核心点,就是说最后我们要创造这种普通的真人艺人一样。那你数字人怎么让一个艺人成名怎么有价值,这也是非常重要的事情。
最后就是我们也要让他有真正的一些商业的链接去做。
当然前期我们觉得目前真正卡住数字人以及这种虚拟现实产业往前发展的地方还是在技术环节。
因为这么多年,原来我们创作内容还是位于那种影视游戏这种离线内容创作来用的。但是到了元宇宙虚拟现实环节,我们的内容大量是要实时交互的,它要一个更加高效的创造内容的情况,才能让我们的产业大面积商业化。
这部分就是我们刚刚说到了还有很多要走的路,它能够让它变成未来像我们今天看到的短视频这种媒体大面产生的状况,这个是我们要去突破的地方。
见智研究:
创作数字人过程中,哪一个环节的技术迭代是最重要的?
熊伟:
我觉得有多个技术环节都很重要。但是我觉得就是像底层那些渲染这些引擎,游戏。
但是本身数字人的资产创建环节,这是里面最核心的,其实我们整个虚拟内容产生的里面大量的成本是在资产创作的环节,就比如说我们数字人三维模型以及它的一些基础动画的创建环节,这是它的最重要的资产内容。
好在是我们现在就是有这样的光场重建技术,它是相当于能够把我们现实世界当中所有的物体反射出来的光线信息全部收集起来的技术。
然后这样计算出它人体或者物体表现的这种特性的信息以后,然后把它输入给引擎,我们渲染引擎就可以完全 1 比 1 的还原出我们的所有物体。
但是这种之前都是靠人工一点点的去靠他自己理解去做出来的,这种效率就很低,真实度也很难保障。
而有了这种光场呈样技术,未来就可以大量存在。而且在现在的光场成像技术以后,还有了未来升级的空间,就是用 AI 去生成光场,原来我们光场是靠光学技术去还原去计算得到的,这个对于整个光学系统要求很高很精密。
但是我们通过积累大量的高精度光场数据,采集数据库以后,我们用 AI 学习,将来可以更加轻量化的去产生我们大量内容,这让我们的数字生产能够更加高效、更加低成本的产生。
杨艺:
光场采集系统可能对很多听众来说都很陌生的词。
可以这样去理解,就是说我们是过去拍照片,那整体上都是从一个角度来对大家进行拍照。
但事实上我们真正活在这个世界里面的光是从各个维度来去,就是照到我们每个物体,每个人,都是这样。而且光所带来的信息不仅仅是强度、颜色,还有非常多的光谱信息、偏正态的信息,还有很多时序层面上的信息。
其实光本身实际上是里面有很多的高维度的信息,然后我们用光场采集系统,就是把这些高维度的信息也要把它模拟出来。实际上这就是我们为什么在现实生活中,我们人的眼睛看到的世界其实还是蛮丰富多彩的,还蛮细腻的。
但是我们单纯用我们原来的相机成像传感器,实际上拍到的信息是达不到那样的效果的。这就是需要要把人眼睛所能感知到的高维度的信息,也能用数学和装备的方式把它解算出来。可能将来就是现在学光学的年轻人已经越来越知道,计算成像已经不再是陌生的词了。我们当时读大学的时候,这都还不是我们学习的知识内容。光场是把立体的事物数字化的,实际上相当于是信息采集的灵魂。
所以我们这个地方是可能今天先理解一下这个词的存在,然后光场技术的进步,还有它的解算能力是里面一个信息采集的源头,一定是好的 information 再经过处理就能得到好的结果。所以就信息的源头的丰富性是清晰处理的关键。
见智研究:
未来随着数字人渗透率的提高,我们还会在哪些领域看到数字人的应用?
熊伟:
数字人早期偏娱乐应用,现在我们发现它可以从事非体力劳动,就是我们用脑力劳动的地方都可以用上数字人,它可以代替我们大量的人去做回答问题的重复性工作。
比如电商领域介绍商品,金融推荐产品,医疗领域、交通领域做简单的问答,这都可以大量的去代替真人从事服务劳动。
随着 AI 进一步提升,将来可以代替个人去进行陪护、交流以及更多表现力的工作。
见智研究:
可以分享一个数字人的制作案例吗?
熊伟:
手语数字人的创立过程其实非常有意思。我们最早想的可能只是做一个能够动起来的这个动画,可能很多条件都是标准的固定词汇,我们觉得可能还比一般的 AI简单一点。但是后来发现它比一般的 AI动画数字人难度更高。因为手语数字人对准确性要求非常高。
一般 AI 的数字人其实只要表达出大体的情态、情绪是对的就行。但是手语数字人要传达信息的每一个动作,每一个表情都要非常精准,而且要连成一段故事,是一段段完整的句子,这样聋哑人才能看得懂。特别是我们还拿它来做新闻播报,准确性要求就会更高。
所以我们做了大量的工作,才最终达到了我们真正在电视台上面看到的这种冬奥手语数字人的自动播出。
这里面有我们前期大量的录制的手语老师的标准动作,也有我们用 AI 的方式,去适应聋哑人的这种语序语调。
它的整个句子的语法跟正常的口头表达还不太一样。在新闻播报的时候,由于手语是靠动作去表达,而不是说出来,语速要比我们真人的说话语速要慢很多。要做到同步翻译,还要对每一句话的信息缩减,提取关键词才能够赶上实时翻译的速度。
这里面有很多的挑战,从我们的动作准确性也好,从我们的 AI智能分解也好,都比往常提出了更高的要求。
通过不断的修改,我们最后也达到了90% 以上的可懂度。在安全播出的过程中我们也有了很多实践的验证,会有专门的手语老师进行这个新闻播出之前的审核,然后去确保所有手语动作的准确性。最开始手语老师还担心以后被替代,但后来我们发现手语数字人其实是缓解手语老师工作量的技术。原来一位手语老师可能参与30分钟的节目播出就会满头大汗,这是一种体能的消耗。现在可以连续审核几个小时以上,甚至可以同时审核多档节目,大大提高了工作效率。
见智研究:
不同类型数字人的创作的过程和技术支持有什么差异?
熊伟:
数字人直播带货的时候,其实是在数字人基础上增加一个虚实融合的播出内容。
现在纯虚拟数字人跟真人的交互虽然让大家有新鲜感,但同时又产生一些距离感和不真实的感觉。所以我们在创作的时候,比较多的会是去采用数字人和真人结合的一起播出的形式,更好地去跟观众进行互动。在做这种节目的时候,需要在现场做出一种趋势融合的直播系统。
通过专业的光学追踪设备识别真人在什么位置,虚拟人在什么位置,虚拟场景在什么位置,最后把他们拍摄在一起。同时我们在虚拟主播的时候还需要解决在播出之后无人值守的问题。所以我们要产生相应的一定的 AI 数字能力来实现数字人在真人主播下线的时候,还能够代替真人主播的过程,做到24 小时不停播的效果。
见智研究:
数字人应用最快落地可能是哪几个领域?
熊伟:
数字人的应用其实是一个从娱乐向产业的转化过程。
目前来讲主要还是应用在娱乐的主播,我们的文旅,包括教育这些领域。主要是因为我们可以用真人驱动,就可以进行表演进行互动,就可以产生内容的这种场景。而且可以更好的替代真人的形象,让大家能产生亲和力,生成的内容也更加丰富度多样化。
随着我们给AI 的赋能变得越来越多,它也会被应用到金融、医疗等更多的领域,但也赖于我们 AI 技术的一个成熟的发展的一个过程。我们相信随着数字人越来越多,大家为数字人创造的数据库、数据资产越来越多,我们AI 的进步也会很快的。我相信在更多产业的应用到来,也不会太久。
关键词: level