2023年12月5日,深圳市互联网信息办公室、宝安区人民政府、网易传媒联合主办“2023新一代人工智能(深圳)创业大赛”颁奖典礼在深圳成功举办。
“2023新一代人工智能(深圳)创业大赛”旨在促进人工智能的创新发展,助力人工智能初创企业健康成长。经过海选报名和多轮筛选比拼,大赛获奖项目将由主办方从现金、流量扶持、产业资源供需对接等多维度给予丰厚激励。现场,“网易新一代人工智能产业联盟”正式成立,未来将持续加强产业、资本、媒体、政府资源的链接,为创业者提供服务。
现场,网易互娱AILab技术总监林悦以《当技术碰撞艺术:基于AI的美术资源生产》为主题发表演讲。他表示,AI技术是在程序化生产的流程下引入的一种技术手段,最主要的目标是降本增效,让整个美术资产生产的流程加速,以及实现一些传统方案实现不了的效果。
据林悦透露,目前网易互娱AI Lab的AI技术已经在互娱上百个游戏中落地,有10个游戏使用了10项以上的AI技术。团队会在实际业务中不断进行算法创新,并在AI顶级会议上发表了多篇论文,同时赢得了15个国际AI竞赛冠军,多次在GDC受邀发表技术演讲。 (记者:平章)
以下为林悦演讲节录:
尊敬的各位领导、各位来宾:下午好。我是来自网易互娱AILab的林悦,很荣幸今天有机会给大家汇报一下网易互娱AILab这几年利用AI技术在游戏生产方面的一些实践。
这是我今天的题目《当技术碰撞艺术:基于AI的美术资源生产》。
首先简单介绍一下网易互娱AILab,我们成立于2017年,是聚焦于游戏赋能的人工智能实验室,目前AI技术落地了互娱上百个游戏,有10个游戏使用了10项以上的AI技术。我们也多次在AI顶级会议上发表论文,赢得了15个国际AI竞赛冠军。我们的研究方向主要分为以下5个方向,简单来说就是3D、智能体、文字、语音和图像方向。
我首先介绍一下美术资产这个概念,这个概念是游戏的专有名词,也叫做美术资源。可以看到《巅峰极速》和《率土之滨》这两个游戏,是完全不一样的艺术风格,但游戏里面的角色、建筑、载具等等,其实都是美术同学制作的。游戏行业发展了这么久,已经形成了一套非常成熟的工业化流程,而我们AILab,主要是基于AI的技术,希望加速工业化的流程,实现降本增效,让生产美术资源更加的高效。
以我们部门的虚拟技术代言人伊芙为例,我简单介绍一下常见美术资产的制作过程。如果策划或者产品跟美术说做这样一个形象,如果仅仅只是说需要一个二次元的萌妹子角色,这种笼统的表述美术没办法制作三维模型的。我们的流程会划分为几个部分,首先是原画设计部分,策划会告诉原画师大概需要什么样的形象,原画师会把这些抽象的描述转化成具体的形象,所有形象设计层面的修改和迭代都是在原画阶段完成的。在设计过程中,原画师也会大量融入自己的艺术理解,因为在这个领域美术要比策划专业的多。比如伊芙头上带的这个像兔子耳朵一样的耳机就是原画同学自己设计的,可以体现出一定科技元素。
然后我们会把原画给到建模师,建模师会参考这个形象制作三维模型和对应的材质贴图,制作的模型和贴图导入游戏引擎后,在游戏的渲染管线下,渲染得到的效果需要能最大程度还原原画。如果是静态物体,那这一步做完就结束了,但是角色需要能动起来,所以模型制作完成后,还要交给绑定师架设骨骼、蒙皮。绑定好的角色会交给动画师,动画师会采用动作捕捉,或者手动设定关键帧的方式制作动画资源。整个生产过程其实非常类似工业流水线,一环套一环。每一款成品游戏的美术资源,都是由大量美术劳动力堆起来的
如何理解基于AI的美术资源生产呢,其实AI就是一种程序。本质上是在程序化生产这条主线下,引入一些AI的技术手段,加速资产的生产流程,以及实现一些传统方案无法做到的效果。
下面分为几个部分介绍我们的工作,第一部分是AI+原画。我们技术中心和艺术中心的同事一起做了一个DreamMaker的平台,这是一个集AI模型训练、AI绘画创作,AI资产管理的一站式AI美术云平台。通过智能优化和GPU调度,我们有着更快的出图速度。因为网易内部有自己独特风格的游戏很多,需要单独训练模型,在这个平台上可以实现一键的AI训练模型。另外,同一个项目的不同资产可以在这个云平台上可以做管理,以及这个平台目前也深度结合了游戏的实际生产管线,提供了非常多的AI绘画的解决方案。比如说角色制作、服装、场景等等,还有一些营销活动也是非常方便地使用这个云平台训练,比如不同游戏的照片风格化、表情包生成的需求等等。
第二是AI+模型。介绍一个基础设施“三维参数化人脸模型”,网易收集了500个中国人数据,年龄涵盖10-60岁,每个人有7个不同的表情。做这样的三维参数化人脸的目标是希望能够在基于图片的3D重建上得到更高的精度。有些比较了解的同学可能会说,现在其实已经有开源很多的数据库,为什么网易还要做这样的事情?理由有几个:1.版权问题,我们希望我们的技术是真的能在实际游戏产品中使用的;2.精度问题,目前开源模型的质量不能符合游戏的精细要求;3.人种区别,目前大家看到的大部分开源都是欧美的数据库,对于同样的图片,基于欧美数据库的重建结果和亚洲人重建的结果会很不一样,因为先验不同。
这是我们模型重建的效果(图示),如果本身可以提供多视图的输入,对于重建有更高的精度。
与此同时,我们还可以用这个数据集对项目组的模型进行自动批量变形。简单说就是把我们生成的模型相对于平均脸的变化迁移到项目组的游戏角色上去,这种变化可以是表情、也可以是脸型。并且所有形变都可以用项目规定的骨骼蒙皮来进行表达。
除了人头以外,我们在简模生成方面做了比较多的工作,游戏很多场景需要物体的碰撞检测,而碰撞体相比原始的模型所需要的面数少很多,譬如原来接近2万面的模型,碰撞体可能只需要用60面即可表达比较准确的碰撞关系,如何快速生成好的碰撞体是美术比较头疼的问题,经常是通过手K的方式来制作碰撞体,而我们提出的一个AI技术,可以非常方便地生成极简的水密碰撞代理模型。相关算法也发表在了今年的SIGGRAPHASIA会议上。
游戏里面会有存在有这样的一种情况,游戏中可能包含不同的体型,美术希望在做完一种体型对应的装备之后,能快速把这个装备迁移到不同的其他体型上,为此,我们也开发了装备自适应的算法,包括服装、盔甲等都能非常方便实现不同体型的迁移。
第三是AI+动画,动画是游戏中非常重要的一部分,大家看到的非常生动、活灵活现的角色,大部分都有动画师辛勤的结果在里面。
首先要介绍的是多足重定向的技术,这个技术会大量应用于旧资源迁移到新资源的场景,针对多足动画的重定向,譬如四足、六足、八足的迁移,这些动作重定向,传统也是需要美术花大量的时间做和调整的,现在AI可以非常方便实现原生动作到新的目标的动作迁移的过程。
动捕相信很多人都听过,动捕室的演员身上会有很多的Marker点,通过高速相机来捕捉这些Marker点在三维空间的坐标,来计算人体的活动轨迹,但现场的Marker会可能出现失灵或者是效果追踪不好的情况,导致后结算过程出现问题。我们和法国一家3A游戏公司合作,把动捕数据清洗这个工作做得很好,并且相关技术也发表在了SIGGRAPH会议上。这是捕捉的结果对比,这是原始含噪音的marker点,闪来闪去的就是局部的噪音,留在原地的那些点就是动捕算法跟踪丢失的marker点,这是调用我们算法得到的清洗结果。
下一个介绍的是面部动捕技术,这是一套基于普通单目摄像头的轻量级面部动捕系统。基本原理就是利用前面介绍的那套是三维参数化人脸模型对视频中演员的表情和头部姿态进行回归,然后把回归得到的系数重定向到游戏角色上。此外也会配合一些识别模型,加强算法对眨眼、视线、舌头和整体情绪的捕捉精度。
这个技术也有比较多的应用场景,一是营销资源制作,还有一种是辅助动画师制作正式的游戏动画资源。同时,我们还配合高精度三维扫描测试了我们面部动捕算法的在超写实模型上的效果。这个模型是我们自己雇了模特扫描制作出来的。我们用模特自己的视频来驱动他的虚拟角色,这样可以更好的对比表情的还原度。效果上可以看到,不管是扫描重建、还是面部捕捉,我们的技术都足够支持这种高精度的场景。
我们还接着做了一个身体动捕的技术,就是基于一个普通的摄像头,上传视频后捕捉人物动作,最后实现动作迁移到游戏角色中,这是行业内领先的技术。目前我们可以基于一个单独的摄像头,或者是需要精度更高而采用多个普通摄像头拍摄,实现对人物的捕捉。
这里有一个和《大话西游》合作的视频。大家可以看一下具体的捕捉效果,我们请了一位Up主来跳舞蹈,然后通过动作重定向迁移到游戏角色中。从视频大家也可以看到一些比较困难的动作,捕捉出来的过也是比较精细的。这个技术的好处是相比传统需要请演员和租动捕棚,现在用一个或者几个手机就能得到比较好的动捕效果。
这是结合了面部动捕和身体动捕做的《明日之后》动画素材,大家可以看一下。只要拍的清晰,手指动作也是可以准确捕捉的。
下一个介绍的也是我们比较早做的,2018年做的一个工作,基于音乐的舞蹈动画合成,只需要输入一段音乐就可以自动生成舞蹈。相关技术也发表在了SIGGRAPH上,有非常多机构follow我们的工作。用我们的技术也可以非常快地生成二次元的女团舞,包括CC直播的年度盛典也用了我们的技术做了开场舞蹈。这个技术在游戏里面也有不少应用,右边图片是一个游戏的UGC玩法,在玩家上传了音乐生成舞蹈动作之后,玩家还可以有编辑功能,编出自己觉得更合适和更好看的舞蹈。
最后,我们展示一个AI动画技术的全家福。这里面的所有动画,都是我们通过AI技术生成的,这里给大家展示一下幕后过程。目前我们这套AI动画的解决方案已经相当成熟了,经过了大量项目的验证,一直在持续不断的给各个项目组输出动作资源。
我今天的介绍到这里,谢谢大家。