新技术让虚拟主播轻松上岗语音动画合成让视频制作更简单

2019-06-21 11:08:16来源：科技日报

日前，2019北京世园会正在如火如荼的进行，园中游客涌动，线上观众也“络绎不绝”。而大部分线上观众应该也都认识了两位吉祥物——小萌芽和小萌花。

两位虚拟主播拥有憨态可掬的3D胖娃娃形象、逼真的动作表情，说话时连口型都与真人无异。据统计，自世园会开始后，由杭州相芯科技有限公司与北京电视台联合制作的“小萌花&小萌芽带你看世园”这一讲解世园会亮点的视频，在微博、秒拍等多个播放平台目前点击量已经接近1000万。虚拟主播技术乘着世园会的东风，再一次刷了一波存在感。

身兼多职虚拟主播华丽变身

虚拟主播最早可以追溯到虚拟主持人的时代。

2001年，英国PA New Media公司推出了世界上第一个虚拟主持人阿娜诺娃。这个只有头部动画、表情也略显僵硬的2D虚拟人物，凭借着可快速制作视频、24小时持续播报的特点，在全球刮起了一阵打造“虚拟主持人”的飓风。

“美、韩、日纷纷跟进，我国央视在2004年也推出了国内首位虚拟电视节目主持人——小龙。它采用三维形象技术，拥有高挑的身材，集合了刘德华、梁朝伟和金城武的‘脸部精华’，并可单独主持栏目。”杭州相芯科技有限公司(以下简称相芯科技)产品经理马骁驰在接受科技日报记者采访时表示，但其制作成本其实远超聘请一位专业真人主持，因此这把星星之火还未燎原便悄然黯淡下来。

几年后，人工智能的兴起给各行各业带来了新的视角，虚拟主持人摇身一变，升级成了虚拟主播。

“除了强硬的主持功底，虚拟主播将人工智能与三维虚拟形象技术结合起来，可以极大简化策划、编辑、主持、制作等一系列工作，快速提升播报效率。”马骁驰告诉记者，编辑人员仅需输入文字，很快就能自动生成虚拟主播的视频，“一点不用操心”。且相比过去的虚拟主持人，虚拟主播无论是表情、神态，还是形象、动作，都更接近于真人状态。

降低门槛语音动画合成让视频制作更简单

可以预见，虚拟主播在传统媒体、IP运营、自媒体视频内容制作等领域具有“通吃”的美好前景，小萌芽和小萌花掀起的热潮就是很好的佐证。

这两只萌物是如何制作出来的?“该虚拟主播的核心技术是语音动画合成技术，其融合了人工智能和计算机图形学两方面原理。”马骁驰表示。

在他看来，这样解决了打造虚拟主播的三大难点——采用深度学习算法精准理解语音中的文字信息;自主研发的人脸表情肌肉单元技术能够准确地驱动面部表情和口型动作，提升表达的生动性和真实性;通过人工智能算法展现出口型、表情的过渡性动画，保证了说话字和词之间的连续性和自然性，最终呈现出完整的虚拟主播效果。

在真人形象领域，传统的视频制作，通常需要专业摄影师、剪辑师、主持人等一大批专业制作人员，成本居高不下;在动画模型领域，传统动画制作都是原画师一帧一帧来绘制模型表情和口型动作，不仅成本很高，还难以做到语音和口型匹配，通常至少需要30张图片才可以制作1秒的动画内容;动捕技术则需要真人来实时扮演。

“如果采用语音动画合成技术，仅需具备文字编辑能力的运营人员就可以单独制作视频，且可以极大提高视频新闻制作的时效性，并能够自动实现动画模型的口型和表情驱动，降低了动画制作门槛。”马骁驰说。

多线挖掘尖端服务落户寻常人家

在整个传媒行业向融媒体大踏步前进的背景下，各大媒体都在向移动端发力，各类短视频、H5、小程序等新的传播形态频出。

在马骁驰看来，虚拟主播技术加持后，各大媒体可实现24小时播报，且呈现方式都更具科技感、新颖性，更符合年轻受众的喜好。

作为新兴事物，这一技术还有更多的潜力有待挖掘。

现阶段的动画形象都是制作方事先设置好的固定形象，然而在这个人人都能当主播的时代，能否让用户根据自己的相貌生成虚拟形象呢?

“我们计划采用3D模型的技术，将生成与驱动打包成一整套解决方案。让用户和客户可以自主通过照片生成形象，并将该形象设置成虚拟主播，来实现更好的人机交互体验。并且打造一套SaaS服务工具平台，提供从前端编辑界面到后端视频制作的一站式服务，客户登录账号后，可通过输入文字、插入动作、插入视频等手段快速制作主播视频。届时，对于普通用户高不可及的虚拟主播技术也能‘飞入寻常百姓家’了。”马骁驰表示。

标签：