13910160652
010-52852558
| |EN
首页 > 互联网 > 人工智能
  • 13910160652
  • ciplawyer@163.com

人工智能让新闻主播“分身”有术

日期:2019-03-21 来源:中国知识产权报 作者:刘仁 浏览量:
字号:

原标题:新华社、央视联合搜狗相继推出AI合成主播,只要提供文字,便可实现24小时零失误播报——人工智能让新闻主播“分身”有术


日前,一年一度的“3·15”维权晚会如期举行,今年中央电视台请来了一位帮手——以主持人姚雪松为原型的AI(人工智能)合成主播“姚小松”,播报预告“3·15”晚会相关消息。而在刚刚闭幕的全国两会期间,新华社继去年推出以邱浩为原型的AI合成主播后,再次推出以屈萌为原型的AI合成主播“新小萌”,向世界播报我国两会盛况,引来众多外媒关注甚至“惊叹”。


这些AI合成主播运用搜狗分身技术,能够在提供文字的情况下自主播报,与真人看起来几乎无异。作为融媒体发展的积极探索,人工智能如何让新闻主播“分身”有术,是否真的在淘汰传统新闻主播的路上又前进了一步?


主播“分身”实现24小时播报


在今年两会新闻播报中,观众可以看到“新小萌”已从过去AI合成主播“坐着”播新闻,升级为具有肢体动作的“站着”播报,其长相、声音、表情和主持人屈萌几乎达到了以假乱真的程度。这正是搜狗分身技术在传媒业的具体应用。


“搜狗分身技术可以实现机器逼真地模拟人类说话时的声音、嘴唇动作、表情以及肢体语言,创造出人类的AI分身,从而代替人类从事一些低脑力劳动,将人类从繁琐单一的工作中解放出来。”搜狗语音技术交互中心负责人陈伟在接受中国知识产权报记者采访时介绍,运用搜狗分身技术,通过录入真人主播的手势、表情、语音,只需几个小时的视频资料就能训练出主播的虚拟“分身”。当“分身”制作完成后,只需输入文本,合成主播就能声情并茂地播送新闻,而且不会出现真人播报时容易出现的口误等问题。


对于极重时效的传媒业,AI合成主播的意义显而易见。陈伟认为,一方面,AI合成主播大大缩短新闻制作流程,无论何种场景都能快速上岗,还能做到24小时不间断播报,保证了新闻时效性;另一方面,该技术将主播从技术含量较低的播报中抽身出来,腾出更多的时间和精力录制访谈类、深度报道类节目。


截至目前,新华社的AI合成主播已生产几千条新闻报道,参与了包括第五届世界互联网大会、首届中国国际进口博览会、2019春运、春节、两会等若干重要新闻的报道。


“分身”专利提升智能化水平


虽然搜狗最早于去年7月对外公布“分身”技术,但陈伟介绍,AI合成主播并不是花几个月就突击出来的,而是搜狗从2012年就开始投入语音识别相关研究以来,融合了多项前沿技术的集大成者。


具体来说,AI合成主播在模型训练方面,主要涉及人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移、深度学习等多项技术,还需要结合语音、图像等多模态信息进行联合建模,生成与真人无异的AI分身模型,而在提供文本进行输出时,又会涉及语音合成、唇形合成、表情合成等技术。其中,语音合成是通过机械的、电子的方法产生人造语音的技术,搜狗采用了目前最先进的端到端基于神经声码器的技术,可以让发音的真实度大大提升。


出门问问信息技术有限公司知识产权高级经理胡延对搜狗的人工智能技术进行了初步检索,从检索结果来看,2015年至2018年搜狗在语音和视觉处理等人工智能关键技术方面的专利申请量呈现显著增长趋势,其中大部分是在国内进行专利布局,也有一少部分通过《专利合作条约》(PCT)途径提交国际专利申请;从专利类型来看,发明专利申请占比达到了99.5%;从分类号来看,视频图像处理、自然语言处理、自然语言合成、语音处理及合成等领域的专利申请数量基本持平,可见搜狗对这些关键技术的研究投入比较均衡;涉及“AI合成主播”的关键技术,搜狗也提交了相关专利申请,不仅包括面部、唇形合成等技术,还对皮肤如何进行处理等技术细节也进行了专利布局。


“对我们而言,分身技术的发展还只是起点,未来还有很多需要突破的难点。但我们一直在通过提交专利申请,进行相关布局。”陈伟表示。


AI技术助力融媒体发展


在AI合成主播惊艳亮相之初,有人觉得,表情僵硬,感情欠缺,也有人惊呼,新闻主播将面临失业危机。


实际上,在“人负责脑力思考,机器负责运行和计算”的现阶段,AI合成主播还有很大的局限性。搜狗CEO王小川曾表示,AI技术分为感知技术和认知技术。在感知声音、图像等技术方向上,机器基本有机会可以做到跟人一样好。但是在认知技术方向上,机器背后的推理、知识、思考,以语言为核心的逻辑性内容,机器的处理能力则是有限的。


在胡延看来,目前AI合成主播还只是根据输入的文本信息进行播报,表情不够丰富,也缺乏互动能力,结合语境的能力有限,只能在相对简单的场景下应用,比如普通的播音场景,而在对语言和情感要求高的场景下,目前新闻主播还是无法取代的。


对于陈伟而言,眼下他主要解决的还是逼真度的问题。“AI合成主播无法避免与真人对比。随着观众的期望越来越高,就会关注主播的微表情,比如开心时有些眉毛上扬或者微抖动以及语音合成在情感和情绪上的处理等,这些都是需要攻克的问题。”当然,他希望未来“能够给用户创造出具有自然交互与知识计算能力的分身模型和分身能力”。


值得关注的是,在媒体加速转型发展的当下,借力AI已成大势所趋。不少新闻媒体单位积极探索人工智能与新闻场景的深度融合。胡延认为,AI技术在数据采集、处理等方面具有优势,可极大提升传媒业的效率,提供更丰富的新闻产品形态,也有助于媒体精准营销。新华社相关负责人表示,与搜狗合作推出AI合成主播,是新华社运用人工智能技术,推动媒体融合发展的重要举措。双方将结合自身业务发展需要,以AI合成主播项目为核心,在人工智能应用于新闻采编领域开展全方位合作。