16问搜狗陈伟:搜狗逼真AI合成主播背后的“热”_热评资讯网
16问搜狗陈伟:搜狗逼真AI合成主播背后的“热”
分类:产品运营 热度:

16问搜狗陈伟搜狗逼真AI合成主播后的“热”技术

2019年03月16日

导语:近日,雷锋网(公众号:雷锋网)就“搜

导语:近日,雷锋网(公众号:雷锋网)就“搜狗分身”技术以及升级后的AI合成主播,与搜狗语音技术交互中心的陈伟进行了面对面的交流。

2019年2月19日,搜狗和新华社新媒体中心联合推出的全球首个站立式AI合成主播,举行了升级发布仪式。新一代的AI合成主播从过去“坐着”播新闻,升级为具有肢体动作的“站立式播报”。AI合成主播的新闻播报方式,实现了重量级的突破。3月3日全球首位AI合成女主播“新小萌”正式上岗、向世界报道中国“两会”的盛况。

2018年11月,乌镇世界互联网大会上,以新华社CNC主持人邱浩为原型的AI合成主播首次亮相,一经面世就引发了公众极为热烈的讨论。这不仅是“搜狗分身”技术首次应用于新闻行业中,同时也是未来融媒体发展探索的一个重要方向。

16问搜狗陈伟:搜狗逼真AI合成主播背后的“热”技术

雷锋网了解到,截止目前,入职新华社的AI合成主播,已生产几千条新闻报道。参与包括第五届世界互联网大会、首届进博会、2019春运、春节、两会等若干重要事件的报道,显然,已经成为了国内人工智能与传媒业大胆融合并付诸规模化应用的典型案例。

“搜狗分身”技术可以实现机器逼真的模拟人类说话时的声音、嘴唇动作和表情,并将三者自然地匹配,创造出人类的AI分身。此次,除了声音、嘴唇动作、表情等,“搜狗分身”技术升级了AI合成主播肢体语言的能力,让AI合成主播从整体形象、动作细节、立体感觉方面有了更加逼真的效果。

而“搜狗分身”技术在新闻行业中的第一次落地,更为重要的意义,在于解决了新闻播报领域的效率问题。新闻播报受限于场地、时间、资源、主播个人的精力等等问题,因而“人类”主播每天的产出量十分有限。目前,新华社利用搜狗的技术,只要将每天想要播报的新闻以文本形式输入,便会在几秒钟后生成一个完整的视频,在新闻客户端APP上线,且中英文不同类型的语种视频均可支持。

一方面,新闻速度要求较高,采用“搜狗分身”技术,保证了新闻时效性。另一方面,该技术将主播从日常繁重、单一、没有技术含量的播报中,抽身出来。腾出更多的精力、时间录制访谈类、深度类型的新闻报道节目中去。

其次,“搜狗分身”技术早已筹备多年,在搜狗知音大的基础框架之下,孵化出很多不同的技术,从感知能力到认知能力均囊括。搜狗希望围绕搜狗在AI人工智能战略自然交互+知识计算,做出更多突破。早在2012年搜狗围绕感知层面的交互,就做了语音识别相关研究。

随着时间的推移以及技术的进步,识别这状态逐渐从语音识别到多模态识别。即语音识别之外,还增加了手写识别、唇语识别等等不同识别技术结合、叠加在一起识别能力。

而搜狗最早公布“分身”技术,可以追溯到2018年7月,搜狗CEO王小川在香港,正式对外宣布该项技术,现场王小川展示了一段结合唇语合成、语音合成、音视频联合建模与深度学习技术,可驱动机器生成对应的唇语图像与声音,进而输出统一的音视频素材。近日,雷锋网就“搜狗分身”技术与搜狗语音技术交互中心的陈伟进行了面对面的交流。

16问搜狗陈伟:搜狗逼真AI合成主播背后的“热”技术


陈伟介绍称,在语音理解认知层面,搜狗语音技术交互中心主要做机器翻译和自然交互的研究工作。在表达层面,目前更多集中在多模态表达的研究。基于从识别再到理解、认知,再到表达整个闭环。当然,除了音频之外还有音视频的表达方式。陈伟所在团队有两条大条线在做语音交互:第一,怎么能够让人机交互更自然;第二,语音翻译、语音同传的能力。

陈伟认为,未来的发展方向语音不会是唯一的一种表达,而是如何将其与多模态信息融合起来。在交互的框架下,引入与语音、同传等更多的信息,以及语音、图像等能力相互结合。陈伟说,“技术一直在持续迭代中,目前搜狗具备了在整个分身的技术方面快速落地的稳定能力。不仅仅停留在实验室的模型阶段,而是跟更多行业内不同领域的场景、产品深度结合。AI合成主播原形的工作性质发生了很多变化,AI分身落地之后确实改变、影响每个人未来的工作方式和状态。”

上一篇:“315”进行时|遭理财经理电话“骚扰”?信用卡逾期被催收?金融消费谨防这些“坑” 下一篇:从波音737MAX失事反思数字化技术应用!
猜你喜欢
各种观点
热门排行
精彩图文