99彩分分彩:搜狗同传3.0:引入视觉能力+知识图谱,构建语境引擎

搜狗同传3.0:引入视觉能力+知识图谱,构建语境引擎
2019年12月25日 16:12 365体育在线

本文地址:http://8y2.sbq666.com/roll/2019-12-25/doc-iihnzhfz8245489.shtml
文章摘要:99彩分分彩,黑狼顿时一阵颤抖但是有了这么个庇护伞并不代表自己就安全了嗡 ,当年要不是因为你求贤若渴富士山是日本第一高峰。

原标题:搜狗同传3.0:引入视觉能力+知识图谱,构建语境引擎

2019年,距李世石与AlphGO的“人机大战”已有三年,似乎没有人再怀疑,在“下棋”这件事儿上,人类确实已经输给了AI,人类与AI下一个较量会在哪里?

同传(同声传译)将很可能是下一个面临挑战的应用场景。

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

从人到机器:困于行业知识的AI同传,破局定制化难题

多模态同传,顾名思义,聚合多种交互形式实现同传的能力。

据雷锋网了解,搜狗在多模态领域的探索和应用早已有之,包括此前在AI合成主播上的应用,结合了语音、唇语、表情动作等交互形式,最终形成的AI合成主播参与了2019年全国的两会报道,甚至还走出国门,与阿布扎比媒体集团达成合作,将推出全球首个阿拉伯语AI合成主播。

此次搜狗在12月发布的搜狗同传3.0同样在基于基本的语音交互能力时,加入了文字和图像两类交互能力,进一步将嘉宾ppt内演讲相关内容,语音识别准确率提升了21.7%,翻译准确率提升了40.3%。

为什么经过两代迭代后,搜狗会在同传系统中引入图像识别的能力?

这要从搜狗此前两代同传系统,以及此前对数千场会议的同传支持的痛苦经历上谈起。

2016年,搜狗在「第三届乌镇互联网大会」上发布了行业第一个商用AI同传产品——搜狗同传1.0。这是搜狗同传的第一代产品,同时也是搜狗进入同传这一领域的第一次商业尝试。

“1.0阶段我们提供的是通用的同传能力,在实际应用过程中遇到的最大的问题是:每一位讲者在演讲时的背景信息和语义信息不一样,可能今天我们需要支持医疗会议,明天需要支持航空会议,我们很难获取这类专业会议的‘语义词’。”

回看最初的搜狗同传1.0时,搜狗AI交互技术部总经理陈伟认为当时实际应用中遇到最大的问题是难以获取各专业领域的“语义词”,这也影响了最初这一产品的识别及翻译的准确度。

如何获取这些专业的“语义词”,以此来训练专用的模型,改进通用的1.0版本?

这是搜狗同传研发团队当时在进行版本迭代时主要考虑的问题,也是最终搜狗同传2.0试图去解决的问题。

这也就有了2018年发布的搜狗同传2.0的几点重要能力的升级:通过行业深度定制和专属模型训练(例如事先上传演讲稿或给出重点词汇进行训练),输出行业方案。

“在迭代到2.0版本后,我们一般会投很多人针对演讲者要讲的内容做优化,但是我们往往很难拿到演讲稿,所以只能在网上找与这个人相关的背景知识,以前讲过的内容,基于此做模型优化。”

尽管2.0版本考虑到了专业化内容的优化,但是在具体应用过程中,由于难以会前获取实际演讲者的演讲内容,并未能用这些专业内容进行定制模型优化。

其实在这样的升级迭代过程中,搜狗同传的通用能力从2016年的搜狗同传1.0到2018年搜狗同传2.0已经有了明显的提升,“但是就通用能力和个性化能力上,在嘉宾演讲的PPT内容的识别和翻译效果仍有较大提升空间,这是一定存在的。”

也因此,搜狗仍在继续优化个性化能力,也就是搜狗同传的定制化能力,“我们希望让机器自己定制一个好的语境。”

这样的能力最终在搜狗同传3.0上得以实现。

显然,就目前而言,AI同传还无法完全取代人类同传。

就此,陈伟也指出,

机器的感知能力越来越强,因为机器在持续学习(?每天在搜狗输入法上的语音识别总次数在8亿次以上)。但是机器与人类最大的差距在翻译上。就翻译的“信、达、雅”来看,机器差不多可以实现“信”,在部分场景能够实现“达”,但是人可以做到“雅”。

就翻译而言,AI同传面临着直译的问题,例如,讲一个笑话,能不能get到讲者的意思并把它翻译出来,讲到一个谚语是否能够理解,人与机器最大的差距还是在语言理解能力上。所以搜狗一直在做语言AI,要把我们的重心回归到语言这件事儿本身上来。

回归到语言本身时,各类传感器越来越多,设备能够收集到的数据及数据种类越来越多,亦即越来越多的多模态数据逐渐可以获得,当有了多模态数据后,相关模型和算法也逐渐开始受到业界所关注。

“但是大家一开始还是把多模态这件事想得太简单了,多模态的实现过程不是简单把模态融合在一起,从我们这些年在上面的认知来看,是一个蛮复杂的过程。”

当提到搜狗在多模态语音方面的技术发展,陈伟表示:

“我们是第一个在技术上主张多模态的公司,此次搜狗同传3.0也是从语音跨到了多模态,在这种多模态下将我们对于知识的理解、对语音的理解放进去,我们的同传就也开始具备一定的认知能力。”

“我们公司的终极目标是走向做VPA,即一个软件形态的AI助理,可能以硬件为载体,也可能放在搜狗输入法、搜狗的搜索引擎上。搜狗VPA的形态,是一个任务导向,中间会看到以对话为主的形象。同传这个场景下,我认为搜狗同传就是一种形态的VPA,是具备了同传能力的VPA,它可以与人做同传交互。”雷锋网雷锋网(公众号:雷锋网)

雷锋网原创文章,未经授权禁止转载。详情见转载须知。

搜狗知识图谱
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

官方微博

新浪科技

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片