本篇文章1712字,读完约4分钟
你可以通过移动你的嘴来说出你在说什么。中国著名互联网公司搜狗推出的中文“唇语识别”技术最近在乌镇引起了广泛关注,杀死了大量的黑技术。笔者从搜狗了解到,搜狗引进的人机交互新技术“唇语识别”,是业界第一个公开演示的“唇语识别”系统。通过机器视觉识别,说话者的嘴唇只能通过识别说话者的嘴唇运动来解释,而不能听声音。
当谈到为什么引进这项技术时,搜狗说,在搜狗发展唇语言识别的初衷是因为搜狗搜索和输入法都在处理语言。一方面,它帮助人们用声音表达,另一方面,它通过语言在互联网上获取信息。语音正在成为人机交互的主流方式,但是在一些嘈杂甚至安静的环境中,语音可以发挥有限的作用。在这种情况下,我们需要发展基于视觉的识别能力。
业内人士认为,上市后,搜狗将随着其在人工智能领域技术研发的不断深入,逐渐形成差异化竞争,而搜狗对人工智能的探索也不会止步于此。围绕语音交互入口等多形式人机交互模式,搜狗将在更多领域取得进一步进展。目前,搜狗的技术产品主要包括搜狗输入法、搜狗同声传译、搜狗听写等产品。
在垂直场景中达到90%的精确度
从键盘打字到触摸屏,再到现在的语音交互和手势交互,人工智能技术的发展正在推动人机交互向更加多样化的方向转变。据了解,与语音识别不同,“唇语言识别”是一种基于机器视觉和自然语言处理的技术,因此它比语音识别更难开发。
经过一年多的研发和反复修订,目前,搜狗唇语识别系统在非特定开放式口试中的准确率已经达到60%以上,超过谷歌发布的英语唇语系统的准确率50%以上,甚至在汽车、智能家居等垂直场景中的准确率也达到90%。
据报道,搜狗首创了复杂的端到端深度神经网络技术来模拟汉语唇语序列,并用数千小时的真实唇语数据进行训练。陈伟介绍说,搜狗的“唇语识别”技术已经通过了10万多个中文单词训练数据,而谷歌的英语唇语系统只有1.7万多个单词。此外,由于搜狗在自然语言处理方面的强大优势,它最终达到了业界领先的唇语识别效果。
在最近结束的乌镇世界互联网大会上,搜狗的嘴唇识别技术被公之于众。在行业内大多数唇识别技术的实用性尚未得到验证的环境下,中国唇识别系统在行业内的首次公开展示成功完成,引起了广泛关注。
人工智能的发展促进了多种交互方式
当国内大部分企业聚集在智能语音和图像识别领域时,唇识别技术在搜狗的引入无疑将引领整个行业进入一个新的发展方向。
作为人机交互的一种形式,未来的唇语识别技术可以辅助语音交互和图像识别,广泛应用于日常生活、安全、公益等领域。例如,在车辆场景中,当环境噪声太大时,会干扰语音命令。唇语言识别技术可以避免干扰,保证人机交互的准确性和稳定性。在不方便每天发声的公共场所,也可以保证语音内容的私密性。
在安全领域,“唇语识别”更有价值,尤其是在摄像机场景中语音采集存在盲区时。陈伟表示,由于目前的监控系统大多只有摄像头,没有麦克风,摄像头获取的数据比较单一,没有音频输入,所以他们往往只能看到口型而不知道说什么,这给案件分析带来了很多困难。目前,大多数技术都集中在图像分析、人脸或行人检测和监控上,无法直接获取用户信息。然而,唇语言识别技术可以帮助公安人员获取重要的语音信息,为公共安全提供有效的支持。
此外,唇语识别技术还可以发挥巨大的公益价值,帮助先天性听力障碍者或老年人更好地理解和表达自己。
作为一个技术驱动的企业,搜狗近年来一直致力于自然语言的研究。目前,它在语音识别、语义理解、机器翻译等方面取得了行业领先的成就。唇语识别技术的引入不仅将推动整个人工智能行业的技术创新,也意味着搜狗在人工智能领域的技术实力达到了更高的发展水平。
早前,搜狗首席执行官王小川,一位人工智能专家,在乌镇的演讲中讨论了人工智能和连接之间的关系。他指出,目前人工智能的核心价值是帮助人们做出决策。随着人工智能的加入,人与人、人与信息、人与交易、人与服务可以更准确地联系起来。
到目前为止,人工智能的发展速度已经完全超出了我们的想象,那些电影中的酷黑技术正在一步步成为现实并出现在我们的生活中。随着人工智能技术的发展,相信在不久的将来,唇语言识别将像语音识别和图像识别一样成为我们生活的一部分。
编辑朱昱
标题:搜狗打造多形态的人机交互 推“唇语识别”技术提高精准识别
地址:http://www.tehoop.net/tpyxw/17365.html