手机语音唤醒软件我用了软解决方案,那么硬件还需要吗

技术小站:
& 参会,互动,拿好礼
& 观看视频回放,学习最新知识
& 学习业内最热门知识,还有好礼送
& 热点行业全新解读,产品样品免费申请
张飞电子工程师速成全集
10天掌握PCB AD画板
教你高速PCB项目整体设计
如何设计STM32单片机系统?
物联网操作系统从写到用
讲师:华清远见
讲师:林超文
讲师:郑振宇
讲师:李述铜
移入鼠标可放大二维码
智能家居语音控制解决方案:让家具听懂话 - 全文
来源:数智网 作者:佚名日 15:31
本文将从技术趋势、解决方案、产品应用、项目实施等多角度为您呈现语音控制技术在智能家居产品和集成项目中的应用前景。
  在智能家居给人们带来便捷生活的同时,人们的控制习惯逐渐发生改变。语音技术的发展也为控制入口做了一个补充,在抛去了传统遥控器和手机APP之后,通过口令发送让家居环境达到舒适状态,让生活更便捷智能,这是否会成为智能家居行业下一个阶段的普遍应用?
  远场语音识别、云端语义辨识、人工智能应用等等一个个技术节点得到新的突破,为智能家居提供了新的控制入口选择。本文将从技术趋势、解决方案、产品应用、项目实施等多角度为您呈现语音控制技术在智能家居产品和集成项目中的应用前景。
  所谓智能语音产业,主要指通过语音合成技术和语音识别技术,为用户提供各种服务的产业。一般来说,用户只需要用说话的方式给服务终端发布命令,就能得到相应的服务。这一产业从上世纪六十年代就已出现,但并不为普通消费者所熟知,消费者对其认知度也比较低。近年来,随着苹果、谷歌、微软等公司先后推出 Siri等智能语音服务,这一服务以及相关产业也开始被普通消费者和投资界所关注。
  语音控制技术
  与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。
  语音识别是一门交叉学科,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
  目前语音控制技术存在的问题
  目前,对于语音控制类的智能硬件产品在很多场景下因语音交互体验不如人意而深受诟病,究其原因主要是受限于空间距离、背景噪音、其他人声干扰、回声、混响等多重复杂因素,进而导致的识别距离近、识别率低等明显痛点。
  除此之外,单是中国语系、方言和口音就相当多,加上中文的多语义性,所以不同地区的人使用语音控制识别率差异较大。同时,在语义识别上,也存在上下文的关联带来识别的学习难、定位难和建立模型难等问题。
  语音识别的几种控制技术
  &语音识别&技术相当于给计算机系统安装上&耳朵&,使其具备&能听&的功能。该技术经过语音信号处理、语音特征处理、模型训练及解码引擎等复杂步骤,使机器最终能够将语音中的内容、说话人、语种等信息识别出来。语音控制功能的实现,与用户的使用习惯高度关联。目前的语音控制功能实现方式可分为近场语音识别和远场语音识别二个大类。
  近场/远场语音识别技术
  近场语音识别,需要用户点击启动,并且用户与终端设备的距离比较近,如手机或其他终端设备,可直接借助这些终端设备的实现控制功能。
  远场语音识别,以麦克风阵列远距离拾取的语音数据作为输入数据,通过语音识别的算法将语音信号转写成文字的技术。虽然和近场语音识别技术在原理上是相同的,但是由于音源和麦克风之间的空间距离增大,在声波传播过程中会出现信号强度的衰减和各种噪音干扰,因此需要特殊的语音数据拾取和预处理技术。不同的拾取设备和预处理技术常常会使用于语音识别的声波信号特征发生改变,因此针对不同的远场语音拾取技术,需要对语音识别引擎进行定制化适配和优化。
  当语音信号在传播过程中有所衰减,影响采集信号的强度和分辨率,使用的灵敏度非常高的指向性麦克风,同时将麦克风的参数调整到适合远场语音数据的模式,可以最大限度采集清晰的远场语音信号。语音指令声波在传输过程中受到周围噪音的污染,降低声波信号的信噪比,使用定向波速成形技术,抑制方向外的噪音,从而减少噪音对语音信号的干扰。在一个房间里,麦克风拾取的声波不仅仅直接来自于音源,还有音源发出后经过墙壁反射的迟到的声波,形成声音的残留,造成混响。利用多个麦克风采集的数据,通过多通道回声消除算法,将这些不同时间达到的声音数据分离开来,从而消除了混响对声音数据的影响。
  唤醒目标检测技术
  在远距离用语音进行操控的时候,声音可能来自不同方向的不同人。因此首先要确定哪些是发指令的声音,哪些不是。使用的麦克风阵列波速成形算法,将360 度空间垂直划分成若干区域,每个麦克风负责检测一个指定的区域。当某个空间区域里面检测到有唤醒词出现时,对应于该空间区域的麦克风拾音功能就被增强,其他区域的麦克风拾音就被抑制。从而实现了对声音进行有方向有角度的拾取,避免了周围电视机里的说话声音、其他人交谈对语音指令的影响。
  播放状态打断技术
  在对音箱等设备进行语音控制时,往往该设备处于播放歌曲的状态。由于麦克风安装在音箱上,麦克风和说话人之间的距离要远大于麦克风和扬声器之间的距离,在这样的情况下,采用内外兼顾的方法进行解决。内部使用特殊的回声消除算法从内部减小噪音对麦克风的影响。另外对于震动带来的非线性干扰,传统的线性回声消除方法失效了,因此可以使用非线性回声消除算法提高内部噪声消除的效果。在外部结构设计方面,使用精心设计的麦克风阵列减震结构,使多个麦克风和它所连接的电路板之间的震动减小到最小,从而最大程度的控制高声强导致的音箱本体震动对拾音的干扰。
  成熟的语音控制应用解决方案
  科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。对于智能家居语音控制的应用,必须解决好距离、效率、个性化、方言、唤醒等问题,科大讯飞在这些方面都有非常成熟的解决方案。
  距离:远场识别技术打破距离瓶颈
  近场识别技术目前已经比较成熟,现在手机上使用的语音输入功能就属于近场识别技术,用户必须在离手机比较近的距离内说话,但在智能家居环境中,用户和智能终端之间的距离被大大增加了,用户能随意用语音控制智能家居的一个必要条件就是在无论你在客厅哪个角落发出指令,设备都能准确的识别,语音识别技术必须突破距离的障碍。
  目前室内的语音交互受到背景噪音、其他人声干扰、回声、混响等多重复杂因素影响,导致识别率低甚至无法使用,只能在相对安静、近距离的环境下使用。而远场识别技术将能够很好的解决这些问题。
  科大讯飞于2015年3月发布远场识别技术,是目前唯一支持超过5米的语音识别技术,突破了语音交互距离瓶颈,大幅度改进了语音交互的自由度。该技术利用麦克风阵列的空域滤波特性&&在目标说话人方向形成拾音波束(BeamForming),抑制波束之外的噪声,结合独特的去混响算法,最大程度的吸收反射声,从而达到去除混响的目的,用户在客厅的任意角落通过语音操控智能家电已成为现实。
  效率:快速反应实现秒懂
  近年来,随着深度学习理论的爆发式发展及其在语音识别领域获得的显着效果,同时Kaldi等开源语音识别工具也在工业界和学术界逐渐普及,语音识别的门槛持续降低,许多公司都具备了语音识别的能力及相关产品,但是一些产品反应慢,说出一句话往往要等待很久才能显示结果,另外,准确率也不高,存在识别不出来的情况。
  针对语音识别准确率和响应速度的问题,科大讯飞持续在核心技术和产品特性上做出创新,在把国际领先的深度神经网络技术引入语音识别的基础上,基于深度神经网络的语音增强算法对输入语音进行&识别关键信息无损&的降噪,通过海量训练语料基础上的高精度声学模型和语言模型训练,并结合极致的解码引擎工程技术,实现了在很小延迟的情况下,做到将去除原始语音的噪声干扰和识别几乎同时,大大提高了语音输入的响应速度和用户体验,在大词汇连续语音识别率上可以达到95%以上,命令词识别率达到99%以上,解码引擎可以在用户说完话40毫秒之内给出结果,真正实现&秒懂&。
  个性化:自动学习适应用户使用习惯
  每个人在说话时,口音、语速、口头禅都不一样,那么家里的智能设备只会识别一些基本词句显然是远远不够的,它们必须要更懂你。比如,懂你的口音、方言、口头禅以及时不时蹦出的专业词汇等。
  让智能设备适应每个人的使用习惯可能吗?答案是肯定的。这里要用的到就是语音识别的另外一项关键技术&&个性化识别技术。个性化识别指的是语音识别系统具备自动学习并适应用户使用习惯的能力,你用的越多,它越懂你。一般来说,个性化识别包括发音和语言两方面。其中发音个性化主要是指系统对用户语速、口音等发音习惯的学习,而语言个性化主要是指系统可以对用户的特定词汇,例如人名、地名、口头禅、专业词汇等,具备更好的辨识性。
  目前科大讯飞的个性化识别技术已能针对每个人的兴趣点、知识背景等来进行个性化语言模型建模,从而准确识别出个性化的词汇内容。以后你用的越多,语音识别系统就会越懂你。
  方言:无拘束随心控制
  众所周知,中国的语音及语言博大精深,虽然国家在推广标准普通话方面不遗余力,但是中国真正掌握标准普通话的人群比例还是比较低的,而中国的口音现象则是纷繁复杂,同城市中不同口音的情况也很常见。因此,当这些带有或轻或重口音的人群在使用语音输入时,如果按通常的方法使用标准普通话数据进行模型的训练,就会产生很严重的适配问题,从而影响语音输入时的识别效果。
  &方言&现在也不再是语音识别的障碍,得益于各类方言丰富的音频数据、特殊词汇、发音现象等专业资源以及充分利用深度神经网络的自学习特色,目前,讯飞输入法已经陆续支持四川话、河南话、东北话、天津话等15种方言识别,这些方言识别能力同样适用于智能家居环境中。以后,无论你使用普通话还是方言,无论你说话语速快还是慢,普通话标不标准,在家里都能自由地使用语音控制智能设备。
  语音唤醒:真正解放双手
  由于功耗等方面的限制,智能设备很难24小时都保持在激活状态。因此,要想在家里自由地控制智能家居设备,我们还需要能即时&唤醒&功能,也就是给智能设备加入&语音唤醒&技术。
  语音唤醒,是指通过含有特定唤醒词的语音输入来&触发&语音识别系统以实现后续的语音交互。通过该技术,任何人在任何环境、任何时间,无论是近场还是远场,面向设备直接说出预设的唤醒词,就能激活产品的识别引擎,从而真正实现全程无触控的语音交互。
  除了说单个唤醒词实现唤醒外,更自然便捷、在技术上更具有挑战性的交互方式是在连续语流中带上唤醒词,以实现唤醒产品并同时实现操控的效果。目前,语音唤醒方案已在部分产品中取得成功应用,比如在灵犀语音助手中,说出&灵犀灵犀,打电话给张三&就可以唤醒设备并自动完成人名识别与拨打电话。
  国内外语音控制的市场现状
  随着智能家居市场的发展,国外的IT巨头们已先后以智能家居产品与语音相结合的方式进入智能家居领域:谷歌收购NEST布局智能家居,不断强化 Google Now的语音入口;苹果HomeKit智能家居平台与Siri也不断加强融合;市场上流行的Echo智能音箱使用了亚马逊的Alexa语音技术;微软也发布语音助手Cortana,将它作为智能家庭领域扩展交互入口。从这些国外科技大佬们对语音产业的重视和投入,可以看出智能语音与智能家居的融合是大势所趋,业内普遍认为语音作为人类信息最自然、最便捷的交互方式,必将成为未来智能家居设备中的重要组成部分。
  在国内,语音巨头科大讯飞也在去年8月宣布进军智能家居市场,并于今年3月携手京东成立合资公司&&北京灵隆科技,推出了其生产第一个产品&&DingDong智能音箱,除了具备音箱的基本功能,还可以作为语音助手,更是智能硬件的控制中枢。除此之外,百度、腾讯等都在打造自己的语音团队。
  随着国内外巨头们对语音交互领域投入的增加,语音核心技术正逐步成熟。智能家居作为 IT 产业和制造工业向个人家居领域渗透发展的必然结果,语音技术正不断进入智能家居领域渗透,市场前景广阔。
  小贴士
  Siri是iOS系统上的语音系统,与Siri对话,就和跟朋友对话一样,可以帮您做很多事情,例如发短信、打电话、预定餐厅、问路等等。也能与 Siri做一些很有趣的互动,例如让它帮您抛硬币或者占卜星座。Siri可以在免提模式下工作,可以通过Siri进行语音操作导航寻找最佳驾车路线。 Siri也可以与HomeKit一起工作以实现通过语音来控制家里的智能产品。Siri还能对接维基百科、Yelp、烂番茄、Shazam等许多第三方在线服务平台,帮助用户更多地了解与关注世界。
  语音交互对于智能家居行业的意义
  科技让生活更智能,语音让交互更便捷。语音交互对于智能家居最直接的意义在于将&智能家居&变得真正的智能起来。无论是再技术先进的品牌,再友善的人机交互界面,都没有语音交互控制来的简便直接。所有品牌、所有产品以一个智能控制的概念进驻到人们息息相关的日常生活中的时候,少不了需要一个学习和适应的过程,而语音则不需要,我们所有的日常交流、行为习惯,语言和声音已经成了人们思维中的一部分。所以,如果智能家居能与语音交互融于一体,那么智能家居产业也许会迎来一次划时代的突破。
如今,物联网浪潮已然席卷至汽车电子产业,发动机控制系统、底盘控制系统和车身电子控制系统已模型初显,安全...
ADAS市场或破千亿
国产汽车雷达将爆发
抢占智能汽车制高点
为自动驾驶保驾护航
电动汽车面临的挑战
语音控制相关文章
语音控制相关下载
智能家居相关文章
智能家居相关下载
物联网相关文章
物联网相关下载
随着科技的发展,人们对生活质量的追求越来越高,传统的家庭生活方式已经无法满足现代人的家居生活,智慧家庭的新型生活理念成为很多人梦寐以求的...
随着物联网技术的突飞猛进,生活中越来越多的家庭设备将会联上网络,变得“智慧”起来,智慧家庭的概念成了这几年媒体、企业、用户关注的焦点,而...
创新实用技术专题
供应链服务
商务及广告合作
Jeffery Guo
关注我们的微信
供应链服务 PCB/IC/PCBA
版权所有 (C) 深圳华强聚丰电子科技有限公司
电信与信息服务业务经营许可证:粤B2-您好,欢迎来到捷配电子市场网
您所在的位置:&&&&&&其他&&与机器人对话的语音沟通解决方案
版权与免责声明
凡本网注明“出处:捷配电子市场网”的所有作品,版权均属于捷配电子市场网,转载请必须注明捷配电子市场网,http://www.dzsc.com,违反者本网将追究相关法律责任。
本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
相关技术资料
热门技术资料
最新技术资料百度DuerOS为开发者提供软硬件一体化解决方案
经济观察网 记者 温淑萍 7月5日,百度AI开发者大会上,百度度秘事业部总经理景鲲称,百度开发的DuerOS将为开发者提供最容易上手的软硬件一体化解决方案,包括多样化的开发套件和完全开放的参考设计。
百度集团总裁兼COO陆奇称,DuerOS是智能时代的安卓,应用强大。
据景鲲介绍,洗衣机、电视、冰箱等任何设备,都可以搭载DuerOS,变成一个能“听懂”的设备。而“‘听懂’的目标,就是要FreeStyle,让用户最自然地跟设备进行交互,毫无拘束。”
他现场演示了利用DuerOS的多轮交互过程,这种交互只有百度的技术才能驱动。通过连续发问:“找一找本地人气最火爆的家常菜”、“雍和宫附近有吗”、“第二家有什么推荐菜”、“有wifi吗”、“好停车吗”……多轮连续展开的对话,景鲲都得到了满意的答案。
景鲲称,唤醒万物的核心三要素是要做好听清、听懂、满足。听懂是人工智能时代用数据和技术解决的关键问题。在这个时代,只有百度在中国市场是唯一具备听清、听懂、满足的实力,打造一个开放赋能的生态系统。
据了解,DuerOS的搭载树莓派,利用科胜讯技术的个人版。即刻申请就可以搭载一个个人可以对话的语音设备。轻量版。把一元钱大小的芯片放在任何一个设备里面,设备就可以对话。标准版。两麦、四麦、六麦、八麦的标准版都可以即刻申请。而完整一体化的参考设计。如开放电路板设计、开放结构设计、开放麦克风阵列等等。
据了解,“听清”方面:百度的语音识别率做到了近场识别的准确率97%以上,但这些在AI时代还不够。在AI时代,技术要与场景相结合。我们希望把语音放到真正的场景里面去解决问题,研发了麦克风阵列、回声消除、语音唤醒、人像识别等技术。这些都是我们逐渐推进的世界先进技术,将被放到各种场景中实现用户听清的需求。
“听懂”方面:数据多、介入深是打造对话系统的必然条件,具备这两点才能做好一个真正可以对话的“听懂”系统。百度是具备数据量最大的公司。百度拥有亿级的多轮对话数据、十亿级的知识图谱数据。
听懂并满足“听一首某某的歌”这样的用户需求还不够,真正用户想要的是更自然、更复杂的需求,比如“我要听我手一杯品尝你的美这首歌”,比如“想听哥哥的歌”,只有把用户在真实场景中表达的复杂请求做好,才能真正做出一个真正听懂用户需求的产品。
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点经验639 米
在线时间0 小时
版本V9.0.5.0.NCACNEI
积分 651, 距离下一级还需 1349 积分
积分 651, 距离下一级还需 1349 积分
机型小米手机6
签到次数35
MIUI版本V9.0.5.0.NCACNEI
苹果华为这些都有了,为什么小米还没有语音唤醒手机小爱的功能。每个星期都更新一些鸡肋的功能。强烈建议小米官方能收集广大米粉建议,更新一些米粉最想更新的功能。时间慢点也没关系,告诉我们一下进度就可以。
分享到微信朋友圈
打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈。
经验5124 米
在线时间24 小时
版本8.3.22
机型小米手机5SPlus
签到次数48
MIUI版本8.3.22
这个还要等后续更新,工程师也是很忙的,又要适配奥利奥,又要解决旧的问题,又要出新功能,楼主理解一下工程师
经验26498 米
在线时间229 小时
版本8.3.22
机型红米Note4X 高通版
签到次数48
MIUI版本8.3.22
→_→因为手机没硬件
经验639 米
在线时间0 小时
版本V9.0.5.0.NCACNEI
积分 651, 距离下一级还需 1349 积分
积分 651, 距离下一级还需 1349 积分
机型小米手机6
签到次数35
MIUI版本V9.0.5.0.NCACNEI
→_→因为手机没硬件
不是吧,苹果三四年前就有的功能
经验26498 米
在线时间229 小时
版本8.3.22
机型红米Note4X 高通版
签到次数48
MIUI版本8.3.22
不是吧,苹果三四年前就有的功能
语音唤醒要用特殊的硬件→_→不然用麦克风会很耗电而且会影响其他需要麦克风的软件→_→针对没有硬件的机型 工程师会做折中的方案 也就是打开小爱同学后才会使用麦克风语音唤醒 平常其他软件使用麦克风就不会受到冲突了
经验1655 米
在线时间39 小时
版本8.1.23
机型小米手机6
MIUI版本8.1.23
这些功能也是不多人用!所以中兴五六年前就有的功能一直火不了
经验8168 米
在线时间39 小时
版本8.3.15
机型小米手机5SPlus
签到次数308
MIUI版本8.3.15
经验3026 米
在线时间24 小时
版本V9.5.1.0.NAHCNFA
积分 3400, 距离下一级还需 1600 积分
积分 3400, 距离下一级还需 1600 积分
机型小米MIX
MIUI版本V9.5.1.0.NAHCNFA
昨天&23:00
→_→因为手机没硬件
从810开始以及之后的已经有协助处理器,根本不缺硬件,这功能可以实现,小娜就是运用协助处理器唤醒
经验26498 米
在线时间229 小时
版本8.3.22
机型红米Note4X 高通版
签到次数48
MIUI版本8.3.22
昨天&23:01
从810开始以及之后的已经有协助处理器,根本不缺硬件,这功能可以实现,小娜就是运用协助处理器唤醒 ...
→_→小米买的是没有协处理器的 所以在小米手机上的小娜是用麦克风的→_→
经验6364 米
在线时间39 小时
版本8.3.21
机型小米手机6
签到次数206
MIUI版本8.3.21
昨天&23:40
已经有第三方软件支持了
2018新年勋章
参与回帖活动
2017圣诞节勋章
参与回帖活动
MIUI3亿用户纪念勋章
参与回帖活动
感恩节勋章
参与回帖活动
万圣节勋章
参加回帖活动
米兔月饼勋章
参加回帖活动
MIUI七周年
优秀解答组
优秀解答组员专属勋章
已关注微信
关注新浪微博
已关注新浪微博
全局搜索纪念勋章
参加全局搜索内测
MIUI七夕鹊桥勋章
MIUI 9纪念勋章
“澎湃S1 ”芯片纪念勋章
参与活动回帖可得
小米众筹2周年
参加回帖活动
新版论坛APP
更新新版APP
小米7周年勋章
2017米粉节晒单赢专属勋章
参与红米Note 4X活动
2017年小金鸡勋章
回复2016年度评选活动贴
圣诞节勋章
参与圣诞活动
Copyright (C) 2017 MIUI
京ICP备号 | 京公网安备34号 | 京ICP证110507号发送私信成功
满足所有需求,助您轻松工作
比Siri还聪明的语音技术?AIUI的7个与众不同之处
15:37 && 浏览量(2825) &&
每一次IT的革命浪潮,都伴随着一次人机交互的变革。AIUI是Artificial Intelligence User Interface的简称,是科大讯飞在人工智能时代开发的一款产品。在过去5年的发展中,讯飞开放平台已经成为业界最大的语音和语言技术的开发平台,它的与众不同之处在哪呢?
AIUI&提出的背景
&IT产业从上个世纪六十年代到现在经历了五次的革命浪潮。上世纪六十年代的大型机时代、七十年代进入了小型机的时代、八十年代的个人电脑时代、九十年代的桌面互联网时代、现在的移动互联网和物联网的时代。
每一次IT的革命浪潮,都伴随着一次人机交互的变革。
我们进入崭新的万物互联的时代。在这个时代下各种智能设备、智能硬件、智能家居都需要互联互通,同时它们也需要和人进行各种交互。物联网时代,智能硬件有着一些共同的特性——无屏、移动、远场的状态下,以语音为主(人和人之间语音交互是最为自然的方式)、键盘、触屏等为辅的人机交互时代正在到来,将引领整个产业的变革。
我们对语音交互其实并不陌生,5年前讯飞就发布了讯飞语音云开放平台;智能手机平台上,如苹果的Siri,微软的Cortana等语音助手,大家也都熟悉。
讯飞语音云开放平台在过去5年的发展中,已经成为业界最大的语音和语言技术的开发平台。从技术方案上,包括语音听写,人脸识别、语音唤醒、语音合成,最大最全的解决方案;从核心效果上,也是业界领先;从应用规模上,在讯飞语音云平台上开发的应用数突破11万,累计装机用户数超过8亿。
&近几年是智能手机的时代,从去年开始迎来了智能硬件和机器人的全面爆发,当你对着手机进行语音识别和对着机器人进行语音识别是完全不同的交互模式。
过去讯飞语音开放平台可以在手机应用上开发出不错的语音应用,现在在智能硬件上对整个语音交互方案提出更高更新的要求。与手机语音交互,对比与机器的语音交互,是两种完全不同的交互模式。需要一种新的语音交互技术,使人与机器的语音交互可以像人和人一样自然。
人和人之间是如何进行自然语音交互?
o全双工——可以随时打断。
o多轮对话——一个话题,不会一次全说完,而是依此对答。
o纠错——如果出现错误,可以用语言纠错。
o远场降噪——不需要对着耳朵讲
o方言识别。
新的交互需求,是过去的业界语音识别技术所不能解决的。因此迫切需要研发一种新的交互解决方案,可以让人和机器如同人和人的交流问答,AIUI就这么诞生了,AIUI人工智能时代的最佳人机交互界面。
1.&降低开发门槛
过去做语音交互的痛苦——首先调用别人的语音识别,再调用语义,中间有许多需要开发和设计的过程。
AIUI把整个麦克风阵列、语音唤醒、语音合成、语义交互和其他辅助交互打包成一个模块,从单点到方案,降低开发门槛,开发者集成起来非常简单便捷。
2.&远场交互
AIUI集成科大讯飞的麦克风陈列技术,实现高精确度的远场识音.
首先,科大讯飞的麦克风阵列技术可以实现5米以上距离识别率95%以上。因为智能硬件工作在家庭和办公室环境,而操控主人经常处于移动状态,需要360度声源定位,AIUI集成麦克风阵列解放方案可以将定位精确到5度。
&同时智能硬件经常发出声音,比如放音乐、与人对话。为了实现全双工识别,智能硬件需要把自己的声音进行消除,我们在解决方案中集成了最好的第四代回声消除解决方案,在95dB高音下,唤醒率可以保持在很高的水平。
下图是整个识音和降噪的效果。
&AIUI的降噪和噪声抑制效果是非常明显的,哪怕在家庭里的大型的电视机和音响设备的干扰下,依然能够保证较高的准确性。整个AIUI麦克风阵列前段,提供了一个无与伦比的抗噪、高鲁棒性的语音识别解决方案,让后台用来理解的“大脑”有个非常好的“耳朵”。
3.&语音唤醒语音唤醒
对于全程Handfree&的解决很重要。智能硬件和手机是非常不同的,手机可以随时轻松的触摸一些屏幕和点一些键,而智能硬件往往距离我们比较远。这时候如果触摸一下键才能语音识别,就非常麻烦,所以要一种全程的语音交互解决方案,语音唤醒就起到这样的作用,你喊一下它的名字,它就开始听你的话。
科大讯飞语音唤醒技术:
运用了深度学习的解决方案,实现唤醒率极高,误唤醒率极低,功耗极低。同时还可以满足开发者和用户进行自定义的唤醒词,满足用户起个性化的唤醒词的需求。
提供自动闭环优化系统。有些用户觉得唤醒效果不好,我们可以运用他的语音数据进行自动训练,可以让他的语音唤醒达到一个非常好的效果。
高效鲁棒的语音唤醒系统,保证了我们可以和智能硬件可以进行全程语音交互。
4.&多轮对话
举个栗子,比如我要找人问路,我会把地方名称先说一下,被我问的人,可能会有一些奇异,就会问我,大概在什么地方。地方有什么特征等等。当他把信息范围缩小到比较精确的时候,就会把路线指出来。真个交互是通过对话完成的。如果AIUI能拥有这样的技术,比如装在导航仪上,这个导航仪该有多贴心。幸运的是我们AIUI方案里集成了这样一种最新的对轮对话系统。它具有以下特点:
o我们不需要在脑海中设计一种机器能听懂的语音,机器听不懂的时候,会主动发问,可以像人一样分解为多轮问答。
o对话上下文相关,可以使用代词(他),会进行指代消解
o利用否定词,可以进行纠错。
下图三个例子帮助大家理解交互场景:就和人的对话一样,很轻松
&5.&全双工
人和人交流,即使滔滔不绝,你也可以让他停止,改变话题。这种就叫做全双工通讯模式——发表意见和收听,可以并行进行;用户可以任何时间打断;机器对非相关语音可以拒识。
过去手机上没有这样的功能,人必须听完机器的反馈,才能进行下一个指令的输入,对用户有非常大的限制,交互不自然、不流畅。
AIUI可以实现全双工。机器的反馈和对人讲话的监听是并行同步的,人可以在任何时候对机器进行打断发出需求,同时用户在和机器交流的时候发出的非相关语音,机器可以有效具识。这样就把过去人和机器之间一问一答的交互方式升级为全双工交互方式,更加接近人和人的沟通。
为了实现全双工,需要应用很多技术,如回声消除、置信度判决、连续语音解密等。
6.对话场景的自适应
包括两个小特性
智能断句:过去用户说完,需要停顿几秒钟,或者用户点一个讲话结束的按钮,机器才知道这句话说完了。现实中,人和人交流肯定不是这样的,经常会有犹豫,或者把两个不相关的内容连起来说而中间没有停顿。
举个栗子,用户说,“我想听~周杰伦的歌,好怀念他的声音啊”。可能第二句“好怀念他的声音啊”是和用户
旁边的人讲的。过去的方案会把“我想听”和“周杰伦的歌”分开,而“周杰伦的歌”和“好怀念他的声音”分不开。AIUI集成科大讯飞的智能语义断句解决方案,听到“我想听”意识到用户没讲完,会智能等待一段时间,把后面“周杰伦的歌”拼在一起;而听到“周杰伦的歌”知道这句话讲完了,所以后面即使没有停顿,也能把“好怀念他的声音”切分出来。最大模式的更像与人交流一样,更加的自然,想犹豫就犹豫,想快速就快速,机器可以智能断句。
&识别结果可以根据场景进行优化:比如说“Liu&Liang”。没有上下文的时候,单独有音的时候,人可能都分不清。但是AIUI可以根据场景识别含义。
o场景1是我想给“LiuLiang”打电话,“Liu&Liang”是一个人——刘亮;
o场景2是在和中国移动办理业务,“LiuLiang”——流量。
&7.&通信协议
为了实现全双工,机器要一边讲话一边检测,对通信协议有非常高的要求,需要达到像IP电话这样的效果,几乎没有延时。如果是对讲机模式(微信),大家可以等,对通信的延时要求不高。如果要像人一样反应灵敏,必须有一种无延时的通信协议。
我们通过努力,终于攻克了这个难题,实现了这样的通信协议,只要在带宽保证的情况下,人和机器可以流畅对话。
&AIUI是一种云+端的物理实现
& & &o在云的层面,主要承载交互能力,互动界面,和业务分发的架构。
& & &o在端的层面,提供面向开发者的简易接口,和云的通信协议的集成。
AIUI核心改变
&非常简单,四个字——一键获取
软硬件一体化、云端一体化、技术服务一体化;针对各种平台进行适配;比如:麦克风整列提供线型麦克风、环型麦克风、球型麦克风、以及2麦、4麦、8麦、15麦等各种形态。开发者只要进行模块化的选取,进行集成,就可以和云端的AIUI的服务平台进行流畅的交互,让你的智能硬件飞起来。
AIUI还不够尽善尽美,未来有很多应用领域(智能家居、穿戴式设备、机器人……),让智能硬件可以像人一样能听会说,能理解、会思考。非常的体贴人心。
科大讯飞会像对待孩子一样,持续拓展AIUI工作场景,持续打磨AIUI交互服务,持续丰富AIUI交互内容。以开放的心态迎接伙伴和内容的接入,共同打造人工智能时代,像人一样的智能设备。
1.&机器人能识别人的情绪吗?有专门的研究领域,叫“情感识别”,但是很难,因为情绪是多模态的,比如可以通过声调、肢体语言,而且有时候人说比如讽刺的话等等,机器是完全听不出来的。所以说,机器人识别人的情绪可以做到一定的效果,但是还不够实用。
2.&使用人工智能语音识别是否可以理解我们的语音表达的内容?是的,AIUI就是在做这个。虽然不能做到人一样全领域进行交互,但是在快速发展中。我们相信在一定时间可以做到,在一些领域,机器可以很懂认得问题。比如做一个音乐机器人,在音乐领域可以很懂和人交互;比如做一个导航机器人,是个认路专家,在认路导航方面可以和人很好的交流。&
3.&预测10年的语音识别会发展到何种程度?根据我现有的知识和经验,3-5年整个计算机对语音的识别能力基本上可以达到人耳的水平。机器可以布置很多“人耳”,有可能超过人的听觉效果。
4.&关于强AI和弱AI~这个问题很大,只能很据我们的方案来谈。坦白讲,目前我们的AI解决方案,还是一种弱AI的解决方案,和人的工作和解决模式是完全不同的。科大讯飞把语音识别做到现在的水平,也是收集了十几万小时的数据,这还是一种弱AI的解决方案。比如我们想从图形上识别一只猫,我们需要下载上千万的图片,各种品种、各种形态、放在各种背景下的猫。而人在学习语言只需要几百小时就够了,只需要见过一两次猫,再见到猫就可以识别。人的这种学习机理目前还不是很清楚。我们需要在强AI这种类人学习机理上做出新的创新。
&5.&机器人和多个人交谈,可以知道和每个人交谈说什么,针对性的回答吗?可以,机器需要在这种情况下,需要很多“耳朵”把各种人的交谈分离出来,然后就可以针对性进行回答。相当于利用技术把一个空间的额内容进行分离,然后分通道处理。
6.可以识别方言吗?可以的,已经可以实现近20种方言。
&7.语音识别发展到什么程度?可以识别音色吗?95%的正确性,可以识别音色。8.能不能直接识别音频,为视频做实时的字幕啊?&科大讯飞的“讯飞听见”语音转写系统,就是直接为视频识别,做实时字幕。
& 收藏(0) 收藏 +1 已收藏 取消
& 推荐上头条 推荐 +1 推荐上头条 已推荐
文章上传作者
讯飞开放平台的热门文章
暂时没有热门文章噢~&
开发者交流群:
DevStore技术交流群2:
运营交流群:
产品交流群:
深圳尺子科技有限公司
深圳市南山区蛇口网谷万海大厦C栋504
Copyright (C) 2015 DevStore. All Rights Reserved
DevStore用户登录
还没有DevStore帐号?
快捷登录:

我要回帖

更多关于 智能语音解决方案 的文章

 

随机推荐