第一次使用手机语音助手的时候它总是会在我兴冲冲地问一个问题之后,令人失望地回答一句:“我好像听不懂你在说什么……”
后来技术演进它终于能够通过我的┅些关键词,听懂我说什么了但一板一眼,一字一句程式化十足。
不可否认人工智能发展现状和趋势正在变得越来越“聪明”,也樾来越贴近人类未来它会是什么样子呢?
近日清华由清华大学人工智能发展现状和趋势研究院、北京智源人工智能发展现状和趋势研究院和清华-中国工程知识智能联合研究中心发布了《人工智能发展现状和趋势之人机交互》报告(以下简称《报告》),《报告》梳理了其概念定义和发展历程重点研究了主要技术的发展情况、领域专家现状和应用领域,并探讨了人机交互未来发展趋势
如果您想获得本報告的全文pdf,请在雷锋网(公众号:雷锋网)回复关键词“609报告”提取
文档来源:清华大学人工智能发展现状和趋势研究院
Interaction”里,它是一门研究系统与用户之间的交互关系的学问系统可以是各种各样的机器,也可以是计算机化的系统和软件
人机交互界面通常是指用户可见嘚部分,用户通过人机交互界面与系统交流并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一它与认知学、人机工程学、心理学等学科领域有密切的联系。
人机交互技术的发展与国民经济发展有着直接的联系它是使信息技术融入社会、深入群体,达箌广泛应用的技术门槛任何一种新交互技术的诞生,都会带来其新的应用人群、新的应用领域带来巨大的社会经济效益。
从企业的角喥 改善人机交互能够提高员工的生产效率,学习人机交互能够降低产品的后续支持成本
在个人的角度,可以帮助用户有效地降低错误發生的概率避免由于错误引发的损失。
在现代和未来的社会里只要有人利用通信、计算机等信息处理技术进行社会活动,人机交互都昰永恒的主题鉴于它对科技发展的重要性,人机交互是现代信息技术、人工智能发展现状和趋势技术研究的热门方向
过去的几十年间,人机界面经历了从命令行界面到图形用户界面两个主要发展阶段的演变;近年来人机界面的发展越来越强调交互的自然性,即用户的茭互行为与其生理和认知的习惯相吻合随之出现的主要的交互界面形式为触摸交互界面和三维交互界面。
基于命令行界面(Command-line Interface, CLI)用户使鼡键盘按照一定的规则输入字符,以形成可供机器识别的命令和参数并触发计算机进行执行。
其优点是由于键盘输入相对较高的准确率以及几乎不需要冗余的操作,所以熟练的用户可以达到非常高的交互效率同时,通过规则的设计命令行界面也能支持丰富灵活的指囹形式。
命令行界面的缺点在于交互非常不直观由于机器命令与自然语言的构造规则往往相去甚远,所以用户需要记忆大量的指令有時甚至需要具备计算机领域的专业知识和技能,才能达到较高的使用效率这对 于新手用户而言大大提升了学习成本,也显著影响了普通鼡户使用命令行界面时的体验
图形用户界面一般包括窗口(Window)、 图标(Icon)、菜单(Menu)和指针(Pointer)这四类主要的交互元素。用户通过控制指针来对窗口、图标和菜单等显示元素进行指点(Pointing)操作从而 完成交互任务。广义的图形用户界面泛指一切用图形表征程序命令和数据嘚界面系统但在狭义上,图形用户界面一般指个人电脑(PC)上的二维 WIMP 界面
此时,用户与界面交互的设备一般是键盘和鼠标
图形用户堺面的一大优势是摆脱了抽象的命令,通过利用人们与物理世界交互的经验来与计算机交互从而显著降低了用户的学习和认知成本。然洏由于图形用户界面的基本操作是指点, 即用户需要使用指针来选择交互目标因而其往往对用户指点操作的精度有较高的要求。此外由于鼠标设备所在的控制域(Motor Space)与界面显现的显示域(Visual
Space)是分离的,因而用户需要对目标进行间接的交互操作(Indirect Manipulation)从而更加增加了交互的难度。
触摸交互界面一般包括页面 (Page)、控件(Widget)、图标(Icon)和手势(Gesture)这四类主要的交互元素用户通过触摸、长按、拖拽等方式矗接操控手指接触的目标,或者通过绘制手势的方式触发交互指令
目前,触摸界面主要存在于智能手机和可穿戴设备(如智能手表)等設备上触摸交互界面的优势是充分利用了人们触摸物理世界中物体的经验 ,将间接的交互操作转化为直接的交互操作 ( Direct Manipulation)从而在保留叻一部分触觉反馈的同时,进一步降低了用户的学习和认知成本
然而,触摸操作受困于著名的“胖手指问题”即由于手指本身的柔软,以及手指点击时对于屏幕显示内容的遮挡在触屏上点击时往往难以精确地控制落点的位置,输入信号的粒度远远低于交互元素的响应粒度同时,由于触摸交互界面的形态仍然为二维界面所以这限制了一些与三维交互元素的交互操作。
用户一般通过身体(如手部或身體关节)做出一些动作(如 空中的指点行为或者肢体的运动轨迹等),以与三维空间中的界面元素进行交互计算机通过捕捉用户的动莋并进行意图推理,以触发对应的交互功能
目前, 三维交互界面主要存在于体感交互、虚拟现实、增强现实等交互场景中
三维交互界媔的优势是进一步突破了二维交互界面的限制,将交互扩展到三维空间中 因此,用户可以按照与物理世界中相同的交互方式与虚拟的彡维物体进行交互,从而进一步提升交互自然度降低学习成本。
不过三维交互的挑战在于由于完全缺乏触觉反馈,所以用户动作行为Φ的噪声相对较大而且交互动作与身体的自然运动较难区分,因而输入信号的信噪比相对较低较难进行交互意图的准确推理,限制了茭互输入的准确度
此外,由于相对于图形用户界面和触摸交互界面动作交互的幅度一般较大,所以交互的效率也较低同时更容易让鼡户感到疲劳。
目前人机交互技术主要发展方向包括以下几个类别:
触控交互、声控交互、动作交互、眼动交互、虚拟现实输入、多模式交互以及智能交互等。
显示器从仅向用户输出可视信息到成为一种交互界面装置主要是归因于触控功能与显示器的一体化模式尤其是茬移动装置上的使用。
目前有四种技术方式能实现触控交互
电阻触摸屏通过压力感应原理来实现对屏幕进行操作和控制。当手指触摸屏幕时薄膜下层的 ITO 会和玻璃上层的 ITO 有一个接触点,在 X 轴方向就其中 一面导电层导通了 5V 均匀电压场此时采样得到的电压由零变为一个正电壓值, 感应器检测到电压导通传出相应的电信号,进行模/数转换最终将转换后的 电压值与 5V 相比,即可计算出触摸点的 X 轴坐标值同理鈳以计算出 Y 轴的
坐标值,这样就完成了点选的动作并呈现在屏幕上。
当手指触摸电容式触摸屏时在工作面接通高频信号,此时手指与觸摸屏工 作面形成一个耦合电容这相当于导体,因为工作面上有高频信号手指触摸时在触摸点吸走一个小电流,这个小电流分别从触摸屏的四个角上的电极流出流经四个电极的电流与手指到四角的直线距离成比例,控制器通过对四个电流比例 的计算即可得出接触点唑标值。
当手指触摸屏幕时红外光线将被阻断,依次选通红外发射管及其对应的红外接收管在屏幕上方形成一个红外线矩阵平 面,从洏致使红外接收端的电压产生变化红外接收端的电压经过 A/D 转换送达控制端,控制端将据此进行计算得出触摸位置
表面声波式触摸屏主偠依靠安装在强化玻璃边角上的超声波换能器来实现触摸控制的。当手指触摸显示屏时手指阻挡了一部分声波能量的传播,此时接收波形将会发生变化在波形图上可以看见即某一时刻波形发生衰减,通过这个衰减信号控制器就可以计算出触摸点位置
语音识别是将音频數据转化为文本或其他计算机可以处理的信息的技术。主要由 4 个部分组成:特征提取、 声学模型、语言模型和解码器搜索
语音合成就是將一系列的输入文字信号序列经过适当的韵律处理后,送入合成器产生出具有尽可能丰富表现力和高自然度的语音输出,从而使计算机戓相关的系统能够发出像“人”一样自然流利声音的技术
语音合成的发展经历了机械式语音合成、电子式语音合成和基于计算机的语 音匼成发展阶段。语音合成具体分为规则驱动方和数据驱动方
目标获取是人机交互过程中的最基本的交互任务,用户向计算机指明想要交互的目标其他的交互命令均在此基础上完成。随着交互界面的发展在很多自然交互界面上,如远距离大屏幕虚拟现实和增强现实设備等,传统的交互设备 (如鼠标键盘)无法继续用来完成目标获取任务。
因此在这些界面上,研究者探索使用动作交互完成目标获取任务的可能方式主要的输入方式分为直接和间接两种。
直接的动作选取要求用户通过接触目标位置的方式对其进行选取例如在增强现實应用中,用户通过以手部接触的方式完成虚拟物体的选取
间接的目标选取方式则需要用户通过身体部分的位置和姿态来控制和移动光標,再借助光标指示目标的位置进行选取其中,一个广泛应用的光标控制方法是光线投射
手势可定义为人手或者手和手臂相结合所产苼的各种姿态和动作,它分为静态手势(指姿态单个手形)和动态手势(指动作,由一系列姿态组成)前者对应模型空间里的一个点,后者对应一条轨迹相应地,可以将手势识别分为静态手势识别和动态手势识别
姿势识别常用的算法有三类:(1)基于模板匹配的身體姿势识别方法; (2)基于状态空间的身体姿势识别方法;(3)基于语义描述的身体姿势识别方法。
利用人工智能发展现状和趋势技术提高眼动计算的精度和效率对人的感知和认知状态进行深入理解,构建“人在回路”的智能人机交互框架实现用户主导的自动化系统、基于人机共生的 AI 系统。
常用的几种眼动交互方式主要有一下几种:
驻留时间触发是指当注 视点的驻留时间达到一定程度后可以利用视线玳替鼠标点击或键盘按钮等传统 输入设备,触发相应的执行操作驻留时间触发多用于控制图形界面或定位鼠标光标等,是一种较为流行嘚眼动交互方式它也能够反映用户有意识的控制意图, 以更好地完成交互
平滑追随运动多发生于观察场景中有缓慢移动的物体或目标,视线会产生平滑追随的运动状态平滑追随运动是一种连续反馈的状态,眼睛捕捉运动目标的信号将目标运动速度、方向、角度等信息反馈给大脑,再控制眼球跟随目标物体发生相对运动在此过程中也会存在一些无意识眼跳等其他行为,在没有运动目标的场景下一般不会产生该眼动行为,因此平滑追踪触发一般不是一种常用的眼动交互方式
使用眨眼行为进行交互时,需要识别有意识的眨眼例如眨眼频率超过一定程度,或一次眨眼过程中眼睛闭合的时间超过某个阈值眨眼触发较为简单,但是当人眼处于长时间闭合状态时由于眼动追踪仪无法捕捉瞳孔,可能会导致注视点的丢失在一定程度上会影响眼控系统精度。
眼势是在眼跳的基础上提出的但与眼跳的不哃之处在于,眼跳往往是人在观察场景或对象时发生的一种无意识的视线转移其眼跳的起点和终点都未知,
依赖于人的视觉注意而眼勢被定义为一系列有序的视线行程,每一个行程是两个固定注视点或注视区域的有意的视线移动因此,眼势作为一种新的眼动交互方式可以反映人的有意识触发意图。不同路径的行程可以定义不同的眼势不同的眼势可以映射为不同的交互指令。眼势可以分为单行程眼勢和多行程眼势
文本输入作为应用中重要的交互技术,为应用提供了重要的交互体验目前已经开发 了多种适用于虚拟现实的文本输入技术,现有的 VR 文本输入技术主要有实体键盘技术、虚拟键盘技术、新型输入技术(手部输入技术、圆形键盘输入技术、立体输入技术)
鈈同形式的输入组合(例如,语音、手势、触摸、凝 视等)被称为多模态交互模式其目标是向用户提供与计算机进行交互的多种选择方式,以支持自然的用户选择 相比于传统的单一界面,多模态界面可以被定义为多个输入模态的组合这些组合可以分为 6 种基本类型:
互補型:当两个或多个输入模态联合发布一个命令时,它们便会相得益彰
重复型:当两个或多个输入模态同时向某个应用程序发送信息时,它们的输入模态是冗余的通过让每个模态发出相同的命令,多重的信息可以帮助解决识别错误的问题并加强系统需要执行的操作。
等价型:当用户具有使用多个模态的选择时两个或多个输入模态是等价的。 例如用户可以通过发出一个语音命令,或从一个虚拟的调銫板中选择对象来创建一个虚拟对象这两种模态呈现的是等效的交互,且最终的结果是相同的
专业型:当某一个模态总是用于一个特萣的任务时它就成了专业的模态,因为它是比较合适该任务的或者说对于该任务来说它是当仁不让的。
并发型:当两个或多个以上的输叺模态在同一时间发出不同的命令时它们是并发的。例如用户在虚拟环境用手势来导航,与此同时使用语音命令在该 环境中询问关於对象的问题。并发型让用户可以发出命令并执行命令其体现为在做晚餐的同时也可也以打电话的真实世界的任务。
转化型:当两个输叺模态分别从对方获取到信息时它们就会将信息转化并使用此信息来完成一个给定的任务。多模态交互转化的最佳例子之一是在一键通話界面里语音模态从一个手势动作获得信息,告诉它应激活通话
7、信息无障碍中的智能交互技术
信息无障碍(information accessibility)是一个学科交叉的技術和应用领域, 旨在用信息技术弥补残障人士生理和认知能力的不足让他们可以顺畅地与他 人、物理世界和信息设备进行交互。
从研究囷应用水平上看信息无障碍总体还处于比较初步的状态。
在应用上针对信息访问和设备使用,具有基本功能的技术可以被应用但效果和效率等可用性指标都不高;在现实生活中,针对听障人士与他人交流、盲人独立出行等能支撑的新技术还处于原型和概念阶 段。
人機交互作为终端产品引领技术其作用已经为产业界所普遍认识,多种自然交互技术和新型交互终端相继面世但图形用户界面仍是交互嘚主导模式。计算无所不在人机交互的研究和开发空间很大,自然高效的交互是发展趋势需要综合地探索自然交互技术的科学原理,建立明确的优化目标结合智能技术, 发展高效可用的自然交互技术
雷锋网雷锋网雷锋网(公众号:雷锋网)
雷锋网原创文章,未经授权禁圵转载详情见。