关于人机交互技术的综合研究报告

更新时间:2024-05-26 11:41:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

关于人机交互的综合研究报告

张玉 刘珊珊 武明 吴丽艳 梁媛媛 张文静 (济南大学 信息科学与工程学院计0903班)

摘要 人机交互是研究人与计算机之间通过相互理解的交流与通

信,在最大程度上为人们完成信息管理,服务和处理等功能的一门技术科学。本文对人机交互中有关情感、手势和人脸识别的技术进行了概要介绍与叙述并且阐述可一些对人机交互的认知与理解。在更深入了解人机交互知识的过程中我们也可以看到人机交互技术的广阔发展前景。

关键词: 人机交互的认知 人机交互 情感 手势 人脸识别

引言

机交互(Human-Computer Interaction, 简写HCI):是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。人机交互技术的发展与国民经济发展有着直接的联系,中手机的发展和多媒体电脑给社会带来的效益就可以看到.未来新一代具有自然人机交互功能的随身电脑,将成为所有 专业和普通人群生活,学习,工作的必备助手和工具,并对改变社会生活与工作的模式起到深远的影响。正是这个原因,世界各国信息领域的学者和企业巨头都部署了发展新一代人机交互领域的中长期发展计划。着人机交互技术的发展,人们越来越关注这一门科学,通过本文的综述,读者可以对人机交互技术的几个方面进行概括性了解。

1. 关于人机交互的认知

ACM图灵奖1992年获得者、微软研究院软件总工程师Butler Lampson在题为“二十一世纪的计算研究”报告中

[1]

指出“计算机有

三个作用:第一是模拟;第二是计算机可以帮助人们进行通信;第三个是互动,也就是与实际世界的交流”;“人们希望计算机能够看、听、讲,甚至比人做得更好,并能够进行实时处理”。关于对人机交互的认知,要从认知心理学开始说起,认知心理学研究的是人们如何获得外部世界信息,信息在人脑内如何表示并转化为知识,而知识是怎样存储的又如何用来指导人们的注意和行。认知心理学涉及心理活动的全部过程——从感觉到知觉、识别、注意、学习、记忆、概念的形成、思维、表象、回忆、语言、情绪和发展过程。认知有很多个过程,包括感知、关注、记忆、学习、识别、 阅读、说话和聆听、规划、推理和决策等。

感知和认知:人的感知是通过人体器官和组织进行人与外部世界的信息的交流和传递;而认知是人们在进行日常活动时发生于头脑中的事情,它涉及思维、记忆、学习、幻想、决策、看、读、写和交谈等。感知和认知又是密切关系不可分开独立存在的,人的感知是认知的基础,认知是将感知获取的信息综合运用。

认知过程与交互原则:许多认知过程是相互依赖的,一个活动可同时涉及多个不同的过程,只涉及一个过程的情况非常罕见,例如人们在选购商品时就涉及关注、感知、识别、说话、思考、决策等过程。 由人的关注特点,在设计人机交互界面时应做到。信息的显示应醒目,以便执行任务时使用,可使用动画图形、彩色、下划线,对条目及不

同的信息进行排序,在条目之间使用间隔符等。避免在界面上安排过多的信息。尤其要谨慎使用色彩、声音和图像,人们倾向于使用过多的这类表示,而导致界面混杂,分散用户的注意力,让用户反感。

朴实的界面更容易使用。 在人机交互的发展中,一大批专家为此

做出了卓越的贡献.:(1)1945年,美国罗斯福总统的科学顾问Bush (1894~1974)在《大西洋月刊》上发表的“a5 we maythink”的著名论文

[2]

,提出了虚采用设备或技术米帮助科学家检索、记录、分析

及传输各种信息的新思路和名为“Memex”的一种工作站构想,影响着一大批最著名计算机科学家.

2. 关于情感

情感在人类的认识和人机交互中起着关键性的作用.具有情感能力的计算机就是让计算机能够在和人类相处时更有智能、更为敏感和更为和谐和亲切。随着计算和通信技术的广泛应用, 人机和谐技术将会以多种方式出现。举例来说, 它就可以通过理解你所说的话语、你的面部表情、你的手势甚至你走路的姿态, 知道你想要做的事情。如果技术再先进一点,计算机还能够意识到你所处的情境, 譬如你在打电话, 它就会自动调低电视机音量。此外, 它还能够对你进行识别, 记住你所喜欢的频道和你想录制的节目。

[3]

情感是一种内部的主观体验,但总是伴随着某种外部表

情。面部表情不仅是人们常用的较自然的表现情感的方式,也是人们鉴别情感的主要外部标志。例如,愉快时额眉平展、面颊上提、嘴角上翘,而悲伤时额眉紧锁、嘴角下拉。使用特定的仪器可以对面部的

微小表情变化进行研究,甚至可以区分真笑和假笑。

情感计算机是能够听、看和随时感知使用者需要的计算系统。 情感计算(Affective Computting)就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。

基本情感,比如喜悦、愤怒、忧伤、惊奇、厌恶、不紧张、紧张 语音情感识别:语音情感分析是情感识别的一种方式。 其它情感识别手段: .面部情感识别 .肢体情感识别 .生理情感识别

语音输入参考模板/模型 判决 预处理 特征提取 模式/模型匹识别结果语音情感识别系统结构

语音情感识别过程:对语音信号根据需要进行预处理, 1. 提取跟情感相关特征信息, 2. 根据这些特征进行分类, 3. 最后得出识别结果

语音情感特征:国际上对情感语音的研究主要侧重于情感的声学特征的分析这一方面。

一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。例如,当一个人发怒的时候,讲话的速率会变快,音量会变大,音调会变高等,同时一些音素特征(共振峰、声道截面函数等)也能反映情感的变化。中国在人机交互语音方面的研究也已经有一些很好的研究成果并已经应用于实际市场之中

[4]

。1999年,在国家智能计算机研

究开发中心、中国科技大学人机语音通信实验室的基础上组建了科大讯飞公司,技术上更着眼于合成语音的自然度、可懂度和音质,设计了基于L/VIA声道模型的语音合成器、基于数字串的韵律规则分层构造、基于听感量化的语音库,以及基于汉字音、形、义相结合的音韵码等,先后研制成功音色和自然度更高的KD863及KD2000中文语音合成系统.其语音产品在主流市场有较高占有率,并牵头制定中文语音标准,是具有国际先进水平的汉语语音合成技术\.语音情感特征参数。

研究发现,基音是语音情感识别中最重要的特征,其次是语音的能量,然后才是发音持续时间、发音速率等其它声学参数。 汉语情感语音中特征参数变化情况 T F0 F0 F0 A A range + + ++ + + + + F1 F1 F1 range rate 喜 怒 + - + + + + + + + range rate + + - -

惊 悲

- + + + + ~ + + - - + + + + ~ + - - - + + - - - + + ~ 识别方法:识别方法种类繁多,如K最近邻方法、支持向量机、人工神经网络、高斯混合模型、隐马尔可夫模型等。许多学者针对这些情感语音的特征,比较了不同的分类方法能够达到的不同效果,人工神经网络、主元分析法,GMM方法等效果较好

总结:情感计算是一个多学科交叉的崭新的研究领域。这包括传感器技术、计算机科学、认知科学、心理学、行为学、生理学、医学、哲学、社会学等。情感计算的最终目标是赋予计算机类似于人一样,并能够被人所控制的情感能力。要达到这个目标,有许多基本科学问题有待解决,并具有很大的难度。另一方面,新世纪之中人类对自身的研究将成为科学探索的重点。情感作为人们心理活动的主要内容之一,存在许多待解之迷。可以认为,围绕情感计算产生的科学突破将对我们人类生活质量产生重大影响。

3 手势识别

3.1手势识别的概念模型(Concep t model forgesture recognition)

手势是指在人的意识支配下,人手作出的各类动作,如手指弯曲、伸展和手在空间的运动等,可以是执行某项任务,也可以是与人的交流,总之都表达某种含义或意图。基于手势识别的三维交互输入技术。目前常用的有基于数据手套的手势识别和基于视觉(如摄像机) 的手势识别。

手势不但由骨胳肌肉驱动, 而且还受人的信念、意识的驱使, 它涉及到人的思维活动的高级行为. 从用户产生手势到系统“感知”手势的过程如图1 所示.

手的运动是手势的表现形式. 用户的操作意图是用户要完成任务

的内容, 即用户心理活动(概念手势)G, 经过运动控制(变换) , 用手势运动H 表达. 经由感受设备(变换T hi) 将手的运动H 变换为系统的输入信息I , 所以从G 到I 的映射过程为:T g h: G → H , 即H C T g h (G)

T hi: H → I , 即I C T hi (H ) T g i: G → I , 即I C T hi (T g h (G) ) C T g i (G)其中: T g h为人体运动控制传送函数; T hi为输入设备传送函数. 手势识别的任务就是从系统输入I 推断、确定 用户意图G, 显然是以上映射的逆过程, 即

3.2 手势识别方法的发展

最初的手势识别研究主要集中在做一种专用硬件设备来进行输入。例如数据手套,即人可以戴上一个类似于手套的传感器,计算机通过它可以获取手的位置、手指的伸展状况等丰富信息。例如CMU 的

Christopher Lee 和Xu 1995 年完成了一个操纵机器人的手势控制系统。之后人们又致力于标记手势的研究,即通过在手上作标记。例如J . Davis 和M. Shah 将戴上指具有高亮标记的视觉手套的手势作为系统的输入,可识别7 种手势。这虽然给识别带来了方便,但也给操作者带来了麻烦。最后人们把注意力集中到自然手上,一些研究者成功地研制了手势系统,但其识别的手势仅限几种。近几年又提出了动态复杂背景中手势目标的捕获与识别方法。如清华大学的祝远新、徐光 等给出了一种基于视觉的动态孤立手势识别技术,后他们又提出动态时空规整算法用于手势识别,对12 种手势,平均识别率高达97 %。

3.3 手势的建模与输入(Gesture modelling and input)

手势的语法信息是通过手的构形、手的运动变化来传递. 人手是一个多肢节系统, 随着关节的运动, 手的形状在不断变化, 这种变化可以通过指段和关节的状态空间位置的变化来描述, 即建立手的几何模型和运动学模型. 从目前的有关资料来看, 几乎所有的手势建模方法都可归纳为基于表观的手势建模和基于3D 模型的手势建模. 而手势的输入方式有基于数据手套的手势输入和基于视觉(摄象机)的手势输入。

3.3. 1 基于数据手套的手势输入

基于数据手套的手势识别是采用3D 手势模型的建模方法. 从

手结构及其运动分析可知, 除大拇指具有五个自由度外, 其它手指都只具有四个自由度,手掌的前后左右运动有二个自由度, 所以手运动总共具有23 个自由度. 整个手可以以手掌为基础链接五个手指, 各

手指的指段依次链接, 每条链可以获取四个参数. 从而五个手指以手掌为根节点构成一个树型结构, 树中的每一个节点代表一个关节, 关节通过指段具有相互关联的运动特性. 所以在手势合成系统中, 手运动的一个手势需要确定23 个参数. 我们开发的系统是使用5DT 公司生产的不带位置跟踪器的5th Glove 右手数据手套, 每个手指的中间关节处有一个传感器用于测量手指的平均屈伸度, 以获得手指弯曲和手的位置. 在手腕部位还有一个2 轴倾斜传感器测量手的转动(Z 轴) 和倾斜(X轴) 角度, 以探测手的上下摆动和旋转. 所以5thGlove 仅带有七个传感器, 同一时刻只能读出七个角度值.

3.3. 2 基于视觉的手势输入

我们正在开发的基于视觉的手势识别系统, 采用基于表观的手

势建模方法, 然后对输入的手势进行特征检测等手势分析. 即通过摄象机捕获手势图象, 再利用计算机视觉技术对捕获的图象进行分析,提取手势图象特征, 重建三维模型来构建手势图象,调节模型参数如手指弯曲角度的夹角等, 以合成手的三维图形, 从而实现手势的输入, 根据手生成的图形和已获得的手图象匹配, 得到的模型参数就构成了手势.

虽然, 基于单摄象机在复杂背景下实时识别多种手势是手势识别的发展方向[ 11 ] , 我们的研究还是根据Kroeger 采用两个摄象机实现获取手势的方法. 它通过用户的手在3D 空间中完成交互. 两个镜子放在与前平面成450°角的位置上, 代替单个镜子产生一个虚拟视点, 加上两垂直平面上的两个摄象机共三个视点相交成直角, 以

提供给用户一个确定的工作空间, 在这个空间内用户可与计算机交互.

3.4 手势识别的技术难点

尽管已经实现了大词汇量的手势识别系统,但手势识别仍然面临许多挑战性课题,如手势不变特征的提取、手势之间的过渡模型、手语识别的最小识别基元、自动分割识别基元、词汇量可扩展的识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。其技术难点有以下两点 : 1) 手势目标检测的困难。

目标的检测是指在复杂的背景条件下从图像流中截取出目标来,也就是把人们感兴趣的目标提取出来。在基于单目视觉的手势识别方法中,把图像中的人手区域与其它背景区域划分开来始终是一个难点,这主要是由于背景各种各样、环境因素也不可预见,所以实现起来困难重重,非常复杂。

2) 手势目标识别的困难。

手势识别是根据人手的姿态以及变化过程来解释其高层次的含义,提取出具有几何不变性的特征是其关键技术。手势具有以下特点: (1) 手是弹性物体,故同一种手势之间差别很大,而且有很多不同手势它们之间很相似。人手有二十多个自由度,因而运动起来十分灵活、复杂。因此,同样的手势不同的人做出手势的运动也会存在差别,同一个人在不同的时间、地点做出的手势也不一样,如图1

本文来源:https://www.bwwdw.com/article/uir7.html

Top