user是什么意思(switch user是什么意思)

最近有很多网友都十分关心user是什么意思这个问题。还有一部分人关心switch user是什么意思。对此,武陵观察网整理了相关的攻略,希望能对你有所帮助。

什么是语音交互

在机器出现之前,人类最早的互动方式是语言和动作。如今,在自然交互模式在...的趋势下,我们又回到了语言的互动形式。

原始交互模式,是人与人之间语言的使用、动作、目光接触,人与物的互动。当机器第一次出现时,没有人机交互的想法,这台机器很难操作,人们需要学习和适应。肖尔斯的“QWERTY”键盘会展开是因为这种字母排列设计可以降低打字速度,避免快速输入导致的关键环节相互干扰。

二战期间的研究促进了人因工程学的发展,机器适应人类、提高人们效率的想法已经发展起来了。在计算机领域,从命令行界面(CLI)进入图形用户界面(GUI)是一大突破,然后发展到现在主流的触控操作方式,用手指在屏幕上滑动和点击。语音交互界面(Voice User Interface,VUI)、手势、动作、表情互动,甚至脑机接口,都属于自然的用户界面(NUI)。

与载体分离,语音交互由手机或电脑承载,、或其他硬件作为载体。除了这些,在客服、而且在教育、医疗等行业也有应用,比如客服语音质检、口头评价等。

图1 语音交互界面的形式

如何评价语音交互

VUI效率还是低吗?

高效的互动才是好的互动。人机交互是为了提高人的表现,从速度、准确性、注意三维载荷测量。让用户速度更快、越准确,而耗费注意力负荷最少的,就是良好的互动。我们来看几种情况。

输入文本:效率极高。人们说话比打字快,且不需要从观看屏幕上分心,考虑到打字也有错误,语音交互在输入文本时效果很好。所以很多产品都会在文字输入中加入语音输入。

布置任务:如果我们想打快车回家,打车用语音助手还是图形界面APP更快?由于路径较短,语音助手的理论速度更快,唤醒Siri说点什么,没必要打开APP再点选。在目前的情况下,容易出错的输入任务。如果命令语言偏离,语音助手听不懂你的话,会导致任务失败。我们需要考虑如何安排这项任务,是说“我想坐出租车回家”还是“打开XX然后打车回家”?如果语音助手三次听不懂命令,你会继续努力吗?放弃语音分配任务,打开它APP,找到熟悉的入口,点击完成操作。

输出:与即时图形反馈相比,语音是一种不合格的输出方式,太慢了、低利用率。因为听觉是线性的,我们只能先听一个句子,然后再听下一个,并且不能像视觉一样瞬间完成图片处理,你不能在文本之间浏览和跳转,电话语音服务系统真是浪费时间。另外,连续听语音也会消耗大量注意力和记忆资源,如果客服看完之后没有听到想要的内容,重听按0又是一场噩梦。另一方面,我们的大部分信息来自视觉,但是语音模式无法输出视觉信息。

适合手被占的场合

语音交互适合在哪里使用?当你的手被占用的时候,如驾驶、烹饪、游戏等。比如,开车时眼睛需要看路,双手握住方向盘,而且车内环境安静私密,在这种情况下,语音交互是合适的。另外,在输出层面,如果可视频道被占用,听觉通道更适合接收紧急和重要的通知。

极低的阈值

语音交互的支持者认为,语音是最自然的交互方式。每个人都会说话,极低的阈值,尤其是对于输出困难的人(例如有视觉障碍的人),他们可以无障碍地使用语音交互的形式。但是另一方面,习惯触摸的人不一定愿意转向语音,害怕新技术的人可能也不愿意尝试语音交互“新”的技术。

声音可以传达情感,但是人不习惯和机器说话

因为声音有和谐的节奏,与文字相比,更能传达情感。问题在于我们不习惯和机器人或者手机说话,据统计,在公共场所使用Siri只有3%。我们的默认语言是人们相互交流的方式,或者猫、我们认为是人类动物的狗相互交流。当人们与事物交流时,会采用更多的动作互动。所以人在用手机通话时会有一种奇怪的感觉,尤其是对东方人来说,心理障碍可能更大。

为了减轻用户的压力,拉近心理距离,很多智能语音助手都会自己设置“人物形象”。例如Siri冷酷而忠诚,微软萧冰既可爱又健谈。另外,语音助手多为女声,也是因为女性的声音听起来更亲切,更包容。操作过程中出现了问题,如果有男性的声音,容易给使用者产生被责备、被批评的感觉。

不过,语音助手不能太像真人。恐怖谷理论认为,越来越像人的东西,我们的好感会上升,但是我们讨厌看起来像人而不是人的东西,比如僵尸。根据恐怖谷的理论,我们可能会害怕逼真的语音助手。

图2 恐怖谷

不适合公共使用

语音交互不适合公共使用,尤其是图书馆、像办公室这样安静的场合。

身份识别问题。在汉堡王的视频广告中,最后,推销员走近屏幕,说“OK google, what’s the whoppers?”。“OK google”安卓手机和Google Home的唤醒词,用户会发现,不用下命令,设备已经启动,搜索帝国城堡,这是由于设备缺乏识别系统造成的。为此,一些产品推出了声纹识别系统,以确保支付安全,声纹验证的可靠性是另一个问题。

图3 汉堡王的视频广告

隐私也是如此,与屏幕相比,公共场所的输入输出对话更容易听到。敏感金融、医疗和私人信息面临更大的风险。

场景分析

通常,语音交互至少要满足低噪音和私密性的要求,在许多场景中,车和家都符合要求,再加上手机上的移动场景,共3大场景。Mary Meeker在2016的报告还指出,美国语音使用的主要场景是在家里(43%),车上(30%),路上(19%),工作只占3%。

语音交互发展的难点

语音交互系统的历史并不短,早在1952年,贝尔开发了一个可以识别阿拉伯数字的系统Audrey。1962年,IBM发明了第一台可以通过语音进行简单数学计算的机器Shoebox。

图4 IBM的Shoebox系统

经过半个多世纪的发展,语音交互还没有达到成熟应用的水平,遇到的困难贯穿开发到使用过程。

一个完整的语音交互系统有三个典型的模块,语音识别(Automatic Speech Recognition,ASR)将声音转换成文字,自然语言处理过程(Natural Language Processing,NLP)解释单词的意思,并给予反馈,最后,通过语音合成(Text to Speech,TTS),将输出信息转换成声音。

图5 基于的典型语音交互系统模块

远场识别问题

第一个问题是获取话语权的问题。在高语音质量的前提下,才能有更好的语音识别效果。一些公司声称他们的语音识别率已经达到了95%甚至99%,不过,前提是声源离得很近、环境特别安静、说话人普通话的特殊标准,而不是日常应用场景。

获取用户语音,按距离可分为近场识别和远场识别,后者更难。

手机上的语音交互是典型的近场,靠近声源,语音质量高。另一方面,语音采集的交互比较简单,有触摸屏辅助,用户通过点击开始和结束来收集信号,确保你能记录下用户说的话。

远场语音交互以智能音箱为代表,声源远,不知道声源的确切位置,环境中有噪音、和混响。单个麦克风达不到要求,需要麦克风阵列支持。用户可以站在任何位置,被声音惊醒后,需要定位声源位置,这个方向的定向拾音器,增强语音并减少其他区域和环境中的噪音。

图6 远场识别图(来源:雷锋网)

语音识别准确率

在实际工作中,常用的指标是识别单词的错误率(Word Error Rate)。微软语音与对话研究团队负责人黄最近宣布,微软语音识别系统的错误率为5.9%进一步减少到5.1%,堪比专业速记员。进步来自两个方面,一个是技术,包括隐马尔可夫模型、机器学习和各种信号处理方法,另一方面,庞大的计算资源和训练数据。

语义识别

如果您已经与语音助手进行了对话,会发现它的语义理解还停留在固定模式识别的套路上,回应用户话中的特定词,可能不会给出正确答案。

约翰·希勒建议“中式房间”的思想实验,一个不懂中文的、说英语的人在一个封闭的房间里,房间里有一本英文手册,告诉你如何处理相应的中文信息。用中文写的问题通过窗户传进房间,这个人在手册上查了一下,将相应的中文答案写在纸上并分发出去。房间外的人可能会觉得这个人很懂中文,事实上,他对此一无所知。训练机器理解语义类似于这个过程。通过训练,我们让机器的反应接近于能够理解,但不能像人类一样真正理解语言。

它是人与人之间交流的工具,在某种程度上,它适合人类的认知系统,如何期待机器更好地理解我们?

目前,遇到的问题至少有分词、歧义和未知语言处理。与英语单词不同,汉语单词由空格分隔,而且歧义性高,对AI有更高的要求。例如“南京长江大桥”它可以分为“南京市/长江大桥”和“南京市市长/江大桥”两种,“不要吃鸡肉”有多重含义,和Siri说“你吃饱了吗?外卖”,以前没学过“饱了么”在这个词的情况下,会怎么处理?

多轮对话问题

我们觉得语音助手很蠢,有时候是因为违背了人类对话的原则。人类的对话看似简单,但是根据对方的背景和掌握的信息,调整对话内容,语境之间也会有呼应关系。但是,许多现有产品,它的对话缺乏相关性,语音助手不理解上下文,只能举行一轮对话,看似多轮对话,其实是几个单轮对话的组合。

“愚蠢”一是不自然,二是增加任务难度。比如你问语音助手的时候,“明天天气会怎么样?”它说下雨了,继续问“后天呢?”,这时候它不明白问题是后天的天气,只能再完整的问一遍“后天天气如何?”。

在下面的对话中,冰说阴阳师是游戏,以后会是电影,没有谈话的记忆。

图7 萧冰不记得对话

语音交互设计规范

因为语言的形式,尤其是口语,是不固定的,巨变,VUI交互式设计和GUI完全不同,更加详细和繁琐。亚马逊已经为开发者提供了成熟的交互设计规范。

语音交互设计至少可以分为几个步骤:首先,确立功能目的;第二,写剧本,也就是用户如何与系统对话;第三步,制定流程、用户路径等,你还需要定义技能的结构,包括完成一个功能需要什么参数、条款有哪些变化,例如,对于相同的功能,用户可以说“天气怎么样”你也可以问“外面在下雨吗”。

远场语音交互产品冷启动

远场语音交互产品存在冷启动周期,只有积累了一定的数据,才能更好的提升产品体验,但是如何提高销量呢、积累数据是产品启动时需要考虑的问题。如果你想让语音交互产品成为平台,一千万量级是基本门槛,如果Echo今年的销量估计能达到2000万台,基本上有足够的数据,有希望成为平台。国内部分模仿者采用节日促销的模式,比如双十一天猫精灵99人民币的卖出价,卖出了100万台,希望通过这种方式初步积累数据。

缺乏持续使用动机和核心场景

新鲜过后,很多人会对语音交互失去兴趣,触摸仍然是主要的交互方式。Creative Strategies数据发现,97%人们将在两周内正确Alexa对的新功能失去兴趣。Voice Lab数据发现,62%Android用户很少或偶尔会使用语音助手,这个比例在iOS用户是70%。目前,语音交互缺乏只有it才能实现的核心功能,甚至亚马逊的Echo,它最大的用处还是听歌,缺乏核心竞争力和不可替代性。

问题讨论

语音交互会成为主流交互方式吗

作者的意见是,就像触控没有取代鼠标键盘一样,语音交互不太可能成为主流的交互方式。该接口本质上是多模态的,语音交互会丰富现有的交互形式,不会取代其他。如上所述,语音交互不能解决所有问题,它只能在特定的情况下发挥作用。

带语音的多互动频道是个不错的选择,例如,语音和触摸的结合可以提高准确性,声音和视觉的结合,实现语音输入和视觉反馈,或者添加手势等。

需要追求语音交互的纯粹性吗

Echo团队认为,语音是最自然的交互方式,所以我们坚持设计语音交互,但是语音输入和视觉输出的模式已经被证明是成功的,我们在手机上使用的语音交互模型就是这种情况。新品Echo Show屏幕也安装好了,你可以显示视觉信息。那么是否有必要坚持纯语音交互模式呢?答案似乎显而易见。新的问题是,如果Echo添加屏幕,用户会认为是音箱还是平板?

图8 带屏幕Echo Show

语音交互的定位

本质上,语音交互允许人们通过语音来完成任务,可以通过语音完成,触摸也可以,Siri可以做到,Echo也可以,没人能做不到的事。那么语音交互可以完成哪些独特的任务来体现其价值呢?

VUI vs. CUI

语音设计者Cheryl Platz在她的Medium在…上反复提到一个问题,VUI还是Conversational UI?

语音交互界面基于单个任务,它的模式很简单“下命令——完成任务”,然而,这不是一个自然的对话,我们需要考虑如何下命令,谈话太遥远了。如果你想走向CUI的目标,语音交互一定要更加智能流畅,允许真正的对话来完成任务,和一个真实的人交谈。

隐私问题

如果要更好地使用语音助手、更智能,需要持续收集用户的信息。那么我们需要语音助手来改变我们的反应吗?如果语音助手的目的是商业,那么我们信任它并提供信息吗,这样它就能更了解我的喜好了?

另一方面,语音助手安全吗?由唤醒词唤醒的语音交互产品将保持待机状态,从环境中获取声音,这种机制可能被利用。在新闻报道中,Echo被破解成了一个24小时虫,和连接方法,德国禁止销售的儿童发声玩具“My Friend Cayla”,它的蓝牙连接被证明是不安全的,孩子对着玩具说话的声音可能是第三方获得的。

图9 儿童发声玩具My Friend Cayla

语音交互界面的测试方法

和普通产品的研究方法是一样的,可用性测试、访谈等方法仍然适用于语音交互系统的研究。测试VUI有些地方可以特别注意,比如用户的反应,成功率,暂停或失败等。有一些具体的指标可以用来评价,比如速度精度、用户的认知努力、清晰度和可理解性、系统友好性和音质等。

下面是一个有趣的语音交互界面测试方法:Woz法。由于语音交互系统的高成本,在系统开发之前,通过Woz(Wizard of Oz)样机试验中发现的问题,成本低。由一名研究员扮演Wizard,由一名普通研究员协助,用户操作后,由Wizard在黑暗中手动播放反馈。

图10 车内Woz测试(来源:《Designing Voice User Interfaces》)

语音交互仍然需要开发,技术需要时间来成熟。但是它的出现意味着我们可以用更多的方式操作设备、传递信息,我们离理想的交互界面又近了一步。简单总结一下上面的语音交互,有疏漏,有不成熟的想法,欢迎交流指正。

参考数据:

  1. Cathy Pearl. Designing Voice User Interfaces. O’Reilly Media, 2016
  2. Clifford Nass, Scott Brave . Wired for Speech. MIT Press
  3. Cheryl Platz. The Narrowing Rift: Voice UI and Conversational UI. Medium: Microsoft Design
  4. Amazon Alexa:Voice Design Guideline. Amazon
  5. 极限元,首先,了解智能语音前端处理中的关键问题,雷锋网

作者:汪梅子,网易产品开发部用户研究员,目前,对接智能硬件的用户研究工作。比如你不知道的,在用户研究的道路上(树)继续成长。

作者@武慧新,由@盐有点咸(微信订阅账户:盐有点咸) 发布授权,未经批准,禁止转载。

图片来自unsplash,基于CC0协议

版权声明:本文内容部分来源互联网用户自发贡献或其他公众平台,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们,一经查实,本站将立刻删除,如若转载,请注明出处。

发表评论

登录 后才能评论

评论列表(0条)

    联系我们

    在线咨询: QQ交谈

    邮件:

    工作时间:周一至周五,9:30-18:30,节假日休息