
随着科技的进步,互联网逐渐从电脑、手机屏幕走向VR、AR、智能座舱、智能家居等三维空间,为了让用户更自然地获取信息,多模态交互将起到关键作用。本书从人工智能、用户体验和技术的角度出发,介绍不同模态之间的差异,本书重点讲解语音交互设计、手势设计、图形和语音界面融合设计三个方面的知识。 本书适合从事人工智能、语音交互、VR、AR、智能座舱和智能家居的产品经理和设计师阅读,希望本书能帮助读者更清晰地知道未来的科技走向。
下一个阶段有趣的设计是什么?这是笔者工作以来一直在思考的问题。2016年,谷歌的AlphaGo在围棋领域以四胜一负的成绩击败了韩国围棋九段棋手李世乭,以深度学习为代表的人工智能成为业界关注的重点,人工智能和艺术的结合也层出不穷。出于兴趣,笔者在2019年出版了人工智能和设计相关的图书《AI改变设计——人工智能时代的设计师生存手册》,工作的重心也从移动互联网和交互设计逐渐转向人工智能和人机交互。随着不断的研究和探索,笔者从2020年开始创作本书。 本书的重点是多模交互,因为多模交互是信息时代下一步发展的基础。随着技术的进步,信息逐渐从单个屏幕延展到多个屏幕,甚至延展到用户所处的空间,基于鼠标、键盘和触摸屏的近场交互方式已经不能较好地满足人们在空间中快捷获取信息的需求,以语音、肢体交互为代表的远场交互方式成为人工智能和人机交互的研究重点,将多种交互方式自然地融合在一起更为关键。 多模交互也是下一代人工智能的基础。众所周知,大数据为人工智能技术带来新的突破,数据的增长速度也越来越快。希捷科技与国际数据公司IDC在2017年共同发布的白皮书《数据时代2025》预测,2025年全球的数据量将达到163ZB(1ZB约等于1亿块1TB容量的硬盘),是2016年全球数据量的10倍左右,而如何规范化并利用数据一直是困扰研究人员的问题。回顾历史,人机交互的本质是将人们产生的信息转换为计算机能理解的数据,而人工智能能为人机交互技术带来更多的突破,尤其是对人们的行为进行建模和理解,能为后续的空间交互,甚至城市交互奠定良好的基础。因此,人工智能和人机交互是相互促进的关系,通过多模交互技术构建优秀的用户体验将成为两者的关键桥梁。 多模交互体验是有趣且复杂的,关键是未被定型。什么样的多模交互体验是优秀的?如何定义下一代交互设计规范,类似苹果公司的 HIG(Human Interface Guidelines)或谷歌公司的Material Design?笔者认为这是研究和设计多模交互体验的最大乐趣。从现有的资料来看,当前大部分的多模交互研究集中在学术界的论文、期刊和会议中,面向工业界和广大群体的资料极少且零散。因此,如何将学术界前沿的多模交互研究内容及笔者在多模交互领域的设计经验传递给广大设计师是笔者编写本书的初衷。 本书内容分为6章:第1章介绍多模交互的发展历史;第2章介绍多模态的相关特点和现有技术;第3章和第4章分别详细讲述语音交互和隔空手势交互应该如何设计;第5章围绕如何将语音界面和图形界面融合进行编写;第6章介绍多模交互和跨设备交互之间的关系。书中提及的视频和资料可以在公众号“薛志荣”中获取,希望本书的内容能对读者有所启发和帮助。
第1章 多模交互的演进1 1.1 什么是多模交互 1 1.1.1 人机交互的发展历史 1 1.1.2 多模交互的定义 4 1.1.3 多模交互技术逐渐成熟 6 1.1.4 多模融合的三个阶段 9 1.2 初步融合阶段 10 1.2.1 多模态之间的关系 10 1.2.2 多模融合的关键12 1.2.3 多模交互框架 13 1.3 语义理解阶段 14 1.3.1 什么是语义 14 1.3.2 语义对于多模交互的重要性 15 1.4 任务自适应阶段 17 1.4.1 认知负荷 17 1.4.2 隐私性19 1.4.3 安全性20 1.4.4 模态容量 20 1.4.5 信息重要程度和交互历史 21 1.4.6 交互距离22 1.5 当前我们能做什么 23 第2章 多模交互包含什么 25 2.1 视觉系统的特点 25 2.1.1 视觉范围25 2.1.2 3.5 毫米的中央凹和每秒3~4次的跳动频率 26 2.1.3 中央视觉和周围视觉 28 2.1.4 我们是如何阅读的 29 2.1.5 光亮与黑暗31 2.2 听觉32 2.2.1 听觉系统的特点32 2.2.2 视觉和听觉的区别 34 2.3 触觉 35 2.3.1 触觉系统的特点 35 2.3.2 触觉感知的相关应用 35 2.4 嗅觉、味觉和五感理论 40 2.4.1 嗅觉系统和味觉系统的特点 40 2.4.2 嗅觉营销相关案例 42 2.4.3 嗅觉交互上的探索 43 2.4.4 嗅觉和味觉设计存在的问题 45 2.4.5 五感理论 45 2.5 主动交互47 2.5.1 包含情绪的语音 47 2.5.2 肢体动作 48 2.5.3 手势 49 2.5.4 面部表情 51 2.5.5 眼神 51 2.6 无须主动交互的生物识别技术 52 2.6.1 指纹识别 53 2.6.2 人脸识别 53 2.6.3 虹膜识别 54 2.6.4 声纹识别 55 2.6.5 心率检测 56 2.6.6 肌肉电信号57 2.6.7 脑电波 58 第3章 语音交互设计61 3.1 声音的构成和作用 62 3.1.1 语言 63 3.1.2 音乐和音效 67 3.2 语音交互的特点 70 3.2.1 语音交互的优势 70 3.2.2 语音交互的不足 72 3.2.3 语音交互的五大特性 77 3.3 创造一位智能语音助手 78 3.3.1 寻找合适的音色 80 3.3.2 确定智能语音助手和用户的关系 82 3.3.3 构建智能语音助手的用户画像 84 3.3.4 设计合理的唤醒词 86 3.4 语音交互框架、意图设计 88 3.4.1 四种语音交互模式 88 3.4.2 四种“唤醒+识别”方式89 3.4.3 语音交互状态设计 90 3.4.4 意图设计术语介绍 94 3.4.5 智能语音平台如何听懂用户说的话 98 3.4.6 设计能听懂用户说什么的智能语音产品 101 3.5 对话设计原则 107 3.5.1 设计对话前需要了解的事项 107 3.5.2 任务型对话设计原则 113 3.5.3 修复对话设计原则 118 3.6 语音交互的GUI 设计 121 第4章 仍在起步的隔空手势交互130 4.1 手势的介绍 130 4.1.1 手势交互的发展 130 4.1.2 手势的分类 132 4.2 隔空手势设计 135 4.2.1 设计隔空手势时需要考虑的问题 135 4.2.2 导航手势 141 4.2.3 语义手势 144 4.2.4 操纵手势 146 4.3 结合隔空手势的UI设计 147 4.3.1 数字手部 147 4.3.2 直接触摸 149 4.3.3 指针设计 150 4.3.4 交互组件的改造 152 第5章 语音图形界面157 5.1 GUI和VUI的区别 158 5.1.1 GUI的特点 158 5.1.2 VUI的特点160 5.1.3 GUI和VUI融合时会遇到的问题 162 5.2 GUI和VUI融合的三种实现方式 165 5.2.1 应用级语音交互 166 5.2.2 可见即可说 170 5.2.3 系统级语音交互 171 5.3 VGUI设计原则 172 5.4 重构GUI操作 179 5.4.1 GUI控件文案设计 179 5.4.2 GUI组件和容器文案设计 184 5.4.3 特殊的控件和组件 185 5.5 VGUI核心设计要点187 5.5.1 全局指令和局部指令的权衡 187 5.5.2 控件/组件属性的重构 192 5.5.3 手势的融合 200 第6章 跨设备和多模交互 201 6.1 跨设备交互是什么201 6.1.1 跨设备和多模交互的关系 201 6.1.2 跨设备交互的六个维度 202 6.2 浅谈跨设备和多模交互细节 206 6.2.1 结合用户场景进行考虑206 6.2.2 结合信息密度和显示距离进行考虑208 6.2.3 模态的过渡和打断 211 6.3 未来可期 212 6.3.1 面向未来的分布式操作系统 212 6.3.2 普适计算及未来 213