下一个革命性的人机交互方式会是什么？

漂亮的石头 · 2020-12-17

夏冰莹，Google无障碍设计师，公众号「无障碍设计研究小组」阅读原文

抛砖引玉了。

我期待看到的下一个人机交互大动作是 multimodal interaction，多模态交互。一些别的回答已经提到，但我想要深入讨论一下。

这个词在人机交互领域其实已经存在几十年了，指的是一件事可以通过多种交互方式做到。很多小范围的交互实际上也已经达到了多模态，比如打字输入这件事，你可以在实体键盘上打字、可以在触屏键盘上打、可以用触控笔或手写输入，也可以用语音输入。

但是，我们离真正的、全面并且无缝衔接的多模态交互，还差那么一点。

首先抛出利益相关，我是做无障碍交互设计的，就是针对有视觉 / 听觉 / 肢体 / 言语 / 认知障碍的用户做设计。

无障碍领域的一大基石是，

所有人都在某些时候是残障人士。

视觉障碍，可以是眼盲，也可以是开车的时候眼睛放在路上没法看手机。

听觉障碍，可以是耳聋，也可以是在嘈杂的餐馆里听不清朋友说话。

肢体障碍，可以是截瘫，也可以是做饭的时候腾不出来手操作手机。

言语障碍，可以是失语症，也可以是出国旅游无法和当地人沟通。

认知障碍，可以是阿兹海默症，也可以是忙了一天累得脑袋转不动。

用户（人）与设备（机）之间的交互，是由输入（input）和输出（output）两部分组成的。任何输入或者输出方式都要通过用户的某个感知能力才能成立。

目前主流设备中，普遍的输入和输出模态有以下几种：

设备输出：视觉、听觉、触觉；用户输入：触摸、语音

任何障碍，无论是永久性的障碍（如眼盲 / 耳聋），还是情境性或临时性的障碍（如开车 / 做饭），都会影响到用户某些模态的感知或操作能力。

视觉障碍会影响视觉输出和触碰输入（仅限于无法触碰精准的位置），肢体障碍会影响触觉输出和触碰输入，听觉障碍会影响听觉输出，言语障碍会影响语音输入，认知障碍可能会影响任意一种输出或输入。

换句话说，任何人，在任何场景下，任意一个输出或输入模态都可能受到限制。

但是，反观我们现在主流的产品交互，绝大多数都是基于「视觉输出」+「触碰输入」。即便是已经达到多模态交互的操作（比如打字），仍然是视觉 + 触碰为主、其他模态为辅（仍然要先按下语音输入按钮，然后才能开始通过语音打字）。

视觉输出、触碰输入为主，其他交互模态都是次要的

这显然无法满足现代人更加多样、更加动态的设备交互需求。要不然每年也不会有那么多车祸是一边开车一边用手机导致的了。

真正的多模态交互，是任意一种输出 / 输入方式，都可以被任意另一种所取代。

视觉 / 听觉 / 触觉互相替代、触碰 / 语音互相替代

再加上 ambient computing 带来的情景感知和智能辅助（见 @吴升知的回答），这就可以非常厉害了。

这个概念实际应用起来会是怎样？

床头的闹钟刚响，我迷迷糊糊地睁不开眼睛（视觉障碍），就跟闹钟说“关掉闹钟”来停止它。系统检测到我起床了但睡眼惺忪，开始用语音播报现在的时间、今天的天气、新闻、日程。

考虑到我刚起床有点迷糊（认知障碍），它特意采用简短、语言简单的版本来报新闻。

走进洗手间，系统也跟着从床头切换到洗手间里。用电动牙刷刷牙的时候，我听不清声音（听觉障碍），系统就从语音朗读切换到隐藏在镜子里的显示，让我用眼睛接着读新闻。

刷牙的时候只有非惯用手能操作设备，用起来不灵活（肢体障碍），但因为在刷牙我也没法用语音操控（言语障碍），所以系统把镜子上的 UI 调整为适合我的模式，显示出超大颗的「上一篇」、「下一篇」按钮，方便我点击。

看，起床不到 10 分钟，已经遇到了所有类型的障碍。你确定你真的是个所谓的「健全人」吗？

洗完澡，开始吹头发，系统也跟着我从洗手间切换到了梳妆台的镜子上。吹头发的时候我打算刷刷抖音，但是吹风机太吵（听觉 + 言语障碍），系统就自动给我加上字幕。同时，我的惯用手握着吹风机，只能单手操作（肢体障碍），所以系统继续采用超大颗按钮的 UI 模式。

准备出门，拎着包走进车库（肢体障碍），汽车看到我走来，自动辨别出我的身份、给我开门。

这时系统已经切换到车内音响。我一边手握方向盘专心开车（肢体障碍 + 视觉障碍），一边听着车内音响播报当前的路况和今天的会议日程，并且它还推荐了沿途最便宜的加油站，提醒我该去加油了。

（请不要吐槽为什么都有贾维斯了还没有无人驾驶，咳）

上面这些只是一些最简单的例子，故事不再往下讲了，但是你可以想象一下所有情景障碍情况下的应用 —— 做饭、遛狗、跑步、骑自行车、去嘈杂的餐厅、手指受伤、等等。

即便不考虑情景感知的部分，多模态交互本身也是成立的 —— 笨办法就是，可以让用户主动以当前能够使用的操作方式切换到另一种模态（比如「OK Google，把新闻读给我听」、点击按钮切换到显示模式继续看新闻）。

语音交互虽然已经进入主流，但是使用场景仍然非常有限，无法全盘代替视觉 + 触碰交互（所以视障用户才需要用读屏软件这么笨重的解决方法）。我认为完全可以替代视觉 + 触碰的的语音交互会是多模态交互的下一个突破点。

不对用户的感知 / 操作能力做出任何假设、并且可以在不同输入 / 输出方式间切换自如，这才是真正友善包容、以人为本的交互方式。

阅读原文

登录或注册

下一个革命性的人机交互方式会是什么？

漂亮的石头版主管理成员

登录或注册

下一个革命性的人机交互方式会是什么？

漂亮的石头 版主 管理成员

漂亮的石头版主管理成员