AI-WIFI语音交互体验优化

1 前言

本文档旨在提供优化前端设备交互效果的建议，适用于aiwifi接入方式；目标阅读人群为故事机、早教机等儿童人工智能设备的工程师或者交互设计师。文档架构如下图： Alt text

2 专业名词说明

Alt text

3 重点推荐建议

3.1 tts输出介绍语句时，音频并行加载

1）优化目的和效果：在设备朗读tts的同时，通过预加载音频，提高播放音频的整体速度。 2）说明：音频播放，必须等 TTS 朗读完成后才可以开始，中间不做额外停留。 -如果音频加载完毕，TTS 朗读未完成，音频播放要等待 TTS 朗读完成； -如果 TTS 朗读完后，音频还未加载完成，则等待音频加载完后立即播放。

3）逻辑图： Alt text

3.2 ASR、TTS 推荐格式

3.2.1 ASR支持格式

1) pcm_16K_16bit 2) pcm_8K_16bit 3) amr_8K_16bit(不推荐) 4) amr_16K_16bit 5) opus（推荐） 6) speex 注：pcm 是无压缩格式，没有运算，但是占带宽空间大； amr是压缩格式，需要运算，但是占带宽小； opus，speex 是压缩格式，但是效果没有 pcm、amr 好。

3.2.2 TTS支持格式

1) pcm_8K_16bit 2) mp3_16（推荐） 3) amr_nb

3.3 ASR拾音设计建议

3.3.1 听觉建议

1）优化目的和效果：通过提示音，让用户更直观地感受到录音开始和录音结束，给予用户使用反馈，防止录音丢字，提高识别准确度。 2）说明： • 拾音开始提示音：提示拾音开始，一般是在提示音结束后开始收音。因此开始提示音建议短促、清晰、轻快、高音，来表示“开始”。可以用一声“嘀”来提示，推荐时长在100～200ms之间。 • 拾音结束提示音：提示拾音结束，系统开始运算，一般是结束提示音响起，拾音就结束。结束提示音必须和开始提示音有明显不同，不同之处可以是音高、音色、长短等。可以用一声“咻”来提示，推荐时长在500～700ms之间。

3.3.2 视觉建议

1）优化目的和效果：从视觉上更直观地反馈录音开始和录音结束，给予用户使用反馈，防止录音丢字，提高识别准确度。 2）说明： • 拾音视觉提示，应该在整个拾音时间段内，都持续显示，而不应该使用开头、结尾各显示一次。 • 建议在整个拾音时间段内，用颜色独特的长亮灯、特殊的收音图像来提示。

3.4 联网过程中的提示语

1）未联网监听：程序启动后，当机器人没网时，程序可以监听这个事件； 2）播放提示语：播放类似于”没有联网，请给我联网”的提示 3）进入配网模式：播放类似于”我已经准备好了，可以使用家长端给我配网啦”的提示 4）联网过程中：播放类似于”我正在联网，请稍等”的提示 5）联网成功：播放类似于”联网成功”的提示，并且建议播放有关绍设备推荐功能的新用户引导音频 6）联网失败：播放类似于”联网失败，请重新联网”的提示 7）联网缓慢：当由于网络缓慢等原因造成设备超过XXs 没有成功联网时，设备应播放loading提示音

3.5 依据产品形态，可以关闭不需要的功能

Alt text 1）优化目的和效果： AiWifi自带的功能很多，但是有些是只有硬件支持才能使用的；当硬件不支持时，最好关闭该功能，避免误识别。 2）实现方法：请在图灵开放平台的“机器人技能”中关闭不需要的功能

3.6 开机提示语

1）优化目的和效果：设备开机之后直接播放的提示语，激发小朋友的互动意愿，使对话体验更有乐趣。 2）全部主动交互的内容，都是按时间随机推送的；建议时间划分为8个时间段： 7：00-9：00（上午） 9：00-12：30（午饭前） 12：30-14：30（午睡） 14：30-16：00（下午） 16：00-18：00（傍晚） 18：00-21：30（晚上） 21：30-23：00（不说话） 23：00-6：00（深度睡眠，不说话） 3）运营操作：在图灵AI开放平台可以设置开机提示语 Alt text

4）参考文档请见图灵开放平台-文档中心-api接入： http://docs.turingos.cn/api/API.html

3.7 主动交互语

1）优化目的和效果：在用户沉默的时候主动发起对话，增强设备的互动效果，让小朋友更愿意与设备对话。 2）说明：机器人活跃中无交互可以采取以下逻辑： Alt text 3）实现方法：· 在图灵AI开放平台可以设置主动交互语。 4）参考文档：· 请见图灵AI开放平台-文档中心-api接入：http://docs.turingos.cn/api/API.html

4 可选做的建议

4.1 低电量

1）优化目的和效果：在未充电、正在充电以及插上充电器三种状态，给予用户提示，让用户了解电池状态，及时获知电池使用情况。 2）听觉和视觉提示：听觉提示：电池状态—未充电 • 大于80%，提示语，电池电量充足 • 50%和80%之间，提示语，我的电池电量还剩下一大半 • 20%和50%之间，提示语，我的电池电量还剩下一小半 • 小于20%，提示语，我的电池电量已经不多了，快给我充电吧电池状态—正在充电 • 等于100，电池电量已经充满，请拔掉充电器 • 大于80%，提示，电池电量充足，即将充满 • 20%和80%之间，提示，我正在充电 • 小于20%，提示，电池电量不足插上充电器 • 提示，”开始充电” 视觉提示：电池状态—未充电 • 大于80%，绿灯闪烁 • 20%和80%之间，黄灯闪烁 • 小于20%，红灯闪烁电池状态—正在充电 • 等于100，绿灯长亮 • 大于80%，绿灯闪烁 • 20%和80%之间，黄灯闪烁 • 小于20%，红灯闪烁

4.2 音量控制

1）优化目的和效果：本建议推荐不带音量控制按钮的智能设备使用，在语音控制音量的情况下，设备能有即时的反馈，避免用户因不知设备是否收到指令而重复控制。

2）增大音量： • 听觉提示：当用户说“增大音量，声音大一点”，则系统提示，“好的，已经增大音量，我刚才说XXX”，xxx为用户刚说的话，若上一句内容为空，则直接提示“好的，已经增大音量“ 当音量调节到最大，则直接提示“我已经使用最大的声音和你说话，如果你还是听不清，建议你靠近我或者找个安静的地方和我说话”

• 视觉提示：灯光亮度逐渐提高。

3）减小音量： • 听觉提示：当用户说“减小音量，声音小一点“，则系统提示：“好的，已经减小音量” 当音量调节到最小音量，则直接提示“我已经使用最小的声音和你说话，再小你就听不到了”

• 视觉提示：灯光亮度逐渐降低。

4.3 图灵资源库无结果，通过第三方资源库检索内容

1）优化目的和效果：增加了第三方资源库，可以检索更多音频内容，增加点播成功率。 2）说明：有的资源在图灵资源库中没有，需要去第三方资源库中检索，会造成等候时间较长。因此如果在图灵资源库没有找到内容的话，图灵会返回给设备一个结果，并随机返回一个歌曲url；设备再去第三方资源库检索，如果有准确的资源，就播放该资源；如果没有的话，就播放从图灵获取到的资源。 3）逻辑图： Alt text

4.4 通过模拟请求，在前端实现连续播放

1）优化目的和效果：可以实现自动播放下一首的功能，中间播放换歌的语音提示，缓解用户的等待焦虑，填补等待空白时间。 2）说明：唱首歌->正常播放->播放结束->再次用唱首歌指令模拟请求我们的服务器，同时播放一个TTS内容或音频提示语（例如：播放完啦，下面我给你换首歌）->播放返回的音频 3）逻辑图： Alt text

4.5 表情 & 动作

1）优化目的和效果：自定义更加丰富的交互效果，使人机互动更有趣。 2）说明：客户在前端定义表情列表和动作列表，比如1对应左转，2对应右转，smile代表微笑；在此基础上，来到图灵AI开放平台编辑参数；图灵服务器解析参数并传给前端，前端就会据此执行相应的动作或表情。 Alt text

5 各种错误情况的提示语

Alt text

6 语音交互原则

Alt text 语音交互设计需要遵循以下几个原则：简单明确、强引导性、高效以及可随时中断。

6.1 简单明确

6.1.1 回答语句尽量精简

用户：今天天气怎么样较好的回答：小朋友，你在哪里呢？不好的回答：我可以回答全国任何城市的天气哦，但是我不知道小朋友在哪里呢？ 说明：回答语句不要过于冗余，造成用户信息负载太大，理解不了。

6.1.2 使用户了解对话进程

用户：狮子怎么叫较好的回答：小朋友听好了哦~狮子的叫声是… 不好的回答：直接播放狮子的声音 说明：让用户明确回答是针对的问题是什么，避免用户迷失在众多功能当中。

6.2 强引导性

用户对于设备的了解程度，会依据使用的深入而增加。按照使用频率，我们可以把用户分成新用户、中度用户、活跃用户。对于新用户，也就是刚刚使用设备的用户，应该在开机后有对于功能的说明，引导用户去尝试提问；对于已经使用过几次的用户，可以介绍一些高阶使用方法，或者推荐新的内容，并进行相关引导。

6.3 高效

6.3.1 记住：用户并不熟悉功能

用户：能给我播放首歌吗？较好的回答：好的，小朋友，我要开始唱啦+播放音频不好的回答：我会唱歌呀 说明：当用户提问很泛泛时，设备应精准理解用户意图，而不是反复交互。

6.3.2 对用户问的问题要广泛支持

用户：能给我来首歌吗？ 说明：当用户提问中有多义字，或者同义词时，应在后台对词汇进行关联，使设备可以正常播放。

6.4 可随时中断

人与人之间的交流，经常因为各种问题而中断；设备在和人互动的过程中，也应该支持随时打断，比如随时都可以中断或切换到下一条。播放音乐也是如此，在播放A曲目时，随时可以被要求“切歌”或者“暂停播放”。