AI-WIFI语音交互体验优化
1 前言
本文档旨在提供优化前端设备交互效果的建议,适用于aiwifi接入方式;
目标阅读人群为故事机、早教机等儿童人工智能设备的工程师或者交互设计师。
文档架构如下图:

2 专业名词说明

3 重点推荐建议
3.1 tts输出介绍语句时,音频并行加载
1)优化目的和效果: 在设备朗读tts的同时,通过预加载音频,提高播放音频的整体速度。 2)说明: 音频播放,必须等 TTS 朗读完成后才可以开始,中间不做额外停留。 -如果音频加载完毕,TTS 朗读未完成,音频播放要等待 TTS 朗读完成; -如果 TTS 朗读完后,音频还未加载完成,则等待音频加载完后立即播放。
3)逻辑图:

3.2 ASR、TTS 推荐格式
3.2.1 ASR支持格式
1) pcm_16K_16bit
2) pcm_8K_16bit
3) amr_8K_16bit(不推荐)
4) amr_16K_16bit
5) opus(推荐)
6) speex
注:pcm 是无压缩格式,没有运算,但是占带宽空间大;
amr是压缩格式,需要运算,但是占带宽小;
opus,speex 是压缩格式,但是效果没有 pcm、amr 好。
3.2.2 TTS支持格式
1) pcm_8K_16bit 2) mp3_16(推荐) 3) amr_nb
3.3 ASR拾音设计建议
3.3.1 听觉建议
1)优化目的和效果: 通过提示音,让用户更直观地感受到录音开始和录音结束,给予用户使用反馈,防止录音丢字,提高识别准确度。 2)说明: • 拾音开始提示音:提示拾音开始,一般是在提示音结束后开始收音。因此开始提示音建议短促、清晰、轻快、高音,来表示“开始”。可以用一声“嘀”来提示,推荐时长在100~200ms之间。 • 拾音结束提示音:提示拾音结束,系统开始运算,一般是结束提示音响起,拾音就结束。结束提示音必须和开始提示音有明显不同,不同之处可以是音高、音色、长短等。可以用一声“咻”来提示,推荐时长在500~700ms之间。
3.3.2 视觉建议
1)优化目的和效果: 从视觉上更直观地反馈录音开始和录音结束,给予用户使用反馈,防止录音丢字,提高识别准确度。 2)说明: • 拾音视觉提示,应该在整个拾音时间段内,都持续显示,而不应该使用开头、结尾各显示一次。 • 建议在整个拾音时间段内,用颜色独特的长亮灯、特殊的收音图像来提示。
3.4 联网过程中的提示语
1)未联网监听:程序启动后,当机器人没网时,程序可以监听这个事件; 2)播放提示语:播放类似于”没有联网,请给我联网”的提示 3)进入配网模式:播放类似于”我已经准备好了,可以使用家长端给我配网啦”的提示 4)联网过程中:播放类似于”我正在联网,请稍等”的提示 5)联网成功:播放类似于”联网成功”的提示,并且建议播放有关绍设备推荐功能的新用户引导音频 6)联网失败:播放类似于”联网失败,请重新联网”的提示 7)联网缓慢:当由于网络缓慢等原因造成设备超过XXs 没有成功联网时,设备应播放loading提示音
3.5 依据产品形态,可以关闭不需要的功能
1)优化目的和效果:
AiWifi自带的功能很多,但是有些是只有硬件支持才能使用的;当硬件不支持时,最好关闭该功能,避免误识别。
2)实现方法:
请在图灵开放平台的“机器人技能”中关闭不需要的功能

3.6 开机提示语
1)优化目的和效果:
设备开机之后直接播放的提示语,激发小朋友的互动意愿,使对话体验更有乐趣。
2)全部主动交互的内容,都是按时间随机推送的;
建议时间划分为8个时间段:
7:00-9:00(上午)
9:00-12:30(午饭前)
12:30-14:30(午睡)
14:30-16:00(下午)
16:00-18:00(傍晚)
18:00-21:30(晚上)
21:30-23:00(不说话)
23:00-6:00(深度睡眠,不说话)
3)运营操作:
在图灵AI开放平台可以设置开机提示语

4)参考文档 请见图灵开放平台-文档中心-api接入: http://docs.turingos.cn/api/API.html
3.7 主动交互语
1)优化目的和效果:
在用户沉默的时候主动发起对话,增强设备的互动效果,让小朋友更愿意与设备对话。
2)说明:
机器人活跃中无交互可以采取以下逻辑:
3)实现方法:·
在图灵AI开放平台可以设置主动交互语。
4)参考文档:·
请见图灵AI开放平台-文档中心-api接入:http://docs.turingos.cn/api/API.html
4 可选做的建议
4.1 低电量
1) 优化目的和效果: 在未充电、正在充电以及插上充电器三种状态,给予用户提示,让用户了解电池状态,及时获知电池使用情况。 2) 听觉和视觉提示: 听觉提示: 电池状态—未充电 • 大于80%,提示语,电池电量充足 • 50%和80%之间,提示语,我的电池电量还剩下一大半 • 20%和50%之间,提示语,我的电池电量还剩下一小半 • 小于20%,提示语,我的电池电量已经不多了,快给我充电吧 电池状态—正在充电 • 等于100,电池 电量已经充满,请拔掉充电器 • 大于80%,提示,电池电量充足,即将充满 • 20%和80%之间,提示,我正在充电 • 小于20%,提示,电池电量不足 插上充电器 • 提示,”开始充电” 视觉提示: 电池状态—未充电 • 大于80%,绿灯闪烁 • 20%和80%之间,黄灯闪烁 • 小于20%,红灯闪烁 电池状态—正在充电 • 等于100,绿灯长亮 • 大于80%,绿灯闪烁 • 20%和80%之间,黄灯闪烁 • 小于20%,红灯闪烁
4.2 音量控制
1)优化目的和效果: 本建议推荐不带音量控制按钮的智能设备使用,在语音控制音量的情况下,设备能有即时的反馈,避免用户因不知设备是否收到指令而重复控制。
2) 增大音量: • 听觉提示: 当用户说“增大音量,声音大一点”,则系统提示,“好的,已经增大音量,我刚才说XXX”,xxx为用户刚说的话,若上一句内容为空,则直接提示“好的,已经增大音量“ 当音量调节到最大,则直接提示“我已经使用最大的声音和你说话,如果你还是听不清,建议你靠近我或者找个安静 的地方和我说话”
• 视觉提示: 灯光亮度逐渐提高。
3)减小音量: • 听觉提示: 当用户说“减小音量,声音小一点“,则系统提示:“好的,已经减小音量” 当音量调节到最小音量,则直接提示“我已经使用最小的声音和你说话,再小你就听不到了”
• 视觉提示: 灯光亮度逐渐降低。
4.3 图灵资源库无结果,通过第三方资源库检索内容
1)优化目的和效果:
增加了第三方资源库,可以检索更多音频内容,增加点播成功率。
2)说明:
有的资源在图灵资源库中没有,需要去第三方资源库中检索,会造成等候时间较长。
因此如果在图灵资源库没有找到内容的话,图灵会返回给设备一个结果,并随机返回一个歌曲url;设备再去第三方资源库检索,如果有准确的资源,就播放该资源;如果没有的话,就播放从图灵获取到的资源。
3)逻辑图:

4.4 通过模拟请求,在前端实现连续播放
1)优化目的和效果:
可以实现自动播放下一首的功能,中间播放换歌的语音提示,缓解用户的等待焦虑,填补等待空白时间。
2)说明:
唱首歌->正常播放->播放结束->再次用唱首歌指令模拟请求我们的服务器,同时播放一个TTS内容或音频提示语(例如:播放完啦,下面我给你换首歌)->播放返回的音频
3)逻辑图:

4.5 表情 & 动作
1)优化目的和效果:
自定义更加丰富的交互效果,使人机互动更有趣。
2)说明:
客户在前端定义表情列表和动作列表,比如1对应左转,2对应右转,smile代表微笑;在此基础上,来到图灵AI开放平台编辑参数;
图灵服务器解析参数并传给前端,前端就会据此执行相应的动作或表情。

5 各种错误情况的提示语

6 语音交互原则
语音交互设计需要遵循以下几个原则:简单明确、强引导性、高效以及可随时中断。
6.1 简单明确
6.1.1 回答语句尽量精简
用户:今天天气怎么样
较好的回答:小朋友,你在哪里呢?
不好的回答:我可以回答全国任何城市的天气哦,但是我不知道小朋友在哪里呢?
说明:回答语句不要过于冗余,造成用户信息负载太大,理解不了。
6.1.2 使用户了解对话进程
用户:狮子怎么叫
较好的回答:小朋友听好了哦~狮子的叫声是…
不好的回答:直接播放狮子的声音
说明:让用户明确回答是针对的问题是什么,避免用户迷失在众多功能当中。
6.2 强引导性
用户对于设备的了解程度,会依据使用的深入而增加。按照使用频率,我们可以把用户分成新用户、中度用户、活跃用户。 对于新用户,也就是刚刚使用设备的用户,应该在开机后有对于功能的说明,引导用户去尝试提问; 对于已经使用过几次的用户,可以介绍一些高阶使用方法,或者推荐新的内容,并进行相关引导。
6.3 高效
6.3.1 记住:用户并不熟悉功能
用户:能给我播放首歌吗?
较好的回答:好的,小朋友,我要开始唱啦+播放音频
不好的回答:我会唱歌呀
说明:当用户提问很泛泛时,设备应精准理解用户意图,而不是反复交互。
6.3.2 对用户问的问题要广泛支持
用户:能给我来首歌吗?
说明:当用户提问中有多义字,或者同义词时,应在后台对词汇进行关联,使设备可以正常播放。
6.4 可随时中断
人与人之间的交流,经常因为各种问题而中断;设备在和人互动的过程中,也应该支持随时打断,比如随时都可以中断或切换到下一条。播放音乐也是如此,在播放A曲目时,随时可以被要求“切歌”或者“暂停播放”。