跳转至

AI-WIFI语音交互体验优化

1 前言

本文档旨在提供优化前端设备交互效果的建议,适用于aiwifi接入方式; 目标阅读人群为故事机、早教机等儿童人工智能设备的工程师或者交互设计师。 文档架构如下图: Alt text

2 专业名词说明

Alt text

3 重点推荐建议

3.1 tts输出介绍语句时,音频并行加载

1)优化目的和效果: 在设备朗读tts的同时,通过预加载音频,提高播放音频的整体速度。 2)说明: 音频播放,必须等 TTS 朗读完成后才可以开始,中间不做额外停留。 -如果音频加载完毕,TTS 朗读未完成,音频播放要等待 TTS 朗读完成; -如果 TTS 朗读完后,音频还未加载完成,则等待音频加载完后立即播放。

3)逻辑图: Alt text

3.2 ASR、TTS 推荐格式

3.2.1 ASR支持格式

1) pcm_16K_16bit 2) pcm_8K_16bit 3) amr_8K_16bit(不推荐) 4) amr_16K_16bit 5) opus(推荐) 6) speex 注:pcm 是无压缩格式,没有运算,但是占带宽空间大; amr是压缩格式,需要运算,但是占带宽小; opus,speex 是压缩格式,但是效果没有 pcm、amr 好。

3.2.2 TTS支持格式

1) pcm_8K_16bit 2) mp3_16(推荐) 3) amr_nb

3.3 ASR拾音设计建议

3.3.1 听觉建议

1)优化目的和效果: 通过提示音,让用户更直观地感受到录音开始和录音结束,给予用户使用反馈,防止录音丢字,提高识别准确度。 2)说明: • 拾音开始提示音:提示拾音开始,一般是在提示音结束后开始收音。因此开始提示音建议短促、清晰、轻快、高音,来表示“开始”。可以用一声“嘀”来提示,推荐时长在100~200ms之间。 • 拾音结束提示音:提示拾音结束,系统开始运算,一般是结束提示音响起,拾音就结束。结束提示音必须和开始提示音有明显不同,不同之处可以是音高、音色、长短等。可以用一声“咻”来提示,推荐时长在500~700ms之间。

3.3.2 视觉建议

1)优化目的和效果: 从视觉上更直观地反馈录音开始和录音结束,给予用户使用反馈,防止录音丢字,提高识别准确度。 2)说明: • 拾音视觉提示,应该在整个拾音时间段内,都持续显示,而不应该使用开头、结尾各显示一次。 • 建议在整个拾音时间段内,用颜色独特的长亮灯、特殊的收音图像来提示。

3.4 联网过程中的提示语

1)未联网监听:程序启动后,当机器人没网时,程序可以监听这个事件; 2)播放提示语:播放类似于”没有联网,请给我联网”的提示 3)进入配网模式:播放类似于”我已经准备好了,可以使用家长端给我配网啦”的提示 4)联网过程中:播放类似于”我正在联网,请稍等”的提示 5)联网成功:播放类似于”联网成功”的提示,并且建议播放有关绍设备推荐功能的新用户引导音频 6)联网失败:播放类似于”联网失败,请重新联网”的提示 7)联网缓慢:当由于网络缓慢等原因造成设备超过XXs 没有成功联网时,设备应播放loading提示音

3.5 依据产品形态,可以关闭不需要的功能

Alt text 1)优化目的和效果: AiWifi自带的功能很多,但是有些是只有硬件支持才能使用的;当硬件不支持时,最好关闭该功能,避免误识别。 2)实现方法: 请在图灵开放平台的“机器人技能”中关闭不需要的功能 Alt text

3.6 开机提示语

1)优化目的和效果: 设备开机之后直接播放的提示语,激发小朋友的互动意愿,使对话体验更有乐趣。 2)全部主动交互的内容,都是按时间随机推送的; 建议时间划分为8个时间段: 7:00-9:00(上午) 9:00-12:30(午饭前) 12:30-14:30(午睡) 14:30-16:00(下午) 16:00-18:00(傍晚) 18:00-21:30(晚上) 21:30-23:00(不说话) 23:00-6:00(深度睡眠,不说话) 3)运营操作: 在图灵AI开放平台可以设置开机提示语 Alt text

4)参考文档 请见图灵开放平台-文档中心-api接入: http://docs.turingos.cn/api/API.html

3.7 主动交互语

1)优化目的和效果: 在用户沉默的时候主动发起对话,增强设备的互动效果,让小朋友更愿意与设备对话。 2)说明: 机器人活跃中无交互可以采取以下逻辑: Alt text 3)实现方法:· 在图灵AI开放平台可以设置主动交互语。 Alt text 4)参考文档:· 请见图灵AI开放平台-文档中心-api接入:http://docs.turingos.cn/api/API.html

4 可选做的建议

4.1 低电量

1) 优化目的和效果: 在未充电、正在充电以及插上充电器三种状态,给予用户提示,让用户了解电池状态,及时获知电池使用情况。 2) 听觉和视觉提示: 听觉提示: 电池状态—未充电 • 大于80%,提示语,电池电量充足 • 50%和80%之间,提示语,我的电池电量还剩下一大半 • 20%和50%之间,提示语,我的电池电量还剩下一小半 • 小于20%,提示语,我的电池电量已经不多了,快给我充电吧 电池状态—正在充电 • 等于100,电池 电量已经充满,请拔掉充电器 • 大于80%,提示,电池电量充足,即将充满 • 20%和80%之间,提示,我正在充电 • 小于20%,提示,电池电量不足 插上充电器 • 提示,”开始充电” 视觉提示: 电池状态—未充电 • 大于80%,绿灯闪烁 • 20%和80%之间,黄灯闪烁 • 小于20%,红灯闪烁 电池状态—正在充电 • 等于100,绿灯长亮 • 大于80%,绿灯闪烁 • 20%和80%之间,黄灯闪烁 • 小于20%,红灯闪烁

4.2 音量控制

1)优化目的和效果: 本建议推荐不带音量控制按钮的智能设备使用,在语音控制音量的情况下,设备能有即时的反馈,避免用户因不知设备是否收到指令而重复控制。

2) 增大音量: • 听觉提示: 当用户说“增大音量,声音大一点”,则系统提示,“好的,已经增大音量,我刚才说XXX”,xxx为用户刚说的话,若上一句内容为空,则直接提示“好的,已经增大音量“ 当音量调节到最大,则直接提示“我已经使用最大的声音和你说话,如果你还是听不清,建议你靠近我或者找个安静 的地方和我说话”

• 视觉提示: 灯光亮度逐渐提高。

3)减小音量: • 听觉提示: 当用户说“减小音量,声音小一点“,则系统提示:“好的,已经减小音量” 当音量调节到最小音量,则直接提示“我已经使用最小的声音和你说话,再小你就听不到了”

• 视觉提示: 灯光亮度逐渐降低。

4.3 图灵资源库无结果,通过第三方资源库检索内容

1)优化目的和效果: 增加了第三方资源库,可以检索更多音频内容,增加点播成功率。 2)说明: 有的资源在图灵资源库中没有,需要去第三方资源库中检索,会造成等候时间较长。 因此如果在图灵资源库没有找到内容的话,图灵会返回给设备一个结果,并随机返回一个歌曲url;设备再去第三方资源库检索,如果有准确的资源,就播放该资源;如果没有的话,就播放从图灵获取到的资源。 3)逻辑图: Alt text

4.4 通过模拟请求,在前端实现连续播放

1)优化目的和效果: 可以实现自动播放下一首的功能,中间播放换歌的语音提示,缓解用户的等待焦虑,填补等待空白时间。 2)说明: 唱首歌->正常播放->播放结束->再次用唱首歌指令模拟请求我们的服务器,同时播放一个TTS内容或音频提示语(例如:播放完啦,下面我给你换首歌)->播放返回的音频 3)逻辑图: Alt text

4.5 表情 & 动作

1)优化目的和效果: 自定义更加丰富的交互效果,使人机互动更有趣。 2)说明: 客户在前端定义表情列表和动作列表,比如1对应左转,2对应右转,smile代表微笑;在此基础上,来到图灵AI开放平台编辑参数; 图灵服务器解析参数并传给前端,前端就会据此执行相应的动作或表情。 Alt text

5 各种错误情况的提示语

Alt text

6 语音交互原则

Alt text 语音交互设计需要遵循以下几个原则:简单明确、强引导性、高效以及可随时中断。

6.1 简单明确

6.1.1 回答语句尽量精简

用户:今天天气怎么样 较好的回答:小朋友,你在哪里呢? 不好的回答:我可以回答全国任何城市的天气哦,但是我不知道小朋友在哪里呢? 说明:回答语句不要过于冗余,造成用户信息负载太大,理解不了。

6.1.2 使用户了解对话进程

用户:狮子怎么叫 较好的回答:小朋友听好了哦~狮子的叫声是… 不好的回答:直接播放狮子的声音 说明:让用户明确回答是针对的问题是什么,避免用户迷失在众多功能当中。

6.2 强引导性

用户对于设备的了解程度,会依据使用的深入而增加。按照使用频率,我们可以把用户分成新用户、中度用户、活跃用户。 对于新用户,也就是刚刚使用设备的用户,应该在开机后有对于功能的说明,引导用户去尝试提问; 对于已经使用过几次的用户,可以介绍一些高阶使用方法,或者推荐新的内容,并进行相关引导。

6.3 高效

6.3.1 记住:用户并不熟悉功能

用户:能给我播放首歌吗? 较好的回答:好的,小朋友,我要开始唱啦+播放音频 不好的回答:我会唱歌呀 说明:当用户提问很泛泛时,设备应精准理解用户意图,而不是反复交互。

6.3.2 对用户问的问题要广泛支持

用户:能给我来首歌吗? 说明:当用户提问中有多义字,或者同义词时,应在后台对词汇进行关联,使设备可以正常播放。

6.4 可随时中断

人与人之间的交流,经常因为各种问题而中断;设备在和人互动的过程中,也应该支持随时打断,比如随时都可以中断或切换到下一条。播放音乐也是如此,在播放A曲目时,随时可以被要求“切歌”或者“暂停播放”。