深圳幻海软件技术有限公司 欢迎您!

DuerOS的零编程技能实现

2023-02-27

 我们正在步入智能语音时代,而DuerOS正在为生产和生活中的智能语音赋能。开发者可以使用DuerOS提高的BotSDK,像开发Web应用程序那样完成智能语音技能的开发。从终端用户的视角来看,技能就是一个个具体的智能语音应用;从开发者的视角来看,技能就是支撑智能语音交互的后台应用。程序员改

 我们正在步入智能语音时代,而DuerOS正在为生产和生活中的智能语音赋能。开发者可以使用DuerOS提高的Bot SDK,像开发Web应用程序那样完成智能语音技能的开发。

从终端用户的视角来看,技能就是一个个具体的智能语音应用;从开发者的视角来看,技能就是支撑智能语音交互的后台应用。程序员改变世界,那么,如何没有编程能力能否实现智能语音应用呢? 

在DuerOS Bot Platform(DBP,https://dueros.baidu.com),答案是肯定的。

目前,DBP平台提供了4种零编程就可以实现的智能语音技能,只要你会一般的计算机操作,就可以无需编码实现智能语音技能,进而在小度系列的智能语音产品上享受自己的成果。

小技能

小技能是DuerOS 平台自动为用户生成的技能,在限定交互场景之后,开发者只需提供内容,即可在小度系列的智能语音设备上播放这些内容。

 

目前小技能功能包括话术类、音频类,图片类和视频类的小技能,播放方式约定为顺序播放,随机播放和播放一个之后关闭。

话术类小技能

话术小技能是指开发者仅在技能开放平台上配置文本内容,DuerOS就可以生成对应的小技能,将文本内容播报出来。

 

在开放平台上面填写文本内容。每个技能最多支持100条文本。支持在线填写和批量导入两种方式。开发者还可以为每条文本内容配置背景音乐和图片。

应用场景示例:小知识、小笑话等。

音频类小技能

音频类小技能是指开发者在技能开放平台上配置音频资源后,DuerOS自动生成将音频资源按照配置的方式进行播放的技能。

 

配置音频包括配置音频资源,选择播放模式和配置音频切换话术。当选择顺序播放和随机播放模式时,可以配置切换话术支持用户主动切换音频。系统默认配置了一些切换话术,也支持添加自定义切换话术。

应用场景示例:场景音乐,个性化祝福,自定义歌单等。

图片类小技能

图片类小技能是指开发者在技能开放平台上配置图片资源后,DuerOS自动生成将图片资源按照配置的方式进行图片播放的技能。

 

上传图片,支持本地添加和资源管理添加两种方式。本地添加的资源也会展现在资源管理中,目前只支持PNG或JPG格式。在没有用户表达的时候,图片会进行自动的轮播切换。

应用场景示例:家庭相册,旅游记忆等。

视频类小技能

视频类小技能是指开发者在技能开放平台上配置视频资源后,DuerOS自动生成将视频资源按照配置的方式进行播放的技能。

 

配置视频包括配置视频资源,选择播放模式和配置视频切换。在选择顺序播放和随机播放模式时,如果不配置视频切换,在当前视频播放完后,会继续播放下一个视频,用户无法主动切换视频

应用场景示例:聚会纪念的MV,观光风景,小纪录片等。

需要注意的是,音频类资源目前只支持MP3格式,视频类资源目前仅支持MP4格式。小度智能音箱只支持话术类小技能和音频类小技能,在小度有屏设备上支持所有类型的小技能。

内容播报类技能

通过内容播报类技能,用户可以通过技能订阅新闻资源和有声资源。其中新闻资源包含时政、财经、社会、娱乐等,这类资源的时效性较强,更新频率比较快。有声资源包含脱口秀、小说、广播剧、历史、人文、有声书等,这类资源时效性不强,更新频率相对较慢。

 

以新闻数据为例,在这类技能中,开发者仅需将资源按照新闻数据的格式提供到DuerOS平台中即可。新闻数据不仅仅会被技能名称调起,在开发者授权后,也会被推荐到DuerOS的其它新闻渠道中。

新闻数据既可以手动上传资源文件,也可以通过XML的形式来提高数据源,具体XML 的格式参见。文件要求是UTF-8格式,即encoding="UTF-8"。每个文件要小于10M,且每个文件中记录不能超过50000条。如果文件大于10M,或者记录数超过50000条,需要将文件进行拆分,并保证拆分后的每个文件满足上述条件。最后将拆分后的文件的URL地址,整理成一个新的文件即可。

相对于小技能而言, 内容播报类技能提供了持续的内容更新能力。

故事探索类技能

故事探索类技能在DuerOS平台上是固定角色扮演的对话式游戏,通过游戏编辑器(故事工厂)无需编程就可以实现此类的技能。

 

游戏编辑器把此类技能抽象为为场景、状态和关系三个部分。

场景通过图片、文字和语音描述了故事的环境、事件、人物、对话等内容。场景通过游戏编辑器中的节点编辑它的内容信息,主要是配置场景中所要播报的语音,有屏设备展示和无屏设备展示可以配置场景所需的标题、文本、图片等内容。

状态是故事中人或物的属性,用来描述故事分支剧情的多样性。在故事的开始设置各个状态的初始值。

关系是场景之间的链接,涵盖了进入的条件和进入新场景后的状态更新。Query条件是主动进入条件,用户通过Query与故事互动来进入下一个场景。状态条件指在当前场景中状态满足某些条件时才能进入下一个场景。

自定义内容回复技能

开发者可以创建自定义技能为用户提供各种服务,如提供天气预报、百科常识、互动游戏、订购物品等。用户只需要语音交互就可以获得相应的服务。

 

自定义的技能涉及到交互模型的建立,具体可以参考。

针对指定的意图,开发者可给出“自定义回复”,将回复的逻辑托管的DuerOS平台,从而实现零编程的自定义技能。

 

自定义回复可以是文本,也可以是开发者预先录制好的音频。DuerOS回家自定义的文本通过TTS技术在智能语音设备上播放出来,对录制好的音频的音频可以直接播放。

小结

文中给出了4种技能生产方式:小技能、内容播报技能、故事探索类技能和自定义回复技能。这四种类型的技能都是可以零编程实现,无需部署,完全建立在DuerOS Bot Cloud 之上,开发者只需携带着自己的内容和创意,就可以在DuerOS 开放平台上定制出丰富多彩的智能语音服务。