1. 概述
语音合成技术,简称TTS(Text To Speech)技术,该技术解决如何将文字信息转化为声音信息的问题,从而变看为听,使得人们获取信息的方式更加丰富和自然。语音合成技术是实现人机语音通信的关键技术之一,涉及声学、语言学、数字信号处理、计算机科学等多种学科知识,是中文信息处理领域的一项前沿技术。
XF-S4240语音合成模块是安徽中科大讯飞信息科技有限公司研发的一款高端中文语音合成模块。该模块可通过UART、SPI和I
2. 应用领域
产品面向的用户群体主要包括以下领域的开发商:
l 车载调度终端
l 车载GPS导航终端
l 排队叫号系统
l 考勤机
l 公交报站器
l 税控机
l 以及其他有语音合成需求的用户
3.功能规格
XF-S4240语音合成模块在文本处理前端集成了多种智能的文本分析算法,将规则和统计等处理方法进行了有机的结合,具备了较强的分词、多文本内码识别、多音字识别、韵律环境预测能力,可以自动识别和处理日期时间、数值金额、电话号码等文本的能力,可以利用特殊的控制标识对模块的合成效果进行语速、语调和音量上的调整,以及利用控制标识对姓氏进行准确的识别。
l 文本合成功能:
使用科大讯飞InterSound4.0 KT系统作为模块内核。模块支持任意中文文本的合成,支持英文字母的合成,遇到英文单词时按字母方式发音。支持四种内码格式:GB2312、GBK、Unicode、Big5。
l 文本分析算法:
模块具有智能的文本分析算法,对常见的数值、电话号码、时间日期、度量衡符号等格式的文本,系统能够根据内置的文本匹配规则进行正确的识别和处理。如“
l 多发音人:
模块带有男女声两种音库,内固化有音效提示音,可用于铃声和信息提醒。
l 支持拼音输入识别
汉语拼音表示的音节也可以作为输入被合成。但是这种方式的输入会按照一字一顿的方式合成。
l 文本标记功能:
模块允许在文本中插入特殊控制标记,利用这些控制标记可以调节模块的参数,提升模块文本分析的正确率,:可调节模块输出声音的音量大小、调节语速和语调、实现男女声发音人的切换、产生静音间隔、强制分词、标识中文姓氏文本等。
4.特点
l 可合成任意的中文文本,支持英文字母的合成;
l 支持GB2312、GBK、BIG5、UNICODE四种内码格式的文本;
l 具有智能的文本分析处理算法,可正确的识别和处理数值、号码、时间日期及一些常用的度量衡符号,具备较强多音字处理和中文姓氏处理能力;
l 双发音人:男声、女声;
l 清晰、自然、准确的文语音合成效果;
l 集成提示音效,针对某些行业领域的常见语音提示音;
l 支持多种控制命令,包括:合成、停止、暂停合成、继续合成等;
l 支持多种文本控制标记,提升文本处理的正确率;
l 支持休眠功能,在休眠状态下可降低功耗;
l 支持UART、SPI、I
l Line out音频输出;
5. 接口规格
l 支持三种通讯接口:
模块支持三种通信方式,UART、SPI、I
l 简单的通讯协议
通讯协议简练有效;可通过统一的“合成命令”接口播放音效和文本,甚至进行系统参数的设置。开发者只需要掌握少量命令便可轻松上手,使用所有主要功能。主要包括:块式合成命令,停止合成命令,暂停合成命令, 恢复合成命令, 带代码页设置块式文本输入合成命令,TTS系统状态查询命令,睡眠命令
l 提供两种省电模式:
Idle、Power Down
l 硬件特性:
模块采用COB封装,尺寸小,易于集成;具有休眠功能,可节约能耗等等。
6. 封装和尺寸
Ø 16脚双列插针,
Ø 尺寸:
7. 硬件电气特性
7.1 极限参数
7.1 极限参数
参 数 |
符 号 |
极 限 值 |
电源电压 |
VDD |
3.6V |
引脚输入电压范围 |
VIN |
VDD-0.6V to VDD |
工作温度 |
TA |
|
储存温度 |
TSTO |
|
图表 1 电气极限参数
注意:如果超出表中所列的极限参数,将可能导致器件损坏。
7.2 直流特性
直流特性(VDD = 3.3V TA = 25℃)
参 数 |
符 号 |
参 考 值 |
单位 |
||
小 |
典型 |
|
|||
工作电压 |
VDD |
3.0 |
3.3 |
3.6 |
V |
工作电流 |
IOP |
-- |
60 |
-- |
mA |
输入高电平 |
VIH |