语音技术新突破,车载应用无极限
新一代语音合成引擎语音合成板卡讯飞XF-S4240隆重上市
目前,汽车工业正在逐步发展成为我国的支柱产业。
汽车的电子化、智能化和网络化趋势,不仅是这个时代汽车行业的流行主题,更是我国汽车电子产业抢占汽车计算平台制高点,解决产业“空心化”问题的重要机遇。智能语音技术在这一革命性进程中有着重要的应用价值。
以语音合成、语音识别、语音编解码为代表的智能语音技术应用在车载领域,通过“变看为听”的车内语音信息服务,“君子动口不动手”的车内语音声控操作,将改变汽车现有的人机信息交流方式,解放出驾驶者的双手和双眼,使汽车更具备人性化魅力和个性化特色,提高驾车更安全性。该技术已引起国内外汽车业界的广泛关注,尤其在美国、欧洲、日本等汽车工业发达国家,都在不断加大研究和产业化的力度。特别是在车载导航领域。
“在可预见的将来,中国将成为全球卫星导航市场的‘龙头老大’,其次是印度,然后才是美国和欧洲。”2005年12月初,在上海“国际导航产业化与科技发展论坛”中,德国慕尼黑联邦国防大学测地导航研究所所长、美国导航学会欧洲会员冈特·沃尔夫冈·海因说。他补充,这并不仅仅是他一个人的看法,而是全球导航领域的专家、市场分析人士和公司所达成的共识。
就车载导航而言,截止到2005年底,中国拥有车载导航设备的车辆不足10万辆,车载导航安装率不到2%。而日本的汽车车载导航安装率高达59%,欧美约占25%。到2007年,中国至少将有60万辆汽车装备导航设备,产值至少超过200亿元人民币。在国外能够得到极大的普及,与其嵌入式语音技术等基础技术的成熟,为导航设备带来了丰富的应用服务是分不开的,比如:实时交通信息播报、当前位置的加油站、酒店、商场信息的播报。所以中国车载导航事业真正要实现跨越式发展,嵌入式语音技术的突破是必备的基础。
据了解,中科大讯飞公司通过多年的积累,在2005年初推出了新一代语音合成引擎(InterSound KT),其语音效果基本可以达到录音的效果,并在国内外多个厂商的GPS导航系统中得到成功的应用,为满足不同的市场需要,该公司在2006年2月正式推出基于该引擎的XF-S4240语音合成模块。为整个车载语音的应用打下了基础。正是在这一基础上,科大讯飞在车载导航领域提出了一系列代表国际先进水平的应用方案。
在车载导航领域,传统的录音语音导航只能做到简单的语音内容提示,如:“前方100米请往左拐”,若要提示“前方100米请往左拐,进入长安街”,则无能为力,这是因为千变万化的类似路名信息,采用录音技术是不现实的。但是在2006年之前,因为语音合成技术的效果与录音的差距较大,所以录音导航设备仍然占有一定的市场份额。
随着科大讯飞一代语音合成引擎的推出,传统的录音方式的语音导航预计将很快退出市场。因为其语音合成的效果与录音的效果已经基本没有区别,并且合成方式的语音导航在代表车载导航设备发展方向的信息播报应用方面将彰显更大的优势。
信息播报典型应用包括:
区域信息播报——包括播报当前所在位置的各种实用信息(加油站、酒店、
商场等)给驾车出行带来极大的方便。
与无线通讯相结合可以实现:
1)实时交通状况播报——随时了解当前交通状况,弥补导航无法发现的随时随地可能发生的交通拥堵问题;
2)实时新闻播报——及时了解所在位置的新闻;
3)天气预报播报——了解当地天气情况,安排出行;
4)其它如停车/电召信息、110信息等内容的播报。
当前无线宽带技术已经成熟,市场也逐渐普及,3G网络也预计将在06年开始进行全国范围的推广,这些基本要素的实现,加上语音技术突破,可以预见内容更加丰富的GPS导航服务将很快到来,为用户带来方便,更为中国导航产业带来商机。
但是InterSound KT引擎是否能够适合在当前主流的GPS导航设备中应用呢?
据讯飞公司介绍,其InterSound KT引擎适用性极强,其需要的运算能力与存储空间,在当前主流的GPS导航平台上都可以提供,产品还具备了:支持男、女双角色中英文切换,支持拼音输入、流式文本输入,支持控制标识、合成状态输出等产品特性。
在车载调度的应用中,因为同样存在录音方式无法满足大量变化的信息播报的需要的问题,在语音合成效果与录音差距较大的时候,使得相当一部分车载调度系统仍然使用录音方式,从而限制了其服务内容的丰富。在有了讯飞公司推出的XF-S4240语音合成板卡后,不仅宣布录音方式的车载调度系统即将退出舞台,同时为部分当前已经采用合成板卡的车载调度系统带来福音。因为该产品兼容原已经大量使用的XF-S3231语音合成板卡模块的软硬件接口,可实现产品的软升级(无需开发),而产品的成本将有较大的降低。(这里不能不说XF-S4240语音合成板卡是一款效果更好、成本更低,考虑周全的好产品,其实际使用效果我们将进一步进行跟踪报道。)
在合成语音效果得到极大的提高后,XF-S4240语音合成板卡在公交车的报站服务中也将得到广泛的应用。
当我们在上海坐地铁的时候可能会听到这样的报站声音“徐家汇站到了,前往中国惠普公司、…的乘客请下车”,而在下次坐到该站点的时候,他又可能把“惠普公司”改为其它公司的名字,这就是典型的公交报站服务。这种方式不仅给顾客带来了方便,同时对需要提高知名度的公司提供了有效的途径,自然也就成为公交公司有效的增值服务之一。
在传统的公交报站中,内容是靠录音的,使得内容的变更变得相当困难,这也是在几乎所有的公交车中,公交报站的内容几乎都是不变的原因,在这种情况下,即使经常需要的公交车线路的调整、新增需要的内容变更,都是极为不便的。但是在语音合成效果没有突破之前,硬件的合成产品的效果可能无法满足公交报站行业的要求,所以在两年之前利用语音合成技术提供公交报站服务系统基本没有。
但是在语音合成的效果得到极大的提高后,不仅可以清晰的进行报站服务,还可以极大提高在公交车线路调整、新增需要的内容更新的工作效率,同时也给公交公司的有效增值服务提供了便利的工具。