语音技术应用的变迁历程

语音技术应用的变迁历程

命题作文:语音技术,应用的变迁
 
注:这篇小文章是东进公司兰经理给出的命题作文,希望我在东进公司主办的本月16日语音技术沙龙中进行演讲。不过在实际的演讲中我只是给东进公司提了几点意见,没有按这个来照本宣科。
语音技术在国内已经发展了十多年了,技术上发展相当迅速。
第一部分:行业回顾
一、萌芽阶段
1.证券电话委托系统
92、93年我们国家开始设立两大证券交易所,因为挣钱效应,开户炒股的股民非常多,交易通道变成问题。
早期以模拟线路,模拟卡为主。
很多相关供应商在证券大潮中兴起壮大,做硬件的如深圳东进公司,杭州三汇公司。做软件的如深圳的金证,杭州恒生等等,目前都是上市公司了。
当然,现在的证券电话委托市场已经很饱和了,一来整个证券市场不景气,好多年都是大熊市,业务萎缩,而且趋向大集中(银行业也是如此),二来交易通道已经不是问题,现在网上交易,手机交易,都十分方便,电话委托只是众多交易手段的一种了。此外,原来基于散户交易为主的模式也发生一些变化,如基于经纪人制度的委托理财,单大而笔数少,一般在电脑上自助完成。所以证券电话委托慢慢就变得没有太大的市场了。
不过证券业毕竟造就了像东进公司这样的行业巨头,功不可没。我本人也是从做证券软件开始的。
2.传呼台
传呼台可以认为是最早期的电信增值业务。其实是个呼叫中心。
这个行业用语音卡的不太多,大部分是在电脑上插一块来电显示卡,和软件有个接口。
不过他们是最早大量使用E1数字线路。
可惜这个行业很短暂,因为手机的兴起,传呼业务迅速萎缩甚至消亡,很多公司转型,转做呼叫中心运营或声讯服务。
二、燎原阶段
3.行业应用,以呼叫中心为主
服务业的客户服务,一般需要人工参与,为了提高客户体验,以呼叫中心技术和CRM相结合。
当然,也很多自动服务,也需要和呼叫中心相结合。如银行,自来水,电力等各行业,IVR的作用相当明显。
也出现专门的呼叫中心运营商,外包座席,承揽外呼营销业务等等。
4.电信应用,以增值IVR业务为主
电信业是IT应用最大的行业,是个IT基础行业。早期只有中国电信和中国移动垄断经营的时候,他们总是采购和使用海外的昂贵设备和先进技术,比如早先他们就只使用美国的Dialogic语音卡。
随着垄断的打破和增值业务的发展,产生了很多对语音技术的需求。
基础运营商也发展了很多增值服务商,让他们投资参与电信增值业务的开拓和运营。
如,彩铃,彩话,电话QQ,IVR等等。
这些业务的特点的大容量,以自动服务为主,内容丰富,追求互动性和娱乐性。
三、当下的世界
5.危机与机遇并存
经营电信增值业务的SP受到整顿,处于观望甚至收缩阶段。
也可以认为电信基础运营商回收某些业务,所以电信基础运营商的投资会扩大。如,基于信令监测的漏话回呼等等。
行业市场会持续扩大,主要是社会的服务意识增强了,而且构建企业的呼叫中心成本大大地降低了。
原来构建呼叫中心通常要使用进口的交换机(排队机),造价动辄几十万、上百万。主要是看中交换机的大容量和稳定性,其实稳定性还和软件有关系,这是题外话。现在基于板卡的呼叫中心也非常稳定了,而且也可以做到很大的容量。
而且用板卡构建的呼叫中心,软件系统可以做的很灵活,更加能够适应各行业的特点。
第二部分:技术的展望
从软件开发者的角度谈谈语音技术的发展。
系统上,基于IP的语音技术和传统语音技术相互融合。随着互联网宽带技术的发展,基于Voip技术的软交换已经被大量使用了。大方向是这样,但这个发展也有很多可能的路径,如可能由基础运营商来提供所谓的NGN(下一代网络Next Generation Network),但如同叫了很多年的3G,不知道猴年马月才能实现。所以现实的方式,是尽快在自己的系统中提供Voip的功能,如在IVR中实现Voip的接入,呼叫能够分配到远程座席等等。
相关的技术,TTS(文本转语音Text-to-Speech)和ASR(自动语音识别Automatic Speech Recognition)可能会有更多的应用。
语音卡制造:更大容量的数字卡、座席卡,IP卡,更方便的开发接口。
软件上,中间件技术将会被大量采用。因为我是做这一块的,所以多讲两句,发挥一下。
最早大家都是用语音卡厂家提供的底层API来编程,最大的问题是编程复杂,而且业务代码和底层代码混合在一起,很难调试,很难维护。而且语音卡是多路并发的系统,一般要采用状态机方式进行编程,实现起来更加困难。
所以中间件出现了,这些中间件也叫语音平台。他们屏蔽了底层硬件的差异,开发变得简单。
目前的中间件有很多不同的模式,也有不同的实现,可以说是百花齐放。我也写过一些文章,阐述这些实现的差异。简单说来有下面几种,一是图形拖拉界面的,一是纯脚本方式。通常图形拖拉界面也是生成脚本,大部分是生成节点描述文件,如XML生成的节点描述文件。
我个人倾向于基于高级语言的脚本语言,因为这样的语言才能解决语音流程的复杂性。
当然,现在流程描述也有个VoiceXML标准,但我认为还不是特别完善,存在很多各厂家的私有部分,而且我觉得效率不是很高,看起来也不是那么直观,毕竟XML是描述内容而不是流程的。
语音平台中间件的市场很难讲,和环境有关系。集成商一般希望能够控制源代码,不太愿意花钱买中间件。而且集成商做了几个项目以后,往往会抽象出一个中间层,觉得使用这个中间层也不错,其实和真正商品化的中间件比较起来,功能和性能还是很单保
中间件的大规模应用还是在电信增值业务市场,因为他们竞争很激烈,需要快速推出新流程、新业务,而且他们的应用规模都比较大,很多都是单机8E1,16E1,对软件的功能和可靠性要求比较高,自己养一个高手来写底层代码,一是养不起,而是不值得。所以他们大量采用电信增值业务的语音平台中间件。不过最近的整顿使他们受到很大影响,而且最近似乎又没有什么热点应用。
很多是采用合作投入的方式来做,很多设备提供商,系统提供商采用设备入股的方式参与运营。
行业市场因为单机容量少,单子也小,如果买中间件可能集成商就很难挣钱。
往往在行业市场自行从底层开发的居多。
但这也影响产品推出的进度和开发出来的产品质量,往往产品功能单一,问题多多,不稳定,也很难维护。不过行业市场可能是发展的热点,尤其是中小规模的服务业。
影响选购中间件的原因还有,懂技术的没权,有权的不懂技术,技术人员提出购买中间件来做这个系统,老板会怀疑你水平不行。所以技术人员不敢提,只好硬着头皮从底层开始做。
其实采用中间件还是省钱的,可以从根本上降低总体成本。
第三部分:对东进公司的几点建议:
 
1. 希望专注于硬件和开发接口,就不要抢我们这些软件开发商的饭碗了;东进公司即将推出的“超媒体交换机”,我在上个月去参观过,没有提供API接口,只是提供了图形拖拉界面的接口,那我们这些中间件厂商怎么驱动这个“超媒体交换机”?据说东进公司开发组已经在着手增加这个API层,我认为是个好事。上下游产业链的建设是很重要的。
2. 完善接口和文档,接口太纷乱复杂,不一致。CHM文档很差;东进板卡最大的问题就是接口缺少兼容性,这似乎很难在短时间内改变过来,可以做的就是把文档做好。
3. 提高客户服务水平;这个我已经写过几篇小文章了。
4. 多搞几次这样的沙龙,建立强大的开发者社区。