呼叫中心技术及其发展
王琦
中国电信集团北京研究院技术部
摘要:一般看来呼叫中心似乎是企业在最外层加上了一个服务层,实际上它不仅仅为外部用户,也为整个企业内部的管理、服务、调度、增值起到非常重要的统一协调作用……
Abstract:
Key words :
1 引言
现代呼叫中心是一种基于CTI技术、充分利用通信网和计算机网的多项功能集成,并与企业连为一体的一个完整的综合信息服务系统,利用现有的各种先进的通信手段,有效地为客户提供高质量、高效率、全方位的服务。一般看来呼叫中心似乎是企业在最外层加上了一个服务层,实际上它不仅仅为外部用户,也为整个企业内部的管理、服务、调度、增值起到非常重要的统一协调作用。
2 呼叫中心概述
中国引入呼叫中心的概念在20世纪90年代中后期,1998年以前,中国呼叫中心产业主要集中在电信业的一些服务领域,1998年以后,对信息化应用程度较高的行业,如银行、证券、保险和以服务导向为驱动的市场化行业,如IT业、家电、远程购物等行业也开始不同程度的应用呼叫中心提供服务。
随着呼叫中心技术的成熟和功能的发展,金融、电信、大型企业等行业对于呼叫中心均加大了投入,而且已经成为企业整体发展战略不可或缺的组成部分,其在企业中的角色也逐渐从成本中心演变为业务平台和赢利中心。
呼叫中心的发展大致经历了如下三个阶段:
第一代:热线电话。该方式实现简单,但是功能单一,扩展性差。
第二代:计算机+板卡。基于板卡的呼叫中心是由系统集成商按照客户的具体需求,将不同厂家的板卡集成到一个系统中,按照客户要求的专项定制,其成本低廉、设计灵活,但其实现的功能较专用,功能的升级以及规模的稳定性难于保障。
中国引入呼叫中心的概念在20世纪90年代中后期,1998年以前,中国呼叫中心产业主要集中在电信业的一些服务领域,1998年以后,对信息化应用程度较高的行业,如银行、证券、保险和以服务导向为驱动的市场化行业,如IT业、家电、远程购物等行业也开始不同程度的应用呼叫中心提供服务。
随着呼叫中心技术的成熟和功能的发展,金融、电信、大型企业等行业对于呼叫中心均加大了投入,而且已经成为企业整体发展战略不可或缺的组成部分,其在企业中的角色也逐渐从成本中心演变为业务平台和赢利中心。
呼叫中心的发展大致经历了如下三个阶段:
第一代:热线电话。该方式实现简单,但是功能单一,扩展性差。
第二代:计算机+板卡。基于板卡的呼叫中心是由系统集成商按照客户的具体需求,将不同厂家的板卡集成到一个系统中,按照客户要求的专项定制,其成本低廉、设计灵活,但其实现的功能较专用,功能的升级以及规模的稳定性难于保障。
第三代:基于CTI,排队机+计算机网络+三层数据库访问结构。基于一体化的呼叫中心既有电信级的稳定性和强大的交换功能,又有开发实施便捷和成本相对较合理的优点。随着越来越多的企业应用呼叫中心,企业面临着如何使呼叫中心在技术发展上更进一步的问题。现代通讯系统技术、互联网技术和交互式视频信号系统的发展将作用于呼叫中心,使其向着智能化、个人化、多媒体化、网络化、移动化发展。互联网呼叫中心、多媒体呼叫中心以及虚拟呼叫中心在未来中国市场,也将随着企业对呼叫中心认识程度的进一步提高、客户关系管理市场及设备制造商的全力推动而得到推广。
新一代呼叫中心的系统结构如图1所示。
3 呼叫中心关键技术
虽然随着技术的进展Web、E-mail、传真等多种接入方式出现,但就实际应用而言,这些先进的接入方式应用得还很少,传统的电话接入处理和IVR应答仍然是使用率最高的技术方式。所以,可以将语音和数据融合的技术就成为呼叫中心的关键技术,最重要的主要有如下三种:文语转换( TTS)技术、语音识别( ASR)技术和Voice
XML。这几种技术对呼叫中心的自动语音服务和电话与计算机、Internet的结合起着至关重要的作用。
3.1 TTS技术
语音合成,又称为文语转化(Text-to-Speech),涉及声学、语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机能够产生高清晰度、高自然度的连续语音,近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。
在语音合成技术应用之前,录音回放一直是呼叫中心自动语音服务中所采用的主要手段,但是随着多媒体信息需求的增大,语音服务系统中近年来应用TSS技术得到了迅速发展。
TSS和录音回放相比具有以下优势:
(1)就工作量而言,录音需要大量的人力,在信息量以几何级数增长的今天,录音往往无法满足信息的供给,而语音合成将绝大多数工作由机器代替,人们只需提供现成的文本信息即可输出声音信息。
(2)对于动态的信息,尤其是对实时性要求很高的信息,如股票行情等,如果让录音员录音则至少在半小时后才能对外提供,而语音合成可以实现实时的转换,每分钟可刷新一次。
(3)由于信息的高速增长,录音数据存放和查询也存在问题。将信息以文本形式存储在计算机中可节约大量系统资源再结合计算机技术对数据库中的信息进行搜索和整理将输出的结果用语音合成转换成声音,这样就可以解决信息服务中海量信息的存储和查询的问题。
(4)录音的信息维护、修改的工作量比较大。而文本信息的维护和修改相对要容易得多,通过语音合成技术只需对文本信息进行修改就可以完成信息内容的更改和维护工作。
新一代呼叫中心的系统结构如图1所示。
3 呼叫中心关键技术
虽然随着技术的进展Web、E-mail、传真等多种接入方式出现,但就实际应用而言,这些先进的接入方式应用得还很少,传统的电话接入处理和IVR应答仍然是使用率最高的技术方式。所以,可以将语音和数据融合的技术就成为呼叫中心的关键技术,最重要的主要有如下三种:文语转换( TTS)技术、语音识别( ASR)技术和Voice
XML。这几种技术对呼叫中心的自动语音服务和电话与计算机、Internet的结合起着至关重要的作用。
3.1 TTS技术
语音合成,又称为文语转化(Text-to-Speech),涉及声学、语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机能够产生高清晰度、高自然度的连续语音,近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。
在语音合成技术应用之前,录音回放一直是呼叫中心自动语音服务中所采用的主要手段,但是随着多媒体信息需求的增大,语音服务系统中近年来应用TSS技术得到了迅速发展。
TSS和录音回放相比具有以下优势:
(1)就工作量而言,录音需要大量的人力,在信息量以几何级数增长的今天,录音往往无法满足信息的供给,而语音合成将绝大多数工作由机器代替,人们只需提供现成的文本信息即可输出声音信息。
(2)对于动态的信息,尤其是对实时性要求很高的信息,如股票行情等,如果让录音员录音则至少在半小时后才能对外提供,而语音合成可以实现实时的转换,每分钟可刷新一次。
(3)由于信息的高速增长,录音数据存放和查询也存在问题。将信息以文本形式存储在计算机中可节约大量系统资源再结合计算机技术对数据库中的信息进行搜索和整理将输出的结果用语音合成转换成声音,这样就可以解决信息服务中海量信息的存储和查询的问题。
(4)录音的信息维护、修改的工作量比较大。而文本信息的维护和修改相对要容易得多,通过语音合成技术只需对文本信息进行修改就可以完成信息内容的更改和维护工作。
目前TTS技术已经十分成熟,现在的研究主要集中在生成的汉语语音的清晰度和自然度上,而且通过一些参数做到语气语调的调整,使得语音更接近真人播音。
3.2 ASR技术
语音识别的研究工作大约开始于20世纪50年代,当时AT&;T Bell实验室实现了第一个可识别10个英文数字的语音识别系统?Audry系统。在随后的几十年间实验室的研究一直处于不断进展中,但是毕竟语音识别是一项复杂的技术,特别对于汉语语音识别尤其如此,因此,尽管多年前就有众多公司和研究机构开始了语音识别技术的研究,但直到最近几年,在国内才开始出现商业化产品。
应用于 呼叫中心领域的语音识别技术有别于一般PC系统所使用的语音识别技术,其面临的困难体现为:电话录音质量差,识别率要求高,系统不能对电话用户进行训练;另外,系统还要能够完成大量用户语音数据的并发识别请求,这就对应用于呼叫中心领域的语音识别技术在功能和性能上要有更高要求。由于存在上面列举的种种困难,使得应用于呼叫中心领域的ASR技术不可能像应用于PC的ASR技术一样,能够随心所欲地识别用户所说的任何词汇。目前基于电话的语音识别应用主要是非特定人的命令识别,该技术的应用有效的解决了电话用户按键输入范围有限,操作不方便的问题。目前ASR的厂商均支持中文普通话、英文的识别,而且只要普通话标准,识别正确率可以达到90%以上,部分厂商支持中英文混读和其它语种(主要是粤语)的识别。
但是目前ASR技术在实际应用中仍旧存在的主要问题是汉语的方言多种多样,口音千差万别,很多地方的普通话说得很不标准,给识别带来很大困难。
3.2 ASR技术
语音识别的研究工作大约开始于20世纪50年代,当时AT&;T Bell实验室实现了第一个可识别10个英文数字的语音识别系统?Audry系统。在随后的几十年间实验室的研究一直处于不断进展中,但是毕竟语音识别是一项复杂的技术,特别对于汉语语音识别尤其如此,因此,尽管多年前就有众多公司和研究机构开始了语音识别技术的研究,但直到最近几年,在国内才开始出现商业化产品。
应用于 呼叫中心领域的语音识别技术有别于一般PC系统所使用的语音识别技术,其面临的困难体现为:电话录音质量差,识别率要求高,系统不能对电话用户进行训练;另外,系统还要能够完成大量用户语音数据的并发识别请求,这就对应用于呼叫中心领域的语音识别技术在功能和性能上要有更高要求。由于存在上面列举的种种困难,使得应用于呼叫中心领域的ASR技术不可能像应用于PC的ASR技术一样,能够随心所欲地识别用户所说的任何词汇。目前基于电话的语音识别应用主要是非特定人的命令识别,该技术的应用有效的解决了电话用户按键输入范围有限,操作不方便的问题。目前ASR的厂商均支持中文普通话、英文的识别,而且只要普通话标准,识别正确率可以达到90%以上,部分厂商支持中英文混读和其它语种(主要是粤语)的识别。
但是目前ASR技术在实际应用中仍旧存在的主要问题是汉语的方言多种多样,口音千差万别,很多地方的普通话说得很不标准,给识别带来很大困难。
此内容为AET网站原创,未经授权禁止转载。