信息客服工单自动化工具研制
摘要
关键词
客服;自动化工具;知识库
正文
随着信息系统的发展,信息客服也越来越重要。但随着信息客服来电数和问题数的增多,工单的知识库的容量也日益增加,客服坐席对知识库的查询速度以及精确性要求也越来越高,而普通的知识库查询方式已不能适应现阶段的工作量,因此客服坐席需要更高效、精确和自动化的知识库相关上传、下载和查询工具。此次自动化工具的研制很好的契合了此项要求。
1.汉语分词技术的应用
词是自然语言中最小的有意义的构成单位。汉语文本是基于单字的文本,汉语的书面表达方式以汉字作为最小单位,词与词没有没有明显的界限标志,因此,分词是汉语文本分析处理中首先要解决的问题之一。
1.1基于上下文相关的最大概率分词方法
该算法运用人工智能中的问题求解技术,先将汉语句子的切分问题归约为若干字段的切分问题,再用启发式状态空间搜索技术将每个字段分别转换为概率最大的词序列,同时参考了该词在上下文中的词频,二者通过一定的比例系数结合在一起。
1.2 N一最短路径方法
该算法是根据词典,找出字串中所有可能的词,构成词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中求出长度值按严格升序排列依次为第1,第2,…,第i,第N的路径集合作为相应的粗分结果集。在未登录词识别、词性标注等词法分析之后,再通过最终的评价函数,计算出真正最优结果。该方法避免了最大概率分词方法大量舍弃正确结果的可能。
2. 分词歧义识别的使用
识别组合型歧义字段的方法组合型歧义字段的识别主要以分词词典为依据,即对任意字段 AB,如果 AB、A、B 都是词,则 AB 为组合型歧义字段。而在真实语料中仅有少数多字词可能存在组合型歧义,需要确定“分”、“合”。在从 40 万汉字熟语料中抽取的 13,148个二字词总数的 1.0%;这些组合型歧义在语料中共出现 2292 次,占二字词总出现次数的 63.4%,而其中出现次数最多的前 27 个就占去总出现次数的 63.4%,前59 个则占了 85.1%。
对组合型歧义字段,可以把它们的正确切分形式预先记录在一个表中,其歧义消解通过简单的查表来完成。
3.词性标注
目前汉语词性标注的研究方法虽然有很多,但是主要的方法还是基于规则的方法和基于统计的方法。基于规则的方法是一种传统的方法,其优势在于能充分利用现有的语言学研究成果,对于某些特殊的歧义,可以通过对语境中的词语、词类和词语的特征信息的深入细致的描述,获得很高的排歧准确率。基于统计的方法,其优势在于它的全部知识是通过对语料库的训练得到的,因此可以获得很好的一致性和很高的覆盖率。作为后一种方法的代表工作,Merialdo 使用隐马尔科夫模型 HMM(Hidden Markov Model)进行词性标注并取得了较好的效果。词性标注是进一步自然语言处理的重要基础。现在词性标注比较常用的方法是基于隐马尔科夫模型的概率统计方法。我们采用的也是此方法。
4.基于语义的相似度计算方法
TFIDF(词频-逆文件频率)是信息检索领域常用的方法,并且一般来说能够产生较好的效果。但是TFIDF也有其不足,主要表现在以下两个方面:第一,TFIDF方法只有当句子所包含的词比较多时效果才好。第二,TFIDF方法只考虑了词在上下文中的统计特性,而没有考虑词本身的语义信息。因此引入了基于语义的相似度计算方法来解决以上问题。
3.1 语义知识资源的使用
计算语义相似度,需要一定的语义知识资源作为基础。在英语中,人们通常用WordNet。语义词典是一个以汉语和英语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它是一个网状的有机的知识系统。计算句子之间的语义相似度,首先要确定句子中的词在这个句子中所表达的语义。系统能够对经过分词和词性标注的句子进行语义消歧,并在每个词后面标注上相应的语义号。
3.2 词与词之间语义相似度的计算
首先需要计算两个词之间的语义距离。这里,我们把语义距离定义为两个词对应的义原在义原树中的最短距离。如果两个词中有一个词的义原无法在义原树中找到,或者两个词的义原分别处于两个不同的义原树,我们认为这两个词之间的语义距离为∞。
设两个词U、V之间的语义距离为p,那么U、V之间的相似度可以用公式(2)来计算:
这里的H和L是两个词之间相似度可能取得的最大和最小值。在本系统中,令H=1,L=0。D是U、V所在的义原树的中两个义原的语义距离可能的最大取值。即如果某个义原树中深度最大的两个义原的深度分别为D1、D2,那么这棵语义树的D=D1+D2。注意,根据上面所说,当p≠∞时,U、V的义原必定是在同一棵义原树中,因此,关于D的定义是合理的。
3.3 句子之间语义相似度的计算
有了词与词之间的语义相似度,我们就可以来计算句子间的语义相似度。设两个句子A和B,设A包含的词为、
、…、
,B包含的词为
、
、…、
。词
和
之间的相似度用
来表示,这样我们得到一个
的矩阵:
利用这个矩阵,我们可以用公式(3)得到A,B 两个句子之间的语义相似度:
(3)
最后,我们利用TFIDF算出的相似度和用语义算出的相似度的加权平均,就可以计算出两个句子最终的相似度。设利用TFIDF算出的句子相似度值为t,利用语义算出的句子相似度值为s,两个句子最终的相似度m可以表示为公式(4):
(4)T和S是分别赋予t、s的权重。
5.结语
信息客服的重要性随着信息系统和网络的不断发展得到提升,同时,相应的工具也需要同时进行发展,通过此搜索工具的使用,提高客服人员的搜索准确率,提升信息客服的对外提供服务的水平,更好的为客户提供优质的服务。
参考文献
[1]孙卫琴.JAVA面向对象编程[M].电子工业出版社,2006.
[2]曾炼.客户资源管理现状及发展[J].《程序员》杂志,2003.
...