中级职称论文基于知网义原信息量的词语相似度计算方法

所属栏目:计算机网络论文 发布日期:2015-07-14 13:51 热度:

  词语相似度分析是知网检测中的一个重要指标,在信息检索,分类,选取的时候都会用到词语相似度分析。本文就针对基于知网义原信息量的词语相似度计算方法展开了一些论述,文章是一篇中级职称论文范文,有需要发表文章的作者可以联系本站在线编辑快速投稿。

  摘要:国内利用知网计算中文词语相似度通常采用基于义原距离的方法,这些方法依赖于公式设计和参数选取。根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算词语所包含的义原信息量,将义原及其角色关系的信息量作为词语相似度计算的基本单位,通过计算两个词语的共有义原及其角色关系的信息量和所有义原及其角色关系的信息量的比值来综合计算词语的相似度。实验结果证明,该方法合理可行。

  关键词:义原信息量,角色关系,词语相似度,信息处理

  0 引言

  词语相似度计算在信息检索、文本分类、信息抽取、机器翻译等领域有着广泛应用。目前,词语相似度的计算方法主要有两大类:一类是基于距离的方法,如基于WordNet中词语结点的距离来计算英语词语的语义相似度[1],基于知网(Hownet)义原距离来计算中文词语的语义相似度[23];另一类是基于语料统计的方法,这类方法假设凡是语义相近的词语,它们的上下文也应该相似,利用上下文中词语的概率分布来计算词语相似度[45]。

  自1999年知网(HowNet)正式发布以来,其受到越来越多研究人员的关注。基于知网计算中文词语的相似度也诞生了很多方法[2,68],这些方法通常根据意义分解思想,将词语分解为更小单位(义原)参与相似度计算,再按照权重比例综合计算词语整体相似度。利用词语分解后的单位(义原)参与计算,割裂了描述词语的各个义原之间的关系,不能充分反应出词语间语义的相似性,计算结果也不够理想。

  本文从整体性角度出发,给出一种基于义原信息量计算中文词语相似度的方法。基于知网的分类体系(Taxonomy),将义原及其角色关系整体作为词语相似度计算的基本单位,保留了描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想[4],用两个词语共有义原及其角色关系的信息量和所有义原及其角色关系的信息量来综合计算词语的相似度。

  1 知网义原信息量

  1.1 义原信息量

  其中,P(A)表示义原A在某个语料库样本空间中出现的概率。计算语料库样本空间中某个义原出现的概率很困难。知网作为一个以各类概念及关系为描述对象的知识系统,其分类体系本身可以看作是各个义原出现的一个样本空间,那么仅依赖知网分类体系本身而不需其它语料库,作为计算义原出现概率的样本空间也是合理的。本文给出一种根据知网的分类体系来计算义原信息量的方法。

  由义原组成的知网分类体系是一棵概念分类树,在每类义原树状层次结构(以下简称为义原树)中,根结点义原是分类类别,是最大的分类,其它义原都是根结点义原的子孙。可以认为,分支结点义原包含越多的子孙结点,其信息量越小。叶子结点是最小的分类,所有叶子结点的信息量是相同的。

  1.2 义原及其角色关系的信息量

  在知网的知识词典中,每个词语由DEF来描述其概念。将DEF分为两部分:主类义原和特性描述部分。

  定义1:义原及其角色关系。

  在词语概念DEF的特性描述部分中,将义原及动态角色与特征(Event Role and Features)[9]的层次结构的组合称为义原及其角色关系。

  定义2:主类义原。

  在词语概念DEF中,把描述词语概念最左边的第一个义原称为主类义原,也称为第0层义原及其角色关系。

  例如词语“病菌”的一个概念:DEF={bacteria|微生物:domain={medical|医},modifier={able|能:scope={ResultIn|导致:result={disease|疾病}}}}。在“病菌”的DEF中,将“bacteria|微生物”称为主类义原,其它部分是特性描述部分。在特性描述部分中,将“domain={medical|医}”、“modifier={able|能 }”称为DEF的第一层义原及其角色关系,其中包含两个本层义原“medical|医”和“medical|医”;把“scope={ResultIn|导致}”称为第二层义原及其角色关系,包含一个本层义原“ResultIn|导致”,将“result={disease|疾病}”称为第三层的义原及其角色关系,包含一个本层义原“disease|疾病”,依次类推。

  其中,I(pj)表示r所包含的第j个义原pj的信息量。

  例如在词语“病菌”的DEF中,每层的义原及其角色关系中包含的本层义原信息量均为3.346,根据式(4)可得“病菌”的义原及其角色关系的总信息量为7.946。

  在知网中,包含几种特殊符号,如“~”、“?”、“MYM”、“*”。其中,“~”表达的含义是充当一个具体动态角色的值,“?”表示所充当的动态角色的演员一定会出现,“MYM”表示充当某一个动态角色的演员[9] 。设定模式为“{义原1:{义原2: 动态角色或特征={~}}}”情况下,“~”所表达内容的信息量等于义原1的信息量。将其它特殊符号及动态角色的信息量设定为一个常数,大小与具体词的信息量相同,为3.346。一个没有义原描述的具体词,其信息量为一个常数,其大小可规定为一个叶子义原结点的信息量3.346。

  1.3 共有义原及其角色关系的信息量

  3 实验结果及分析

  目前没有可以评估中文词语语义相似度算法质量的专用数据集,本文选取一些常用词语和知网汉语词典中以“病”开头的一些相关词语作为实验对象,与国内著名的刘群方法[2]、知网在线[9]的词语相似度计算方法进行对比分析。刘群方法、知网在线和本文方法的实验参数如表1所示。词语相似度实验结果如表2所示。   本文方法与刘群方法、知网在线方法相比较可知,刘群方法是基于义原距离来计算词语相似度,当义原处在同一类义原树中,词语的相似度偏大,例如第3、6组词语相似度结果比本文及知网在线方法的结果都偏大,与人的判断也不一致。实际上,刘群方法在词语相似度计算上不够重视能反映出词语差异的特性描述部分,使得词语相似度计算结果的差异性不够明显,例如第4组词语间相似度结果过于接近。

  知网在线方法在计算词语的相似性时更加细化,将词语的义原结构分解为多个部分,赋予各部分不同的权重然后加权计算得到整体间的相似度。这种方法实际上进一步割裂了描述词语的各个义原之间的关系,使得词语相似度计算的结果也不够准确,例如第1、2、5、8、9组词语,计算结果偏小。另外,知网在线方法对词语特性描述部分计算比较复杂,计算量也较大。

  综合来看,本文方法的结果整体表现更加合理,能够反映出词语间语义的相似性和差异,与人的判断结果比较一致,计算也简单。

  4 结语

  基于知网义原信息量计算中文词语相似度的方法根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,并根据知网这一关系系统的特性,从保留义原间关系的角度出发,将义原及其角色关系作为计算概念相似度的基本单位,更能全面反映词语语义的相似性和差异。基于知网通过义原及其角色关系的信息量来综合计算词语的相似度,计算量较少,计算结果合理可行。在词语相似度计算基础上,进一步研究句子间相似度计算方法,则有待下一步研究。

  参考文献:

  [1] ENEKO AGIRRE,GERMAN RIGAU.A proposal for word sense disambiguation using conceptual distance[C].Proceedings of the First International Conference on Recent Advanced in NLP,1995:258264.

  [2] 刘群,李素建.基于《知网》的词汇语义相似度的计算[C]. 台北:第三届汉语词汇语义学研讨会,2002,7(2):5976.

  [3] 董振东,董强,郝长伶.《知网》的理论发现[J].中文信息学报,2007,21(4):39.

  [4] DEKANG LIN.An informationtheoretic definition of similarity[C].Proceedings of the Fifteenth International Conference on Machine Learning,1998:296304.

  [5] PHILIP RESNIK.Semantic similarity in a taxonomy: an informationbased measure and its application to problems of ambiguity in natural language[J].Journal of Artificial Intelligence Research,1999(2):95130.

  [6] 夏天.汉语词语语义相似度计算研究[J].计算机工程,2007, 33(6):191194.

  [7] 张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报, 2010,24(6):2330.

  [8] 王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):7590.

  中级职称论文发表期刊推荐《山西电子技术》是山西省电子信息产业唯一公开发行的专业技术期刊。在30年的办刊过程中,刊物一直坚持电子信息行业交流信息,探讨技术的园地,主要宣传报道电子信息领域新技术、新成果;为我省电子信息产业发展服务的办刊宗旨。

文章标题:中级职称论文基于知网义原信息量的词语相似度计算方法

转载请注明来自:http://www.sofabiao.com/fblw/dianxin/wangluo/27406.html

相关问题解答

SCI服务

搜论文知识网的海量职称论文范文仅供广大读者免费阅读使用! 冀ICP备15021333号-3