中文新词识别研究概述

时间：2020-10-07 07:53:19　来源：达达文档网本文已影响人

摘要：新词识别是中文信息处理的重要课题，但因新词产生的速度快，语法、语用灵活，词典难以及时收录等问题使新词识别成为了中文信息处理领域的难点和热点问题。新词识别研究的方法主要有规则方法、统计方法以及规则与统计相结合的方法。新词识别的规则主要有新词词性规则和新词构词模式规则。统计方法主要通过计算词的TF/IDF值、词内部概率、词的频次对比、词的临接类别等进行新词识别。最后该文总结了中文新词识别研究中存在的问题，指出未来研究的方向。

关键词：新词识别构词模式词内部概率邻接类别

中图分类号：TP391 文献标识码：A 文章编号：1672-3791（2016）10（b）-0145-03

新词识别研究是中文信息处理中的一个基础性问题，它直接关系到中文分词的效果，继而影响到后续各级的信息处理问题。在应用领域中新词识别对于信息检索、数据挖掘、舆情监测、机器翻译等各个方面都将产生影响。因此，新词识别是中文信息处理的一个重要课题，但因新词产生的速度快，语法、语用灵活，词典难以及时收录等问题使新词识别成为了中文新词处理领域的难点和热点问题。

1 新词的定义

“从词典参照的角度，新词语是指通过各种途径产生的具有现代汉语基本词汇所没有的新形式、新意义或新用法的词语；从时间参照角度，新词语是出现在某一时间段内或自某一时间点以来首次出现的具有新词形、新词义或者新用法的词汇”[1]。而新词“按照来源可以分为以下几类：命名实体、缩略语、方言词、新造词、专业术语、音译词、字母词、词义及用法发生变化的旧有词语。”[2]。在中文信息处理领域，研究者一般把新词视为未登录词来进行处理，根据构成新词的规则和各种统计特征来进行新词识别研究。

2 中文新词识别研究的发展过程

国内关于新词识别的研究，最早的一篇文章是1990年汪华峰[3]的《汉语自然语言理解中词切分中新词问题初探》，作者提出了一种基于统计的方法，这种统计方法根据汉字出现的频次，生成n阶词表，之后将这个词表和词典匹配，删去词典中已有的词，即为新词。这篇文章尝试了一种基于统计的新词识别方法，代表了之后新词识别的主流方向。

2002年之后关于新词识别的文章越来越多，近十几年来取得了较多的成果。统计方法或统计、规則方法相结合逐渐成为了主流方法，而采用单一规则方法的文章则非常少，各家总结出的统计特征也越来越多。徐远方[4]使用支持向量机（SVM）将新词识别看做一个分类问题利用词特征进行识别，正确率达到61.78%，召回率73.68%，F 值为67.20%。林自芳[5]基于词内部模式的方法进行新词识别，准确率为65.7%，召回率为67.3%，F 值为66.5%。崔世起[6]等根据新词构词模式、词性规则和独立词概率方法进行新词识别，准确率达到95%以上。吴悦[7]等采用一种基于二元背景模型的新词发现方法，准确率为57%，召回率为59%，F 值为58%。李钝[8]等采用N-gram算法和局部匹配预测算法（PPM）识别新词，准确率为92%，召回率为90.8%，F 值为91.3%。陈飞[9]等基于条件随机场的方法识别新词，准确率、召回率和F 值都达到了90%以上。丁建立[10]等采用免疫遗传算法进行新词识别，准确率为87.6%，召回率为79.5%，F 值为83.4%。从实验结果来看，N-gram算法、局部匹配预测算法（PPM）、条件随机场算法和免疫遗传算法对新词识别效果较好，而其他方法的结果大多数都在60%左右。

3 中文新词识别的主要技术方法

新词识别的方法总体上可以分为3类：基于规则的方法、基于统计的方法和规则与统计相结合的方法。

3.1 规则方法

基于规则的方法，主要利用的是语言学知识，总结新词的构词特点，建立规则库，利用规则库筛选新词。这种方法的优点是准确率高，但缺点是构建规则库工作量大、成本高，而规则不能概括所有的语言现象，对于不符合规则的新词会造成漏召，且规则过多时规则之间也容易相互冲突，另外新词产生的速度快、组词灵活，因此，构建的规则库往往难以适应新词产生的速度，规则库的更新困难。规则方法常与特定领域相关，移植性差。由于规则方法的种种局限，现在运用单一规则方法的研究非常少，而主要倾向于采用统计或统计加规则的方法。目前用在新词识别中的规则主要有以下几点。

3.1.1 新词词性规则

通过对新词的词性进行研究发现，新词主要集中在名词、动词、形容词这三类实词上，其中名词所占比例最高，而虚词一般不构成新词。如黄轩[11]等依据词性将规则分为正规则和负规则来识别新词。韩艳[12]等、周超[13]等按照常规构词规则和特殊构词规则等来识别新词。

3.1.2 新词构词模式

为了充分利用新词的构词规则，各家对新词的构词模式进行了研究，王琳琳[14]主要研究了“1+···+1”模式以及“N+1”模式的新词。林自芳在文中提到新词的十一种模式。贾自艳[15]在文中运用禁用词、后缀、前缀、名词、特殊语义类、首词是单字、不可扩展的实义词、只做首词的词语列表、只做尾词的词语列表等规则层层过滤来识别新词。

3.2 统计方法

统计方法主要以大规模语料库作为训练语料，根据新词的特点统计各种有效数据来识别新词。统计方法不依赖规则、不限定领域，移植性好。但统计方法的计算量往往很大，而且由于没有规则，统计方法的准确率相对较低，往往形成大量垃圾串，垃圾串的过滤是统计方法的难点。随着大规模语料库的建立和海量的网络资源，统计方法逐渐成为了新词识别的主流方法，随着研究的深入关于新词识别的统计特征也越来越多，主要有以下几点。

3.2.1 词的出现频数（TF）和出现文数（IDF）

新词作为一种词语，首先要满足作为词的特征，需要具备一定的使用度和通用度，即新词要满足一定的频次和出现文数要求，这是新词的一个基本判定条件，因此，多数学者会用到这一统计数据，如段宇锋[16]、吴春颖[17]等都使用了TF/IDF作为识别新词的统计特征。

3.2.2 词内部概率

新词作为词，还需要满足作为词的独立性和稳定性，而不是一个临时性的组合，因此，对于字符或词语，是否和邻近的字或词组合构成一个新词，可用词内部概率来衡量，如果两个相邻的字符或词语它们的词内部概率大，则说明它们结合紧密程度高、使用稳定，很可能是一个新词。在具体算法中，各家的概念和公式会有所不同，如有的借用关联规则理论提出成词支持度和成词置信度，判断的依然是一个字串或词组成新词的概率，还有的使用互信息、粘结度等概念。还有学者将成词概率细化为首尾单字成词概率和改进位置成词概率等。

3.2.3 时间特征

新词是在一定的时期后新出现的词，因此，它的一个重要特点是在之前的语料中没有，而在某一时期后频繁出现，因此，识别新词可以引入时间特征，有些学者以某一时间为界将语料分为背景语料和前景语料，然后统计背景语料和前景语料的词语出现的频次对比，如果某一字符串或词语在背景语料中很少，而在前景语料中大量出现，则它很可能是一个新词。吴悦[7]等使用似然比来度量字符串在前景语料中的概率相比于在背景语料中概率的强烈程度。刘哲[18]等也使用了时间特征来识别新词。

3.2.4 邻接类别

新词在词的内部具有稳定性，但词的上下文语境却很灵活，即它可以出现在多种语境中，可用上下文邻接来反映词的这个特征。上下文邻接一般分为左邻接和右邻接，即当前词的前一个字或词和当前词的后一个字或词。由左邻接和右邻接组成的集合是上下文邻接集合，这个集合元素越多，说明词的上下文语境越灵活，越可能是一个新词。如钟将[19]等使用邻接类别这一特征来识别新词。有的文献中也使用左右信息熵的概念来反映新词的这一特征。

3.3 规则和统计相结合的方法

针对规则方法和统计方法各自的不足，也有学者将两种方法相结合以提高识别效果。大多数学者采用的是统计方法为主规则方法为辅。如程涛[20]等、张苏[21]等都采用统计和规则相结合的方法来识别新词。

4 存在的问题

4.1 新词识别的方法仍有一定局限性，识别效果有待提高

从目前新词识别研究的成果来看，准确率、召回率及F 值仍然偏低，新词识别中还存在着种种的问题没有解决。如：新词定义不统一，人工判定新词的主观性，新词产生时间的模糊性，分词后识别方法中的分词错误，垃圾串过滤的复杂性等。

4.2 缺乏少数民族语的新词识别研究

少数民族语言信息处理近年来获得较大发展，形成了许多成果，在词法、语法、语义、语音、语料库、机器翻译等领域都有成果，但新词识别研究的成果却几乎没有，因此，开展少数民族语言的新词识别研究是迫切需要的。

4.3 多语种的新词识别研究成果少

中国境内除汉语外，还有许多少数民族语言，各少数民族语言的信息化进程也越来越快，开展跨语言的信息处理研究也越来越重要，但关于多语种的新词识别研究目前只看到刘冰洋[22]等的《多语种网络文本快速新词抽取》，它针对的是中英文语料，多语种的汉语和少数民族语新词识别还没有看到相关成果。

5 结语

中文新词识别是未登录词处理中的一个重要内容，直接影响着中文分词的效果。近年来的研究成果越来越多，该文总结了中文新词识别的主要技术方法，分析评价了各自方法的优劣，指出了中文新词识别研究中存在的一些问题，为开展更进一步研究奠定了基础。

参考文献

[1] 吕学强，黄河，李渝勤，等.BBS中文新词自动挖掘[J].现代图书情报技术，2007（1）：37-39.

[2] 邹纲，刘洋，刘群，等.面向Internet的中文新词语检测[J].中文信息学报，2004，18（6）：1-9.

[3] 汪华峰，陈峪.汉語自然语言理解中词切分中新词问题初探[C]//第一届全国语言识别学术报告与展示会论文集.1990.

[4] 徐远方，李成城.基于SVM和词间特征的新词识别研究[J].计算机技术与发展，2012，22（5）：134-136.

[5] 林自芳，蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化，2010（11）：162-165.

[6] 崔世起，刘群，孟瑶，等.基于大规模语料库的新词检测[J].计算机研究与发展，2006，43（5）：927-932.

[7] 吴悦，燕鹏举，翟鲁峰.基于二元背景模型的新词发现[J].清华大学学报：自然科学版，2011（9）：1317-1320.

[8]李钝，屠卫，石磊，等.基于上下文感知的中文新词识别算法[J].计算机工程与设计，2012，33（10）：4022-4027.

[9]陈飞，刘奕群，魏超，等.基于条件随机场方法的开放领域新词发现[J].软件学报，2013（5）：1051-1060.

[10]丁建立，慈祥，黄剑雄.一种基于免疫遗传算法的网络新词识别方法[J].计算机科学，2011，38（1）：240-245.

[11]黄轩，李熔烽.博客语料的新词发现方法[J].现代电子技术，2013，36（2）：144-146.

[12]韩艳，姚建民，朱巧明，等.不限领域的中文新词的识别研究[J].郑州大学学报：理学版，2008，40（3）：67-71.

[13]周超，严馨，余正涛，等.融合词频特性及邻接变化数的微博新词识别[J].山东大学学报：理学版，2015，50（3）：6-10.

[14]王琳琳.规则与统计相结合的中文新词识别研究[J].嘉兴学院学报，2014，26（6）：124-130.

[15]贾自艳，史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程，2004，30（20）：19-21.

[16]段宇锋，鞠菲.基于N-gram的专业领域中文新词识别[J].现代图书情报技术，2012（2）：41-47.

[17]吴春颖，王士同，蔡崇超.一种基于新词发现的Web文本表示方法[J].计算机应用，2008，28（3）：764-767.

[18]刘哲，黄永峰，罗芳，等.网络新词识别算法研究[J].计算机工程与科学，2013，35（9）：141-145.

[19]钟将，耿升华，董高峰.一种新词检测方法研究[J].数字通信，2013，40（2）：1-5.

[20]程涛，施水才，张玉杰，等.基于大规模语料库的新闻领域新词挖掘[C]//第三届全国信息检索与内容安全学术会议，2007.

[21]张苏，梁颖红，牛丽.基于术语抽取技术的新闻新词发现方法研究[J].苏州市职业大学学报，2014（3）：14-16.

[22]刘冰洋，刘倩，张瑾，等.多语种网络文本快速新词抽取[J].中文信息学报，2014，28（2）：78-84.

相关热词搜索：新词中文概述识别研究

中文新词识别研究概述

最新文章

热门文章