优点是简单,容易实现 。缺点是:匹配速度慢;存在交集型和组合型歧义切分问题;词本身没有一个标准的定义,没有统一标准的词集;不同词典产生的歧义也不同;缺乏自学习的智能性 。
文章插图
基于规则的分词方法
基于统计的分词算法的主要核心是词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词 。因此字与字相邻出现的概率或频率能较好地反映成词的可信度 。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息 。互现信息体现了汉字之间结合关系的紧密程度 。当紧密程 度高于某一个阈值时,便可以认为此字组可能构成了一个词 。该方法又称为无字典分词 。
实际运用中会结合基于规则的分词方法,不仅发挥词典匹配的速度快的优势,又结合无词典分词能够结合上下文识别、消歧的优势 。
文章插图
基于统计的分词方法
基于语义的分词算法引入了语义分析,对自然语言自身的语言信息进行更多的处理 。
文章插图
基于语义的分词方法
基于理解的分词算法,是通过让计算机,模拟人对句子的理解,达到识别词组的效果 。基本思想是在分词的同时进行句法、语义的分析,利用句法和语义信息来处理歧义现象 。通常包含三部分:分词子系统、句法语义子系统、总控部分 。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息,来对分词歧义进行判断,模拟人对句子的理解过程 。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等 。
文章插图
基于理解的分词方法
python工具
文章插图
python分词库
最后介绍一些常用的python分词库(该部分内容在本期后续推文中会展开讲解如何使用):
1.jieba:专用于分词的python库,分词效果好.支持三种分词模式:精准模式、全模式和搜索引擎模式;并且支持繁体分词;可以自定义词典 。它主要使用的分词算法是基于统计的分词算法:
a.基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
b.采用动态规划查找最大概率路径,找出基于词频的最大切分组合
c.对未登录词,采用基于汉字成词能力的HMM模型,使用Viterbi算法
Github地址:
https://github.com/fxsjy/jieba
2.THULAC:由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能 。THULAC具有如下几个特点:
a.能力强 。利用集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大 。
b.准确率高 。该工具包在标准数据集Chinese Treebank上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当 。
c.速度较快 。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字 。只进行分词速度可达到1.3MB/s.
Github地址:
https://github.com/thunlp/THULAC-Python
3.pkuseg:由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包 。具有如下几个特点:
a.分词准确率 。相比于其他的分词工具包,该工具包在不同领域的数据上都大幅提高了分词的准确度 。根据测试结果,pkuseg分别在示例数据集(MSRA和CTB8)上降低了79.33%和63.67%的分词错误率 。
b.多领域分词 。该分词包训练了多种不同领域的分词模型 。根据待分词的领域特点,用户可以自由地选择不同的模型 。
c.支持用户自训练模型 。支持用户使用全新的标注数据进行训练 。
Github地址:
https://github.com/lancopku/PKUSeg-python
4.FoolNLTK:根据该项目所述,这个中文工具包的特点有如下几点:
a.可能不是最快的开源中文分词,但很可能是最准的开源中文分词
b.基于 BiLSTM 模型训练而成
c.包含分词,词性标注,实体识别, 都有比较高的准确率
d.用户自定义词典
Github地址:
https://github.com/rockyzhengwu/FoolNLTK
5.LTP:语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统 。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口、可视化工具,并且能够以网络服务(Web Service)的形式进行使用 。
推荐阅读
- 北京千路旅行社有限公司_工商信用信息_经营范围期限状态_法人_地址_注册资本_怎么样
- 如何评价像《心动的信号》《我们恋爱吧》这种模式的相亲真人秀节目呢?
- 济南欧仕达家具制造有限公司_工商信用信息_经营范围期限状态_法人_地址_注册资本_怎么样
- 大家觉得张艾嘉的电影《相爱相亲》怎么样?
- 水星D128G路由器网速介绍 水星D128G路由器性能怎么样
- 荣耀 Play5T Pro优缺点分析 play5tpro手机怎么样
- 柯基如何正确喂养 下面给大家介绍
- 吐鲁番市疆巧味果业有限公司_工商信用信息_经营范围期限状态_法人_地址_注册资本_怎么样
- 个人品牌如何打造,七步打造个人品牌,做斜杠青年不难?
- 如何评价《我有一座恐怖屋》这本小说?