分词技术怎么样,如何掌握分词技术?


导语本周对自然语言处理的分词技术进行了学习 。本文针对分词技术的进行了全视角的概览,目标是掌握什么是分词技术、为什么需要分词技术和如何使用分词技术 。后续将分不同篇幅对其中内容进行深挖和讲解 。
文章结构如下(全文阅读时间大约10分钟):

分词技术怎么样,如何掌握分词技术?

文章插图
文章大纲
1.简介
首先,简单介绍一下自然语言处理技术(简称NLP),是人工智能领域中一个重要的方向,主要研究如何让人类和计算机之间,能够使用人类能够理解的语言进行有效沟通,其涵盖语言学、计算机科学、数学等多种交叉学科 。
在现如今人工智能技术迅速发展时期,AI技术逐步从感知智能朝认知智能大跨步迈进,NLP技术或许是人类实现强人工智能的关键所在 。
分词技术怎么样,如何掌握分词技术?

文章插图
NLP技术
什么是分词技术?分词技术属于自然语言处理技术范畴,分词就是将句子中的词语划分出来的技术,人能够知道哪些是词语,如何让计算机能够理解和划分,其处理过程就是分词 。当然,分词只是一种工具,场景不同,要求也不同 。
分词技术怎么样,如何掌握分词技术?

文章插图
分词
为什么需要分词技术?因为许多自然语言处理技术都会围绕词语展开,例如情感分析、问答模型等;分词效果直接影响上层技术的效果;并且,词语是最小粒度有意义的语言成分;英文往往不需要分词,但中文需要,因为中文在基本文法上有其特殊性,主要体现在:
1.英文以空格作为天然分隔符,中文词语间没有分隔
2.古文词通常是单个汉字,而现在汉语双字多字词比较多
3.词和词组边界模糊
分词技术怎么样,如何掌握分词技术?

文章插图
古文与现代文对比
2.技术难点
到目前为止,中文分词技术仍存在三大难题未完全突破:
1.分词的规范:字和词的界限往往很模糊,并没有一个公认、权威的标准,会有很多不同主观上的分词差异
2.歧义词的切分,歧义词的情况分为:交集型歧义、组合型歧义和混合型歧义 。另外,更头痛的情况就是真歧义,即使是人都无法判断的情况
3.未登录词识别,就是新词的意思,如人名、地名、网络用词等等
分词技术怎么样,如何掌握分词技术?

文章插图
交集型歧义
分词技术怎么样,如何掌握分词技术?

文章插图
组合型歧义
分词技术怎么样,如何掌握分词技术?

文章插图
混合型歧义
分词技术怎么样,如何掌握分词技术?

文章插图
真歧义
分词算法概述1算法中的数据结构
在展开算法实现之前,先来讲讲算法中提到的数据结构:一个是词典,一个是词图 。
词典一般可以用链表或数组实现,更高级的词典还有Trie树和AC自动机等,例如在HanLp的源码中用户自定义词典的识别是用的AC自动机实现的(需要了解Trie树、KMP算法、AC自动机可以在后续的推文中学习) 。
分词技术怎么样,如何掌握分词技术?

文章插图
Trie树
图作为一种常见的数据结构,其存储方式一般有两种:邻接矩阵和邻接表 。所谓矩阵其实就是二维数组,所谓邻接矩阵存储结构,就是每个顶点用一个一维数组存储每条边的信息,就能用矩阵表示图中各顶点之间的邻接关系 。
分词技术怎么样,如何掌握分词技术?

文章插图
邻接矩阵
邻接表,存储方法跟树的子链表示法相类似,是一种顺序分配和链式分配相结合的存储结构 。
分词技术怎么样,如何掌握分词技术?

文章插图
邻接图
2分词算法简介
分词技术怎么样,如何掌握分词技术?

文章插图
分词算法
现有的分词算法,大体上可以分为如下几类:1.基于规则的分词算法 2.基于统计的分词算法 3.基于语义的分词算法 4.基于理解的分词算法(该部分内容在本期后续推文中会展开讲解)
基于规则的分词算法主要思想是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配 。若在词典中找到某个字符串,则匹配成功 。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则 。

推荐阅读