nlpir大数据语义智能分析平台推荐 nlpir大数据语义智能分析平台

导读:
随着自然语言处理(Natural Language Processing, NLP)技术日趋成熟 , 实现中文分词的工具也越来越多
。 中文分词技术作为中文自然语言处理的第一项核心技术 , 是众多上层任务的首要基础工作 , 同时在日常的工作中起着基础性的作用 。
本文将讲解如何在Python环境下调用HanLP包进行分词 , 并结合Python语言简约的特性 , 实现一行代码完成中文分词 。
常用中文分词工具
工具名称是否开源工具描述Jieba
(结巴分词)免费使用jieba库是一款优秀的支持 Python 第三方中文分词库 , jieba支持三种分词模式:精确模式、全模式和搜索引擎模式 。 SnowNLP
(中文的类库)免费使用SnowNLP是一个python写的类库 , 可以方便的处理中文文本内容 , 是受到了TextBlob的启发而写的 , 诞生了一个方便处理中文的类库 。 FoolNLTK
(中文处理工具包)免费使用FoolNLTK是基于Bi-LSTM模型训练成的中文分词工具 , 仅适用于Linux系统 。 Jiagu
(甲骨工具包)免费使用Jiagu以BiLSTM等模型为基础 , 使用大规模语料训练而成 。 集成多种NLP基础处理功能并支持知识图谱开放信息抽取 。 HanLP
(汉语言处理包)免费使用HanLP是一系列模型与算法组成的NLP工具包 , 由大快搜索主导并完全开源 , 目标是普及自然语言处理在生产环境中的应用 。 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点 。 pyltp
(哈工大语言云)付费使用pyltp 是哈工大自然语言工作组推出的一款基于Python 封装的自然语言处理工具 , 提供了分词 , 词性标注 , 命名实体识别 , 依存句法分析 , 语义角色标注的功能 。 THULAC(清华中文词法分析)付费使用THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包 , 具有中文分词和词性标注功能 。 NLPIR(汉语分词系统)付费使用NLPIR大数据语义智能分析平台由北京理工大学大数据搜索与挖掘实验室研发的“自然语言处理与信息检索共享平台 。 01 什么是中文分词?
众所周知 , 英文是以词为单位的 , 词和词之间是靠空格隔开 。 而在汉语中 , 词以字为基本单位 , 但是一篇文章的语义表达却仍然是以词来划分 。 例如 , 英文句子"I am a student" , 用中文则为:"我是一个学生" 。 计算机可以很简单通过空格知道"student"是一个单词 , 但是不能很容易明白"学"、"生"两个字合起来才表示一个词 。 把中文的汉字序列切分成有意义的词 , 就是中文分词 , 有些人也称为切词 。 "我是一个学生" , 分词的结果是:"我 是 一个 学生" 。 因此 , 需要针对中文汉字 , 将其按照一定的方式进行组织 , 分成不同的词 。

nlpir大数据语义智能分析平台推荐 nlpir大数据语义智能分析平台

文章插图
中文分词是让计算机自动识别出句子中的词 , 然后在词间加入边界标记符 。 这个过程的主要困难在于分词规范、歧义切分和未登陆词的识别 。
分词规范可以理解为国人并没有统一对汉语词的认识 , 对汉语词的认识的操作尺度很难把握 , 极易受到主观因素的影响 , 从而无法提供一个公认的、具有权威性的词表(例如普通说话人的语感与语言学家的标准就有较大的差异) 。
歧义切分可以举例如下:"南京市长江大桥"的分词有两种切分 , "南京市\长江大桥" 和 "南京\市长\江大桥" 。 这种情况在汉语文本中非常普遍 , 并且处理这类问题往往也要复杂得多 。
未登录词的识别(生词)可以有两种解释:一是指已有词典中没有收录的词;二是指已有的训练语料中未曾出现过的词 。 所以从某种意义上来说 , 生词对分词的影响是最容易处理的 。
02 HanLP分词

nlpir大数据语义智能分析平台推荐 nlpir大数据语义智能分析平台

文章插图
1. 安装HanLP
HanLP的API总体来说并不多 , 且需要进行的配置并不复杂 , 适合新手上手 。 下载完成后 , 可以使用如下命令进行安装 。 要求Python 3.6以上 , 支持Windows , 可以在CPU上运行 , 推荐GPU/TPU 。
pip install pyhanlp

推荐阅读