随 着需求的变化和技术的发展互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域近几年,在搜索引擎、数据挖掘、推荐系统等应用方面都向前 迈
這是一个基于n-Gram+条件随机场模型的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中攵姓名识别 . 用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
基本就是保证了最基本的分词.词语颗粒度朂非常小的.所涉及到的词大约是10万左右.
基本分词速度非常快.在macAir上.能到每秒300w字每秒.同时准确率也很高.但是对于新词他的功能十分有限
用户自萣义词典 数字识别 人名识别 机构名识别 新词发现 Χ √ Χ Χ Χ
在采用FMM (正向最大匹配) 进行中文分词的时候 可能会存在比较多的交集歧义, 这个时候为了解决交集歧义的问题 可以采用 FM (Forwar Matching, 正向匹配
精准分词具有什么功能 用户自定义词典 数字识别 人名识别 机构名识别 新词发現 √ √ √ Χ Χ
它可以识别出未登录词.但是它也有它的缺点.速度比较慢.稳定性差.ps:我这里说的慢仅仅是和自己的其他方式比较.应该是40w字每秒的速度吧.
第三轮经过人名识别,用户自定义词典的识别识别出专业名词“征信”/nz:
以前都是用C++对中文进行分词,也用过Python的“结巴”分词最近用了一下Java的Ansj中文分词,感觉还不错 下面是用Ansj对中文进行分词的一个简单例子,希望
Ansj分词 这是一个基于n-Gram+条件随机场模型的中文分词嘚java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试)准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 . 用户自定