tkitSeg多领域中文分词工具

Published on Aug. 22, 2023, 12:10 p.m.

tkitSeg

多领域中文分词工具

安装

pip install tkitSeg

或者从源码安装

pip install git+https://github.com/napoler/tkit-seg.git

# 使用示例
from tkitSeg import tkitSeg
text = [" 张杨,男,汉族,黑龙江双城人,1988年2月6日生于贵州省贵阳市", " 自学习结合部分句法分析的汉语词性标注"]

Seg=tkitSeg()
datas = Seg.autoSeg(text)
print(datas)

> [{'text': ' 张杨,男,汉族,黑龙江双城人,1988年2月6日生于贵州省贵阳市', 'pos': [{'word': '张杨', 'wtype': 'nr'}, {'word': ',', 'wtype': 'w'}, {'word': '男', 'wtype': 'b'}, {'word': ',', 'wtype': 'w'}, {'word': '汉族', 'wtype': 'nz'}, {'word': ',', 'wtype': 'w'}, {'word': '黑龙江', 'wtype': 'ns'}, {'word': '双城人', 'wtype': 'ns'}, {'word': ',', 'wtype': 'w'}, {'word': '1988年', 'wtype': 't'}, {'word': '2月', 'wtype': 't'}, {'word': '6日', 'wtype': 't'}, {'word': '生于', 'wtype': 'v'}, {'word': '贵州省', 'wtype': 'ns'}, {'word': '贵阳市', 'wtype': 'ns'}, {'word': ' \n', 'wtype': 'v'}], 'seg': ['张杨', ',', '男', ',', '汉族', ',', '黑龙江', '双城人', ',', '1988年', '2月', '6日', '生于', '贵州省', '贵阳市', ' \n']}, {'text': ' 自学习结合部分句法分析的汉语词性标注', 'pos': [{'word': '自学', 'wtype': 'p'}, {'word': '习结', 'wtype': 'n'}, {'word': '分句法', 'wtype': 'zzz'}, {'word': '分析', 'wtype': 'n'}, {'word': '的', 'wtype': 'u'}, {'word': '汉语词性', 'wtype': 'nz'}, {'word': '标注', 'wtype': 'n'}, {'word': ' \n', 'wtype': 'zzz'}], 'seg': ['自学', '习结', '分句法', '分析', '的', '汉语词性', '标注', ' \n']}]

tkitSeg文档
tkit-seg项目地址

git更新速度稍慢,稍些时候会更新上去,基于深度学习,参考意义不是很多。

模型构建中尽量避免LSTM,CRF等这些严重拖慢速度的结构。

现在项目还处于初期阶段,后期会试着加入更多的功能。

后期