pkuseg词典使用

Published on Aug. 22, 2023, 12:10 p.m.

pip install pkuseg

使用默认词典

import pkuseg

seg = pkuseg.pkuseg(model_name='medicine',postag=True,user_dict = "default")  # 程序会自动下载所对应的细领域模型
text = seg.cut('我爱北京天安门')              # 进行分词
print(text)

使用自定义词典

词典文件参考如下

词语+\t+词性

每行一条,存储成txt文件即可。

['门静脉海绵样变\tnz',
 '主动脉的动脉粥样硬化\tnz',
 '放射性颌骨坏死\tnz',
 '热卒中\tnz',
 '先天性中耳畸形\tnz',
 '毛细淋巴管瘤\tnz',
 '与住房和经济情况有关的其他问题,具有潜在健康问题\tnz',
 '猪霍乱沙门菌感染\tnz',
 '无顶冠状静脉窦综合征\tnz',
 '双相情感障碍,目前为不伴有精神病性症状的重度抑郁发作\tnz']

import pkuseg

seg = pkuseg.pkuseg(model_name='medicine',postag=True,user_dict = "dict1.txt")  # 程序会自动下载所对应的细领域模型
text = seg.cut('我爱北京天安门')              # 进行分词
print(text)

引入词典后,结果会就可以看得到了,不过有时候导入词典会导致其他词语的效果变差。