pkuseg词典使用
Published on Aug. 22, 2023, 12:10 p.m.
pip install pkuseg
使用默认词典
import pkuseg
seg = pkuseg.pkuseg(model_name='medicine',postag=True,user_dict = "default") # 程序会自动下载所对应的细领域模型
text = seg.cut('我爱北京天安门') # 进行分词
print(text)
使用自定义词典
词典文件参考如下
词语+\t+词性
每行一条,存储成txt文件即可。
['门静脉海绵样变\tnz',
'主动脉的动脉粥样硬化\tnz',
'放射性颌骨坏死\tnz',
'热卒中\tnz',
'先天性中耳畸形\tnz',
'毛细淋巴管瘤\tnz',
'与住房和经济情况有关的其他问题,具有潜在健康问题\tnz',
'猪霍乱沙门菌感染\tnz',
'无顶冠状静脉窦综合征\tnz',
'双相情感障碍,目前为不伴有精神病性症状的重度抑郁发作\tnz']
import pkuseg
seg = pkuseg.pkuseg(model_name='medicine',postag=True,user_dict = "dict1.txt") # 程序会自动下载所对应的细领域模型
text = seg.cut('我爱北京天安门') # 进行分词
print(text)
引入词典后,结果会就可以看得到了,不过有时候导入词典会导致其他词语的效果变差。