"使用gpt2进行知识提取 效果还不错"

Published on Aug. 22, 2023, 12:10 p.m.

gpt2的生成能力让人惊叹,尝试使用gpt2进行知识提取.
把句子和提取的知识喂给gpt2稍加训练就能获取到不错的效国.虽然还有点莫名其妙.

江立,男,瑶族,1978年1月出生,广西恭城人,1998年7月参加工作,1997年6月加入中国共产党,广西师范大学政法学专业毕业,在职研究生学历,现任恭城市人大常委会副主任
[kg]胡新华,出生地,广西恭城[/kg]

再看看这个示例

《不再让你孤单》是由陈少琪作词,陈光荣作曲,杨千嬅演唱的一首歌曲,收录在专辑《为了爱》中
[kg]为了爱,作词,陈少琪[/kg]
[kg]不再让你孤单,作曲,陈光荣[/kg]
[kg]不再让你孤单,歌手,杨千嬅[/kg]
[kg]不再让你孤单,所属专辑,为了爱[/kg]

这个就有点意思了

人名提取的莫名其妙,应该是训练不够导致的,继续多点迭代应该能够有不错的改观.
不过对于开放信息抽取已经不错了

更新测试结果

效果又有所进步,基本该有的信息都能提取出来了
不过,由于训练集的问题没办法覆盖很多,下一步看看能不能做成不限制的知识提取.????要不然加个bert筛选句法依存生成的结果怎么样,手动标记实在是要命.

《一诺千金》是康宁、李晓兵编剧,康宁执导的喜剧片,由黄渤、孙翰文、朱红梅、[UNK]长恩等主演,于2006年3月30日在电影卫星频道节目制作中心独家上映。该片讲述了垂危的工友刘根托付单喜良,希望他把自己的骨灰和儿子小宝送回老家的故事[1]。
预测结果:
[kg]一诺千金,编剧,康宁[/kg]
[kg]一诺千金,主演,孙翰文[/kg]
[kg]一诺千金,导演,康宁[/kg]
[kg]一诺千金,编剧,李晓兵[/kg]
[kg]一诺千金,主演,黄渤[/kg]
[kg]一诺千金,主演,[UNK]长恩[/kg]

使用甲骨的知识提取宠物相关内容基本提取不到什么有用的信息,难道真要手动标记吗?

再次更新效果

田勤,女,1979年1月出生,瑶族,广西恭城人,2000年12月加入中国共产党,2001年9月参加工作,广西大学机械学院载运专业毕业,本科学历。

[kg]田勤,毕业院校,广西大学[/kg]
[kg]田勤,民族,瑶族[/kg]
[kg]田勤,国籍,中国[/kg]
[kg]田勤,出生地,广西恭城[/kg]
[kg]田勤,出生日期,1979年1月[/kg]

提取的还不错了,不过需要考虑增加训练集的提取更多开放式的关系了,百度的这个训练集只有40多种关系,显然是不够的.
手动构建数据集真是够累的,标记到眼花!