小说人名提取
一个基于hanlp的小说人名关系提取工具
特点
- 直接使用hanlp训练好的模型,无专门自定义人名字典
 - 自动人名统计
 - 部分人名简称转换
 
使用方法
将书以txt后缀保存在
book目录下,并且以 utf-8 格式保存运行如下命令
1  | python rel.py --book book_name #注意没有txt后缀  | 
运行结果展示
平凡的世界
三体
分词模型对比
- thulac 清华,大模型下载困难,小模型词性标注效果较差
 - jieba 词性标注不好,很容易误分类
 - hanlp 功能完整的工具包,分词效果不错
 - pynlpir 中科院,标注太奇怪,弃用
 - pyltp 哈工大