小说人名提取
一个基于hanlp的小说人名关系提取工具
特点
- 直接使用hanlp训练好的模型,无专门自定义人名字典
- 自动人名统计
- 部分人名简称转换
使用方法
将书以txt后缀保存在
book
目录下,并且以 utf-8 格式保存运行如下命令
1 | python rel.py --book book_name #注意没有txt后缀 |
运行结果展示
平凡的世界
三体
分词模型对比
- thulac 清华,大模型下载困难,小模型词性标注效果较差
- jieba 词性标注不好,很容易误分类
- hanlp 功能完整的工具包,分词效果不错
- pynlpir 中科院,标注太奇怪,弃用
- pyltp 哈工大