小说人名提取

一个基于hanlp的小说人名关系提取工具

santi

项目地址

特点

  • 直接使用hanlp训练好的模型,无专门自定义人名字典
  • 自动人名统计
  • 部分人名简称转换

使用方法

  1. 将书以txt后缀保存在book目录下,并且以 utf-8 格式保存

  2. 运行如下命令

1
python rel.py --book book_name #注意没有txt后缀

运行结果展示

平凡的世界

平凡的世界
pfdsj2
pfdsj3

三体

santi
santi2
santi3

分词模型对比

  • thulac 清华,大模型下载困难,小模型词性标注效果较差
  • jieba 词性标注不好,很容易误分类
  • hanlp 功能完整的工具包,分词效果不错
  • pynlpir 中科院,标注太奇怪,弃用
  • pyltp 哈工大