最开始用的基础词库来源于ssnhd/rime,这是它的词表介绍

img

主要用了这几份词库:

  • luna_pinyin.dict.yaml:默认字库,有部分的词语,总计7万;
  • luna_pinyin.sogou.dict.yaml:来源于搜狗词库,总计105万;
  • easy_en.dict.yaml:英文词库,总计11万;

此外还用了几份自己维护的词库:

  • 股票名称列表,使用Tushare API拉取A股的股票名称列表生成词库,总计5千;
  • 我的搜狗自定义词库,从搜狗导出后经过手动删除,总计3千;
  • 我手动维护的词库,总计1百;

但是这份词库存在几个问题:

  1. 缺乏词库持续的更新维护;
  2. 这份百万级的搜狗词库质量不高,并不是搜狗自带的词库;
  3. 本身基于繁体,尽管这符合RIME的做法;

最近发现两份还不错的简体词库,分别是四叶草拼音雾凇拼音。其中雾凇拼音有6K的star数量,并且更新还是比较及时的,提供的功能也比较完善,下面是一个功能介绍:

demo

作者也明确说明了他会长期维护几份词库:

  • 8105 字表。
  • base 基础词库。
  • ext 扩展词库,小词库。
  • tencent 扩展词库,大词库。
  • Emoji

雾凇拼音用了大量的lua脚本来实现功能,这里先不整体引用,打算只引用词库。但是在部署的时候却发现小狼毫会一直处于加载中,尝试后发现是在加载Tencent大词库的时候才出问题。搜索Github发现可以关掉配置use_preset_vocabulary就可以解决问题。

目前使用的外部词库保留了来源于雾凇拼音的四份中文词库

  • cn_dicts/8105 # 字表
  • cn_dicts/base # 基础词库
  • cn_dicts/ext # 扩展词库
  • cn_dicts/tencent # 腾讯词向量