目录

开源古文BERT模型比较

近来想尝试用BERT (Bidirectional Encoder Representations from Transformers) 分析一下古诗词[1]。搜索到一些开源模型,在此略作总结比较(大致按年份排序)。看下来SikuBERT提供的信息较为详细,可以一试。

BERT-CCPoem
链接GH
文章
尺寸medium
初始化随机?
训练数据9M句(0.9M首古诗)
词表大小12K
团队背景清华大学
发布时间2020
GuwenBERT
链接GH / HF
文章slides
尺寸base, large
初始化RoBERTa-wwm-ext-Chinese
训练数据1700M字(殆知阁古代文献,繁转简)
词表大小23K
团队背景北京理工大学
发布时间2020

注:另有日本团队基于GuwenBERT开发的模型(HF),但信息不全故不收录。

AnchiBERT
链接GH
文章arXiv
尺寸base
初始化BERT-base-chinese
训练数据40M字(文史诗联)
词表大小21K
团队背景四川大学
发布时间2021
SikuBERT
SikuRoBERTa
链接GH / HF
文章link
尺寸base
初始化BERT-base-chinese
RoBERTa-wwm-ext-Chinese
训练数据500M字(四库全书,繁体)
词表大小30K
团队背景南京农业大学
发布时间2021
BERT-ancient-chinese
链接GH / HF
文章无?
尺寸base
初始化BERT-base-chinese
训练数据3000M字?
词表大小38K
团队背景复旦大学
发布时间2022

参考数值:

BERT-medium L=8, A=8, H=512
BERT-base L=12, A=12, H=768
BERT-large L=24, A=16, H=1024

BERT-base-chinese词表大小21K


  1. 目前更关心理解而非生成,所以暂不考虑GPT系模型。(优质语料都读不完,何必生成更多良莠不齐的作品。) ↩︎