目录
开源古文BERT模型比较
近来想尝试用BERT (Bidirectional Encoder Representations from Transformers) 分析一下古诗词[1]。搜索到一些开源模型,在此略作总结比较(大致按年份排序)。看下来SikuBERT提供的信息较为详细,可以一试。
BERT-CCPoem | |
---|---|
链接 | GH |
文章 | 无 |
尺寸 | medium |
初始化 | 随机? |
训练数据 | 9M句(0.9M首古诗) |
词表大小 | 12K |
团队背景 | 清华大学 |
发布时间 | 2020 |
GuwenBERT | |
---|---|
链接 | GH / HF |
文章 | slides |
尺寸 | base, large |
初始化 | RoBERTa-wwm-ext-Chinese |
训练数据 | 1700M字(殆知阁古代文献,繁转简) |
词表大小 | 23K |
团队背景 | 北京理工大学 |
发布时间 | 2020 |
注:另有日本团队基于GuwenBERT开发的模型(HF),但信息不全故不收录。
AnchiBERT | |
---|---|
链接 | GH |
文章 | arXiv |
尺寸 | base |
初始化 | BERT-base-chinese |
训练数据 | 40M字(文史诗联) |
词表大小 | 21K |
团队背景 | 四川大学 |
发布时间 | 2021 |
SikuBERT SikuRoBERTa | |
---|---|
链接 | GH / HF |
文章 | link |
尺寸 | base |
初始化 | BERT-base-chinese RoBERTa-wwm-ext-Chinese |
训练数据 | 500M字(四库全书,繁体) |
词表大小 | 30K |
团队背景 | 南京农业大学 |
发布时间 | 2021 |
BERT-ancient-chinese | |
---|---|
链接 | GH / HF |
文章 | 无? |
尺寸 | base |
初始化 | BERT-base-chinese |
训练数据 | 3000M字? |
词表大小 | 38K |
团队背景 | 复旦大学 |
发布时间 | 2022 |
参考数值:
BERT-medium L=8, A=8, H=512
BERT-base L=12, A=12, H=768
BERT-large L=24, A=16, H=1024
BERT-base-chinese词表大小21K
目前更关心理解而非生成,所以暂不考虑GPT系模型。(优质语料都读不完,何必生成更多良莠不齐的作品。) ↩︎