Need help with WoBERT?
Click the “chat” button below for chat support from the developer who created it, or find similar developers for support.

About the developer

ZhuiyiTechnology
182 Stars 37 Forks Apache License 2.0 19 Commits 7 Opened issues

Description

以词为基本单位的中文BERT

Services available

!
?

Need anything else?

Contributors list

# 247,725
Python
19 commits

WoBERT

以词为基本单位的中文BERT(Word-based BERT)

详情

https://kexue.fm/archives/7758

训练

目前开源的WoBERT是Base版本,在哈工大开源的RoBERTa-wwm-ext基础上进行继续预训练,预训练任务为MLM。初始化阶段,将每个词用BERT自带的Tokenizer切分为字,然后用字embedding的平均作为词embedding的初始化。模型使用单张24G的RTX训练了100万步(大概训练了10天),序列长度为512,学习率为5e-6,batchsize为16,累积梯度16步,相当于batchsize=256训练了6万步左右。训练语料大概是30多G的通用型语料。

此外,我们还提供了WoNEZHA,这是基于华为开源的NEZHA进行再预训练的,训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似,不同的是它使用了相对位置编码,而BERT用的是绝对位置编码,因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA,就是让大家多一个选择。

依赖

pip install bert4keras==0.8.8

下载

引用

Bibtex:

@techreport{zhuiyipretrainedmodels,
  title={WoBERT: Word-based Chinese BERT model - ZhuiyiAI},
  author={Jianlin Su},
  year={2020},
  url="https://github.com/ZhuiyiTechnology/WoBERT",
}

联系

邮箱:[email protected] 追一科技:https://zhuiyi.ai

We use cookies. If you continue to browse the site, you agree to the use of cookies. For more information on our use of cookies please see our Privacy Policy.