Need help with Unilm?
Click the “chat” button below for chat support from the developer who created it, or find similar developers for support.

About the developer

YunwenTechnology
180 Stars 42 Forks 9 Commits 15 Opened issues

Services available

!
?

Need anything else?

Contributors list

No Data

Unilm

简介

UniLM模型既可以应用于自然语言理解(NLU)任务,又可以应用于自然语言生成(NLG)任务。论文来自微软研究院。

模型虽然强大,但微软并没有开源中文的预训练模型。因此云问本着开源之前,将我们预训练好的中文unilm_base模型进行开源。

模型链接

| | 模型地址 | 提取码 | | ------------- | ------------- | ------------- | | tf | 百度云盘 | tblr | | torch | 百度云盘 | etwf |

详细介绍

详细介绍见:知乎链接

在CLUE中的部分分类数据集和阅读理解数据集上进行了简单测试,具体效果如下:

| 模型 | AFQMC | TNEWS | IFLYTEK | CMNLI | CSL | CMRC2018 | AVG | | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- | | bertbase | 73.70% | 56.58% | 60.29% | 79.69% | 80.36% | 71.60% | 70.37% | | ERNIEbase | 73.83% | 58.33% | 58.96% | 80.29% | 79.10% | 74.70% | 70.87% | | unilm_base | 73.79% | 56.27% | 60.54% | 79.58% | 80.80% | 73.30% | 70.71% |

对CLUE中新闻摘要数据,训练了摘要模型,并进行的简单的测试,具体效果如下:

| 模型 | rouge-1 | rouge-2 | rouge-L | | ------------- | ------------- | ------------- | ------------- | | f1 | 43.98% | 32.04% | 49.90% | | r | 41.74% | 30.50% | 47.35% | | p | 49.30% | 35.85% | 56.01% |

如何使用该模型进行NLU任务? * 可以直接使用BERT代码,只需加载unilm的model、config、vocab即可。

如何使用该模型进行NLG任务? * fine-tuning ~~~ nohup python3 -u runseq2seq.py --datadir /data/unilm/datafile/ --srcfile traindata.json --modeltype unilm --modelnameorpath /data/unilm/yunwenunilm/ --outputdir /data/unilm/outputdir/ --maxseqlength 512 --maxpositionembeddings 512 --dotrain --dolowercase --trainbatchsize 32 --learningrate 1e-5 --numtrainepochs 3 > log.log 2>&1 & ~~~ * test ~~~ python3 -u decodeseq2seq.py --modeltype unilm --modelnameorpath /data/unilm/yunwenunilm/ --modelrecoverpath /data/unilm/outputdir/model.bin --maxseqlength 512 --inputfile /data/unilm/datafile/test.json --outputfile /data/unilm/datafile/predict.json --dolowercase --batchsize 32 --beamszie 5 --maxtgtlength 128 ~~~

注:根据论文,在NLU任务时,typetokenid为[0,1];在NLG任务时,typetokenid为[4,5]

补充摘要模型对比实验(参考:CLGE) * 数据集CSL 中长文本摘要生成

百度网盘 提取码:y2zj

| 模型 | rouge-1 | rouge-2 | rouge-L | BLUE | 参数 | | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- | | bertbase | 61.71% | 50.97% | 60.51% | 41.10% | batchsize=24, length=512, epoch=5, lr=1e-5 | | unilm | 62.13% | 51.20% | 60.61% | 41.81% | batch_size=24, length=512, epoch=5, lr=1e-5 |

  • 微博新闻摘要数据,从新闻摘要数据中随机挑选10000篇作为训练集,1000篇作为测试集。

百度网盘 提取码:htmh

| 模型 | rouge-1 | rouge-2 | rouge-L | BLUE | 参数 | | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- | | bertbase | 39.74% | 28.69% | 38.68% | 20.02% | batchsize=24, length=512, epoch=5, lr=1e-5 | | unilm | 40.58% | 29.60% | 39.21% | 21.35% | batch_size=24, length=512, epoch=5, lr=1e-5 |

训练环境

  • torch 1.4.0
  • transformers 2.6.0

联系我们

[email protected]

相关链接

http://www.iyunwen.com/

We use cookies. If you continue to browse the site, you agree to the use of cookies. For more information on our use of cookies please see our Privacy Policy.