一个关于百度2019语言与智能技术竞赛信息抽取 (http://lic2019.ccf.org.cn/kg) 模型, 模型采用BERT+CNN。DEMO地址 https://github.com/Wangpeiyi9979/InformationExtractionDemo
|—— models # 存放模型目录 存放网页相关前端配置 |—— modules # 存放自己封装的encoder |—— out |—— bert-base-chinese |—— |—— bert-base-chinese.tar.gz # bert预训练参数 |—— |—— vocab.txt # bert词典库 |—— data # 存放数据 |—— |—— Data.py |—— |—— small #自己合并了实体类型的数据 |—— |——|—— json_data |—— |——|—— npy_data |—— |——|——|——train |—— |——|——|——dev |—— |——|——|——test1 |—— |——|——|——test2 |—— |——|—— origin_data # 存放原始数据 |—— analysis_result.ipynb # 用来分析错误结果 |—— checkpoints # 存放训练模型参数 |—— config.py |—— helpData.py # 数据预处理函数 |—— mian.py # 主函数 |—— metrics.py # 测评函数 |—— README.md
git clone https://github.com/Wangpeiyi9979/IE-Bert-CNN.git
59fg。
data/small/origin_data/文件夹下
uolz。将下载后的压缩文件放在
bert-base-chinese文件夹下
python helpData.py
python main train
预测
ckpt_path更改为训练后的模型地址. 执行:
python main tofile --case=1预测结果存放在
out文件夹下.
结果: f1:0.81(线上结果),线下约在0.76的样子。