type
status
data
slug
summary
tags
category
password
icon
NLP常用模型和数据集高速下载
缘由
由于大部分NLP的模型和数据集都在国外,导致国内下载速度实在感人。好在有很多NLP的框架内置了很多数据集,都是国内链接,下载速度很快。本文汇总一下。
正文
模型
模型 | 文件名称 | 下载链接 |
ㅤ | bert-base-cased | |
ㅤ | bert-base-chinese | |
ㅤ | bert-base-uncased | |
ㅤ | bert-chinese-wwm-ext | |
BERT | bert-chinese-wwm | |
ㅤ | bert-large-cased-wwm | |
ㅤ | bert-large-cased | |
ㅤ | bert-large-uncased-wwm | |
ㅤ | bert-large-uncased |
数据集
数据集 | 文件名称 | 下载链接 |
中文情感分析 | ChnSentiCorp | |
语义相似度 | LCQMC | |
问答匹配 | NLPCC_DPQA | |
中文命名实体识别 | MSRA_NER | |
英文多标签分类数据集 | Toxic | |
抽取式英文阅读理解 | SQUAD | |
抽取式中文阅读理解 | CMRC2018 | |
抽取式繁体阅读理解 | DRCD | |
英文数据集集合 | GLUE | |
跨语言自然语言推理 | XNLI | |
今日头条中文新闻短文本分类 | TNews | |
互联网情感分析 | INews | |
智能客服中文问句匹配 | BQ | |
中文长文本分类 | IFLYTEK | |
中文长文本分类 | THUCNEWS |
词向量
词向量 | 文件名称 | 下载链接 |
ㅤ | glove.6B.50d | |
ㅤ | glove.6B.100d | |
GloVe | glove.6B.200d | |
ㅤ | glove.6B.300d | |
ㅤ | glove.42B.300d | |
ㅤ | glove.840B.300d |
数据集下载代码
有些时候想在代码里面直接下载数据集,这里给一份参考的代码:
感谢
- fastnlp 提供的模型和词向量,more 😘
- paddlehub 提供的数据集,more😘
Tips
如果还有其他的国外文件需要下载,国内下载很慢,可以尝试使用 kaggle 的 notebook 先下载到 kaggle,然后再下载到本地,亲测有效😄。
- 本文链接: NLP 常用模型和数据集高速下载 | 故事尾音