torchtext数据集
文本分类
数据集 | 说明 |
AG_NEWS | 新闻分类数据集,包含 4 个类别(世界、体育、商业、科技)。 |
AmazonReviewFull | |
AmazonReviewPolarity | |
CoLA | 语言可接受性二分类数据集,判断句子是否符合语法。 |
DBpedia | |
IMDb | 电影评论情感分析数据集,包含 50,000 条带有正面或负面标签的影评文本。 |
MNLI | |
MRPC | |
QNLI | |
QQP | |
RTE | |
SogouNews | |
SST2 | |
STSB | |
WNLI | |
YahooAnswers | |
YelpReviewFull | Yelp 用户评论数据集:二分类(正面/负面评价)。 |
YelpReviewPolarity | Yelp 用户评论数据集:五分类(1-5 星评级)。 |
语言建模
数据集 | 说明 |
PennTreebank | 经典语言建模数据集,包含经过标注的英文句子(已分词)。 |
WikiText-2 | 维基百科文章数据集,用于语言建模。较小规模,包含约 1,000 万词。 |
WikiText103 | 维基百科文章数据集,用于语言建模。大规模,包含约 1.03 亿词。 |
机器翻译
数据集 | 说明 |
IWSLT2016 | |
IWSLT2017 | |
Multi30k | 多语言机器翻译数据集,包含英语、德语等语言的平行句对。 |
序列标注
数据集 | 说明 |
CoNLL2000Chunking | |
UDPOS |
问题解答
数据集 | 说明 |
SQuAD 1.0 | 阅读理解数据集,包含问题、文本段落及其答案片段。 |
SQuAD 2.0 | 阅读理解数据集,包含问题、文本段落及其答案片段。 |
无监督学习
数据集 | 说明 |
CC100 | |
EnWik9 |