torchtext数据集

创建日期:2025-05-01
更新日期:2025-05-01

torchtext数据集

文本分类

数据集说明
AG_NEWS新闻分类数据集,包含 4 个类别(世界、体育、商业、科技)。
AmazonReviewFull
AmazonReviewPolarity
CoLA语言可接受性二分类数据集,判断句子是否符合语法。
DBpedia
IMDb电影评论情感分析数据集,包含 50,000 条带有正面或负面标签的影评文本。
MNLI
MRPC
QNLI
QQP
RTE
SogouNews
SST2
STSB
WNLI
YahooAnswers
YelpReviewFullYelp 用户评论数据集:二分类(正面/负面评价)。
YelpReviewPolarityYelp 用户评论数据集:五分类(1-5 星评级)。

语言建模

数据集说明
PennTreebank经典语言建模数据集,包含经过标注的英文句子(已分词)。
WikiText-2维基百科文章数据集,用于语言建模。较小规模,包含约 1,000 万词。
WikiText103维基百科文章数据集,用于语言建模。大规模,包含约 1.03 亿词。

机器翻译

数据集说明
IWSLT2016
IWSLT2017
Multi30k多语言机器翻译数据集,包含英语、德语等语言的平行句对。

序列标注

数据集说明
CoNLL2000Chunking
UDPOS

问题解答

数据集说明
SQuAD 1.0阅读理解数据集,包含问题、文本段落及其答案片段。
SQuAD 2.0阅读理解数据集,包含问题、文本段落及其答案片段。

无监督学习

数据集说明
CC100
EnWik9

简介

一个来自三线小城市的程序员开发经验总结。