PyTorch内置torchtext数据集简介

创建日期:2025-05-01
更新日期:2025-05-20

官方文档:torchtext.datasets — Torchtext 0.18.0 documentation

torchtext数据集

文本分类

数据集说明
AG_NEWS新闻分类数据集,包含 4 个类别(世界、体育、商业、科技)。AG News Dataset 拥有超过 100 万篇新闻文章,其中包含 496,835 条 AG 新闻语料库中超过 2000 个新闻源的文章,该数据集仅采用了标题和描述字段,每种类别均拥有 30,000 个训练样本和 1900 个测试样本。
AmazonReviewFullAmazon Reviews – Full Dataset 包含 34,686,770 条商品评论,包含 6,643,669 名亚马逊用户对 2,441,053 款产品的评价,该数据集主要来源于斯坦福网络分析项目 SNAP,其中每个类别分别包含 600,000 个训练样本和 130,000 个测试样本。
AmazonReviewPolarityAmazon Reviews – Polarity Dataset 是 Amazon Reviews – Full Dataset 的子集,相关数据主要来源于斯坦福网络分析项目,其中每个情绪极性集均包含 1,800,000 个训练样本和 200,000 个测试样本 。
CoLACoLA(The Corpus of Linguistic Acceptability,语言可接受性语料库),单句子分类任务,语料来自语言理论的书籍和期刊,每个句子被标注为是否合乎语法的单词序列。本任务是一个二分类任务,标签共两个,分别是0和1,其中0表示不合乎语法,1表示合乎语法。
DBpediaDbpedia是一个开源的、基于资源描述框架(RDF)的数据库,旨在让机器理解网页上的信息。这个项目源于对维基百科文章信息的抓取和研究,为用户提供更加精确和有价值的信息。
IMDbIMDB影评数据集是一个广泛应用于情感分析和自然语言处理任务的数据资源。这个数据集包含了来自互联网电影数据库(IMDb)的50,000条电影评论,其中25,000条用于训练,另外25,000条用于测试。每条评论都已明确标记为正面(好评)或负面(差评),基于10分制评分系统,这里简化为了二分类问题。
MNLIMNLI是一个大规模的自然语言推理数据集,包含433k个句子对,用于训练和评估模型在不同文本类型中的推理能力。数据集包括三种标签:蕴含、中立和矛盾。
MRPCMRPC(Microsoft Research Paraphrase Corpus)是一个用于句子对相似度评估的数据集。它包含5801对句子,每对句子都标注了是否为释义关系。该数据集主要用于自然语言处理任务中的句子相似度检测和释义识别。
QNLIQNLI(Question Natural Language Inference)是一个用于自然语言推理任务的数据集,由斯坦福大学发布。该数据集是基于SQuAD(Stanford Question Answering Dataset)构建的,旨在评估模型在问答任务中的表现。QNLI包含一对句子,其中一个是问题,另一个是可能的答案或解释,任务是判断第二个句子是否是第一个问题的正确答案。
QQPQQP(Quora Question Pairs)数据集包含来自Quora平台的问题对,目的是判断两个问题是否表达相同的意思。数据集包含约40万对问题,每对问题都有一个标签,表示它们是否是重复的。
RTERTE(The Recognizing Textual Entailment datasets,识别文本蕴含数据集),自然语言推断任务,它是将一系列的年度文本蕴含挑战赛的数据集进行整合合并而来的,包含RTE1[4],RTE2,RTE3[5],RTE5等,这些数据样本都从新闻和维基百科构建而来。将这些所有数据转换为二分类,对于三分类的数据,为了保持一致性,将中立(neutral)和矛盾(contradiction)转换为不蕴含(not entailment)。样本个数:训练集2, 491个,开发集277个,测试集3, 000个。
SogouNewsSogou News Dataset 是由 SogouCA 和 SogouCS 新闻语料库构成的数据集,其拥有 5 个类别共计 2,909,551 篇文章,每个类别均包含 90,000 个训练样本和 12,000 个测试样本,并且这些样本均以转换为拼音。
SST2SST-2(Stanford Sentiment Treebank 2)是 情感分析(Sentiment Analysis) 任务中常用的 二分类数据集,来源于斯坦福大学的 Stanford Sentiment Treebank,用于 自然语言处理(NLP)模型的训练和评估。
STSBSTS-B数据集是一个用于语义文本相似度任务的数据集,包含8,628对句子,每对句子都有一个从0到5的相似度评分,表示它们在语义上的相似程度。
WNLIWNLI(Winograd NLI)是一个自然语言推理数据集,包含747个句子对,用于评估模型在理解代词指代关系方面的能力。数据集中的句子对通常涉及一个代词,模型需要判断该代词是指代句子中的哪个实体。
YahooAnswersYahoo!Answers 数据集源于 Yahoo!Answers Comprehensive Questions and Answers 1.0 的 10 个主要分类数据,每个类别分别包含 140000 个训练样本和 5000 个测试样本。
YelpReviewFullYelpReviewFull数据集包含从Yelp网站收集的评论数据,主要用于情感分类任务。数据集包含650,000条训练样本和50,000条测试样本,每条数据包括一个文本字段和一个标签字段,标签表示评论的星级(1到5星)。数据集由众包方式创建,使用英语。
YelpReviewPolarityYelpPolarity数据集是一个用于二分类情感分析的大规模数据集。该数据集包含560,000条训练样本和38,000条测试样本,数据来源于Yelp Dataset Challenge 2015。数据集的构建方法是将1星和2星评价视为负面,3星和4星评价视为正面。

语言建模

数据集说明
PennTreebankPenn Treebank Dataset 数据集是一个用于自然语言处理(NLP)和计算语言学研究的标准数据集。它包含来自多种来源的文本,如新闻、书籍和文章。PTB 数据集通常用于语言模型、词性标注、句法分析等任务的训练和评估。
WikiText-2WikiText-2是一个广泛使用的自然语言处理数据集,专门用于语言建模和文本生成任务。该数据集由维基百科上的文章组成,是WikiText数据集系列的一部分,用于语言建模。较小规模,包含约 1,000 万词。
WikiText103本数据集是超过 1 亿个语句的数据合集,全部从维基百科的 Good 与 Featured 文章中提炼出来。广泛用于语言建模,包含约 1.03 亿词。

机器翻译

数据集说明
IWSLT2016IWSLT(International Workshop on Spoken Language Translation)是一个专注于口语翻译技术的年度研讨会,其目标是促进学术界和工业界的交流合作,推动口语翻译技术的发展。IWSLT 2016所提供的German–English parallel corpus(德语-英语双语语料库)是为了支持研究者们在机器翻译领域的研究与开发,尤其是口语翻译任务。
IWSLT2017IWSLT(International Workshop on Spoken Language Translation)是一个专注于口语翻译技术的年度研讨会,其目标是促进学术界和工业界的交流合作,推动口语翻译技术的发展。IWSLT 2017所提供的German–English parallel corpus(德语-英语双语语料库)是为了支持研究者们在机器翻译领域的研究与开发,尤其是口语翻译任务。
Multi30kMulti30k数据集是一个用于机器翻译和图像描述任务的多语言数据集,由约3万个来自Flickr网站的图像及其对应的英语、德语和法语描述组成。

序列标注

数据集说明
CoNLL2000ChunkingCoNLL-2000 是一个数据集,用于将文本划分为句法相关的非重叠单词组,即所谓的文本分块。
UDPOSUDPOS是一个解析的文本语料库数据集,用于阐明句法或者语义句子结构。 该语料库包含254,830个单词和16,622个句子,取自各种网络媒体,包括博客、新闻组、电子邮件和评论。

问题解答

数据集说明
SQuAD 1.0斯坦福问答数据集(Stanford Question Answering Dataset, SQuAD) 是一个广泛用于 机器阅读理解(Machine Reading Comprehension, MRC) 和 问答系统(Question Answering, QA) 研究的高质量数据集。该数据集由斯坦福大学的研究人员创建,旨在推动 NLP 领域 基于文本的问答系统 的发展。
SQuAD 2.0斯坦福问答数据集(Stanford Question Answering Dataset, SQuAD) 是一个广泛用于 机器阅读理解(Machine Reading Comprehension, MRC) 和 问答系统(Question Answering, QA) 研究的高质量数据集。该数据集由斯坦福大学的研究人员创建,旨在推动 NLP 领域 基于文本的问答系统 的发展。

无监督学习

数据集说明
CC100CC-100数据集是一个多语言文本数据集,包含了100多种语言的单语数据,并且还包括了一些罗马化语言的数据。该数据集是通过处理2018年1月至12月的Commoncrawl快照构建的,旨在用于训练XLM-R模型。数据集的主要用途是预训练语言模型和词表示。数据集的结构包括每个数据点的ID和文本内容,数据以段落形式呈现,文档之间用单个换行符分隔。
EnWik9EnWik9的数据是一系列UTF-8编码的XML,主要由英文文本组成。 数据集包含243,426篇文章标题,其中85,560个被重定向以修复丢失的网页链接,其余是常规文章。

转载请注明转自www.hylab.cn,原文地址:PyTorch内置torchtext数据集简介

网站简介

一个来自三线小城市的程序员开发经验总结。