数据集 | 说明 |
AG_NEWS | 新闻分类数据集,包含 4 个类别(世界、体育、商业、科技)。AG News Dataset 拥有超过 100 万篇新闻文章,其中包含 496,835 条 AG 新闻语料库中超过 2000 个新闻源的文章,该数据集仅采用了标题和描述字段,每种类别均拥有 30,000 个训练样本和 1900 个测试样本。 |
AmazonReviewFull | Amazon Reviews – Full Dataset 包含 34,686,770 条商品评论,包含 6,643,669 名亚马逊用户对 2,441,053 款产品的评价,该数据集主要来源于斯坦福网络分析项目 SNAP,其中每个类别分别包含 600,000 个训练样本和 130,000 个测试样本。 |
AmazonReviewPolarity | Amazon Reviews – Polarity Dataset 是 Amazon Reviews – Full Dataset 的子集,相关数据主要来源于斯坦福网络分析项目,其中每个情绪极性集均包含 1,800,000 个训练样本和 200,000 个测试样本 。 |
CoLA | CoLA(The Corpus of Linguistic Acceptability,语言可接受性语料库),单句子分类任务,语料来自语言理论的书籍和期刊,每个句子被标注为是否合乎语法的单词序列。本任务是一个二分类任务,标签共两个,分别是0和1,其中0表示不合乎语法,1表示合乎语法。 |
DBpedia | Dbpedia是一个开源的、基于资源描述框架(RDF)的数据库,旨在让机器理解网页上的信息。这个项目源于对维基百科文章信息的抓取和研究,为用户提供更加精确和有价值的信息。 |
IMDb | IMDB影评数据集是一个广泛应用于情感分析和自然语言处理任务的数据资源。这个数据集包含了来自互联网电影数据库(IMDb)的50,000条电影评论,其中25,000条用于训练,另外25,000条用于测试。每条评论都已明确标记为正面(好评)或负面(差评),基于10分制评分系统,这里简化为了二分类问题。 |
MNLI | MNLI是一个大规模的自然语言推理数据集,包含433k个句子对,用于训练和评估模型在不同文本类型中的推理能力。数据集包括三种标签:蕴含、中立和矛盾。 |
MRPC | MRPC(Microsoft Research Paraphrase Corpus)是一个用于句子对相似度评估的数据集。它包含5801对句子,每对句子都标注了是否为释义关系。该数据集主要用于自然语言处理任务中的句子相似度检测和释义识别。 |
QNLI | QNLI(Question Natural Language Inference)是一个用于自然语言推理任务的数据集,由斯坦福大学发布。该数据集是基于SQuAD(Stanford Question Answering Dataset)构建的,旨在评估模型在问答任务中的表现。QNLI包含一对句子,其中一个是问题,另一个是可能的答案或解释,任务是判断第二个句子是否是第一个问题的正确答案。 |
QQP | QQP(Quora Question Pairs)数据集包含来自Quora平台的问题对,目的是判断两个问题是否表达相同的意思。数据集包含约40万对问题,每对问题都有一个标签,表示它们是否是重复的。 |
RTE | RTE(The Recognizing Textual Entailment datasets,识别文本蕴含数据集),自然语言推断任务,它是将一系列的年度文本蕴含挑战赛的数据集进行整合合并而来的,包含RTE1[4],RTE2,RTE3[5],RTE5等,这些数据样本都从新闻和维基百科构建而来。将这些所有数据转换为二分类,对于三分类的数据,为了保持一致性,将中立(neutral)和矛盾(contradiction)转换为不蕴含(not entailment)。样本个数:训练集2, 491个,开发集277个,测试集3, 000个。 |
SogouNews | Sogou News Dataset 是由 SogouCA 和 SogouCS 新闻语料库构成的数据集,其拥有 5 个类别共计 2,909,551 篇文章,每个类别均包含 90,000 个训练样本和 12,000 个测试样本,并且这些样本均以转换为拼音。 |
SST2 | SST-2(Stanford Sentiment Treebank 2)是 情感分析(Sentiment Analysis) 任务中常用的 二分类数据集,来源于斯坦福大学的 Stanford Sentiment Treebank,用于 自然语言处理(NLP)模型的训练和评估。 |
STSB | STS-B数据集是一个用于语义文本相似度任务的数据集,包含8,628对句子,每对句子都有一个从0到5的相似度评分,表示它们在语义上的相似程度。 |
WNLI | WNLI(Winograd NLI)是一个自然语言推理数据集,包含747个句子对,用于评估模型在理解代词指代关系方面的能力。数据集中的句子对通常涉及一个代词,模型需要判断该代词是指代句子中的哪个实体。 |
YahooAnswers | Yahoo!Answers 数据集源于 Yahoo!Answers Comprehensive Questions and Answers 1.0 的 10 个主要分类数据,每个类别分别包含 140000 个训练样本和 5000 个测试样本。 |
YelpReviewFull | YelpReviewFull数据集包含从Yelp网站收集的评论数据,主要用于情感分类任务。数据集包含650,000条训练样本和50,000条测试样本,每条数据包括一个文本字段和一个标签字段,标签表示评论的星级(1到5星)。数据集由众包方式创建,使用英语。 |
YelpReviewPolarity | YelpPolarity数据集是一个用于二分类情感分析的大规模数据集。该数据集包含560,000条训练样本和38,000条测试样本,数据来源于Yelp Dataset Challenge 2015。数据集的构建方法是将1星和2星评价视为负面,3星和4星评价视为正面。 |