PyTorch内置torchvision数据集简介

2025-05-19 22:02:09 李腾 1 次阅读

torchvision数据集

官方文档：Datasets — Torchvision 0.22 documentation

图片分类

数据集	说明
Caltech101	属于 101 个类别的对象的图片。每个类别大约 40 到 800 张图像。大多数类别都有大约 50 张图片。由 Fei-Fei Li、Marco Andreetto 和 Marc'Aurelio Ranzato 于 2003 年 9 月收集。每张图像的大小约为 300 x 200 像素。我们仔细点击了这些图片中每个对象的轮廓，这些都包含在“Annotations.tar”下。还有一个用于查看注释的 MATLAB 脚本 'show_annotations.m'。
Caltech256	我们引入了一个具有挑战性的数据集，包含256个物体类别，共计30,607张图像。原始的Caltech-101数据集是通过以下方式构建的：首先选择一组物体类别，从Google Images下载示例图片，然后人工筛选出不符合该类别的图像。Caltech-256采用类似的构建方法，但进行了多项改进：a) 类别数量增加了一倍以上；b) 每个类别的最小图像数量从31幅提升至80幅；c) 避免了因图像旋转产生的伪影；d) 引入更大规模的干扰物类别用于测试背景抑制能力。我们提出了若干测试范式来评估分类性能，并使用两个简单指标及最先进的空间金字塔匹配算法对数据集进行基准测试。最后，我们利用干扰物类别训练兴趣点检测器，该检测器能够有效排除无信息量的背景区域。
CelebA	(((

名人面部属性数据集（CelebA）是一个大规模人脸属性数据集，包含超过20万张名人图像，每张图像均标注有40项属性特征。该数据集中的图像涵盖多种姿态变化和复杂背景，具有以下显著特点：

身份多样性：包含10,177个不同人物
数据规模：收录202,599张人脸图像
丰富标注：每张图像标注5个关键特征点位置及40项二元属性

)))

CIFAR10

(((

CIFAR-10数据集包含10个类别的60000张32x32彩色图像，每个类别6000张图像。其中50000张为训练图像，10000张为测试图像。该数据集被划分为5个训练批次和1个测试批次，每批各含10000张图像。测试批次从每个类别中精确选取1000张随机图像组成。训练批次以随机顺序包含剩余图像，但某些训练批次中可能存在类别数量不均衡的情况。所有训练批次合计包含每个类别恰好5000张图像。)))

CIFAR100	该数据集与CIFAR-10类似，但包含100个类别，每个类别有600张图像。每类包含500张训练图像和100张测试图像。CIFAR-100中的100个类别被划分为20个超类。每张图像都带有"细粒度"标签（所属具体类别）和"粗粒度"标签（所属超类）。
Country211	在论文中，我们使用了一个名为Country211的图像分类数据集来评估模型在地理定位任务上的性能。为此，我们从YFCC100m数据集中筛选出带有ISO-3166国家代码GPS坐标的图像，并通过为每个国家分别采样150张训练图像、50张验证图像和100张测试图像，构建了一个平衡的数据集。
DTD	可描述纹理数据集（DTD）是一个不断丰富的自然场景纹理图像库，其标注基于人类感知特性构建的一系列纹理属性描述。该数据集向计算机视觉研究社区开放，专供学术研究使用。
EMNIST	EMNIST数据集是一组源自NIST特殊数据库19的手写字符数字，经过转换后形成28x28像素的图像格式及数据结构，其架构与MNIST数据集完全兼容。
EuroSAT	一种基于哨兵2号卫星影像的新型数据集，该数据集包含13个光谱波段，涵盖10个地物类别，共计27,000张经过标注和地理配准的影像。
FakeData	一个返回随机生成图像并作为PIL图像返回的虚假数据集。
FashionMNIST	替代 MNIST 的时尚单品数据集，包含 10 类服装/鞋包（如 T恤、裙子等），图像大小为 28×28 灰度。
FER2013	FER2013 数据集是一个用于人脸表情识别的广泛使用的数据集。它包含大约 30,000 张不同表情的面部 RGB 图像，每张图像的大小为 48×48 像素。该数据集的主要标签分为 7 种类型：0=愤怒，1=厌恶，2=恐惧，3=快乐，4=悲伤，5=惊讶，6=中性。
FGVCAircraft	FGVC-Aircraft数据集是一个用于飞机细粒度视觉分类的基准数据集，包含10,200张图片，每种飞机型号有100张图片，共102种不同的飞机型号。
Flickr8k	该数据集包含 8,000 张图片，每张图片配有五个不同的描述。它常用于图像描述任务。
Flickr30k	Flickr30k数据集是一个用于图像描述生成和视觉理解任务的大规模数据集。该数据集包含来自Flickr的31,783张图片，每张图片配有五条不同的文字描述，共计158,915条英文标注文本。该数据集在研究领域被广泛用于训练和评估图像文本描述生成模型。
Flowers102	Oxford-102 Flower 是牛津工程大学于2008年发布的用于图像分类的花卉数据集，由8189张图像组成，包含103个花卉类别，训练集和验证集各包含10个图像，测试集由剩余的6129张图像组成，每个类别有40-250张图像。
Food101	Food101数据集包含了101种食品类别的图像数据，共有101,000张图像。每个类别平均有250张测试图像和750张训练图像。训练图像未经过数据清洗，因此包含一些噪声，如颜色过于鲜艳或标签错误。
GTSRB	GTSRB（German Traffic Sign Recognition Benchmark）是一个用于交通标志识别的数据集，它包含了43类不同的交通标志。这个数据集被广泛用于机器学习和计算机视觉领域的研究，尤其是在自动驾驶和道路交通图像识别方面。
INaturalist	数据集中共有 10,000 个物种。完整的训练数据集包含近 2.7M 图像。为了使数据集更易于访问，我们还创建了一个“迷你”训练数据集，每个物种有 50 个示例，总共 500K 张图像。每个物种都有 10 张验证图像。总共有 500,000 张测试图像。
ImageNet	ImageNet项目是一个大型视觉数据库，用于视觉目标识别软件研究。该项目已手动注释了1400多万张图像，以指出图片中的对象，并在至少100万张图像中提供了边框。ImageNet包含2万多个典型类别，例如“气球”或“草莓”，每一类包含数百张图像。
Imagenette	Imagenette 是 Imagenet 中 10 个易于分类的类别（tench、English Springer、Cassette Player、Chainsaw、church、French horn、garbage truck、gas pump、golf ball、parachute）的子集。
KMNIST	Kuzushiji-MNIST 是 MNIST 数据集（28x28 灰度，70,000 张图像）的直接替代品，以原始 MNIST 格式和 NumPy 格式提供。由于 MNIST 将我们限制为 10 个类，因此在创建 Kuzushiji-MNIST 时，我们选择了一个字符来表示平假名的 10 行中的每一行。
LFWPeople	这是 Labeled Faces in the Wild，这是一个人脸照片数据库，旨在研究不受约束的人脸识别问题。该数据集包含从 Web 收集的 13,000 多张人脸图像。每张人脸都标有照片中人物的姓名。1680 张照片中的人物在数据集中有两张或多张不同的照片。这些人脸的唯一限制是它们被 Viola-Jones 人脸检测器检测到。
LSUN	大规模场景理解（LSUN）挑战旨在为大规模场景分类和理解提供不同的基准。LSUN 分类数据集包含 10 个场景类别，例如餐厅、卧室、鸡、户外教堂等。对于训练数据，每个类别都包含大量图像，范围从大约 120,000 到 3,000,000 不等。验证数据包括 300 张图像，测试数据每个类别有 1000 张图像。
MNIST	MNIST数据库是一个通常用于训练各种数字图像处理系统的大型数据库。该数据库通过对来自NIST原始数据库的样本进行修改创建，涵盖手写数字的图像，共包含60,000张训练图像和10,000张测试图像，尺寸为28×28像素。
Omniglot	手写字符数据集旨在开发更像人类的学习算法。它包含来自 1623 个不同字母的 50 个不同的手写字符。这 1623 个字符中的每一个都是由 20 个不同的人通过亚马逊的 Mechanical Turk 在线绘制的。每张图像都与笔画数据配对，即 [x，y，t] 坐标序列，时间（t）以毫秒为单位。
OxfordIIITPet	我们创建了一个包含 37 个类别的宠物数据集，其中包含大约 200 张图像每个类。这些图像在比例、姿势和照明。所有图像都有关联的地面实况注释breed、head ROI 和像素级 trimap 分割。
Places365	Places 总共包含超过 1000 万张图像，包括 400+ 个独特的场景类别。该数据集每个类包含 5000 到 30000 张训练图像，与实际出现频率一致。使用卷积神经网络（CNN），Places 数据集允许学习各种场景识别任务的深度场景特征，目标是在以场景为中心的基准测试中建立新的最先进的性能。
PCAM	PatchCamelyon 基准测试是一个新的、具有挑战性的图像分类数据集。它由 327.680 张彩色图像（96 x 96 像素）组成，这些图像是从淋巴结切片的组织病理学扫描中提取的。每张图像都用二进制标签表示存在转移组织。PCam 为机器学习模型提供了新的基准：大于 CIFAR10，小于 imagenet，可在单个 GPU 上训练。
QMNIST	QMNIST 大型手写数字数据集由 NIST Special Database 19 中找到的原始数据重构而成，并且重构了之前 MNIST 数据测试集中丢失的 50,000 张测试图像数据，形成了完整的 QMNIST 数据集。
RenderedSST2	OpenAI 提供的 Rendered SST-2 数据集是一个专为评估 OCR 模型性能而设计的图像分类数据集。该数据集通过对 Stanford Sentiment Treebank v2 数据集中的句子进行渲染生成。它包含两个类别（正面和负面），并被划分为三个部分：训练集包括 6920 幅图像（其中 3610 幅为正面，3310 幅为负面），验证集包括 872 幅图像（444 幅正面，428 幅负面），测试集则有 1821 幅图像（909 幅正面，912 幅负面）。
SEMEION	扫描了大约 80 人的 1593 个手写数字，这些数字被拉伸在一个 16x16 的矩形框中，灰度为 256 个值。
SBU	我们使用大量带字幕的照片集开发并演示了自动图像描述方法。一项贡献是我们用于自动收集这个新数据集的技术——执行大量 Flickr 查询，然后将嘈杂的结果过滤到 100 万张带有相关视觉相关说明的图像。这样的集合使我们能够使用相对简单的非参数方法来解决极具挑战性的描述生成问题，并产生令人惊讶的有效结果。
StanfordCars	Stanford Cars数据集主要用于细粒度分类任务。数据集中一共包含16185张不同型号的汽车图片，其中8144张为训练集，8041张为测试集。
STL10	STL-10 数据集是一个图像识别数据集，用于开发无监督特征学习、深度学习、自学算法。它的灵感来自CIFAR-10数据集，但有一些修改。特别是，每个类都有比 CIFAR-10 少的标记训练示例，但提供了非常大的未标记示例集，用于在监督训练之前学习图像模型。主要挑战是利用未标记数据（来自相似但不同的分布来自标记数据）来构建有用的先验。我们还期望此数据集的更高分辨率（96x96）将使其成为开发更具可扩展性的无监督学习方法的具有挑战性的基准。
SUN397	场景分类是计算机视觉中的一个基本问题。然而，场景理解研究受到当前使用的数据库范围有限的限制，这些数据库无法捕获各种场景类别。用于对象分类的标准数据库包含数百种不同类别的对象，而最大的可用场景类别数据集仅包含 15 个类。在本文中，我们提出了广泛的 Scene UNderstanding （SUN）数据库，其中包含 899 个类别和 130,519 张图像。我们使用 397 个经过充分采样的类别来评估众多最先进的场景识别算法，并建立新的性能边界。我们在 SUN 数据库上测量人体场景分类性能，并将其与计算方法进行比较。
SVHN	SVHN 是一个真实世界的图像数据集，用于开发机器学习和对象识别算法，对数据预处理和格式化的要求最小。可以看作它在风格上与 MNIST 相似（例如，图像是小裁剪数字），但包含了一个数量级的标记数据（超过 600,000 位数字图像），并且来自一个明显更难、未解决的现实世界问题（识别自然场景图像中的数字和数字）。SVHN 是从 Google 街景图像中的门牌号获得的。
USPS	USPS数据集，全称为美国邮政服务（United States Postal Service）数据集，是一个广泛应用于手写数字识别领域的公共数据集。该数据集创建于20世纪90年代，由美国邮政服务提供，并由Yale大学的研究人员整理发布。它包含了7291个训练样本和2007个测试样本，每个样本都是一个16x16像素的灰度图像，涵盖0至9共十个数字类别。

图像检测和分割

数据集	说明
CocoDetection	COCO 对象检测任务旨在推动对象检测的最新技术向前发展。鼓励团队参与两项对象检测任务中的一项（或两项）：使用边界框输出或对象分割输出。COCO 训练集、验证集和测试集包含超过 200,000 张图像和 80 个对象类别。所有对象实例都使用详细的分段掩码进行注释。训练集和验证集（分割了超过 500,000 个对象实例）上的注释是公开可用的。
CelebA	CelebFaces 属性数据集（CelebA）是一个大规模的人脸属性数据集，拥有超过 200K 张名人图像，每张图像都有 40 个属性注释。该数据集中的图像涵盖了较大的姿势变化和背景杂乱。CelebA 具有较大的多样性、大量和丰富的注释，包括10,177 个身份数，202,599 张人脸图像数量，以及5 个地标位置，每张图像 40 个二进制属性注释。
Cityscapes	城市街景数据集，其中包含在 50 个不同城市的街景中录制的各种立体视频序列，除了更大的 20 000 个弱注释帧集外，还有 5 000 帧的高质量像素级注释。
Kitti	自动驾驶数据集，对象检测和对象方向估计基准由 7481 张训练图像和 7518 张测试图像组成，总共包括 80.256 个标记对象。所有图像都是彩色的，并保存为 png。为了进行评估，我们计算了用于对象检测的精度-召回曲线和用于联合对象检测和方向估计的方向-相似性-召回曲线。在后一种情况下，不仅必须正确定位对象的 2D 边界框，还必须评估鸟瞰视图中的方向估计。
OxfordIIITPet	我们创建了一个包含 37 个类别的宠物数据集，其中包含大约 200 张图像每个类。这些图像在比例、姿势和照明。所有图像都有关联的 Ground Truth 注释 breed、head ROI 和像素级 trimap 分割。
SBDataset	语义边界数据集 (SBD) 是用于预测对象边界上的像素的数据集（与语义分割的对象内部相反）。该数据集由来自 PASCAL VOC2011 挑战的 trainval 集的 11318 张图像组成，分为 8498 张训练图像和 2820 张测试图像。该数据集具有对象实例边界和精确的图形/地面掩码，这些掩码也标有 20 个 Pascal VOC 类之一。
VOCSegmentation	PASCAL VOC数据集是计算机视觉领域中分割（segmentation）任务的基准数据集。20类别11530张图片、27450个标注、6929个分割。
VOCDetection	PASCAL VOC数据集是计算机视觉领域中目标检测（object detection）任务的基准数据集。20类别11530张图片、27450个标注、6929个分割。
WIDERFace	WIDER FACE 数据集是一个人脸检测基准数据集，其中的图像是从公开的 WIDER 数据集中选择的。我们选择了 32,203 张图像，并标记了 393,703 张面孔，这些面孔在比例、姿势和遮挡方面具有高度可变性，如示例图像所示。WIDER FACE 数据集基于 61 个事件类进行组织。对于每个事件类，我们随机选择 40%/10%/50% 数据作为训练、验证和测试集。

光流

数据集	说明
FlyingChairs	“Flying Chairs” 是一个具有光流地面实况的合成数据集。它由 22872 个图像对和相应的流场组成。图像显示了 3D 椅子的渲染模型在来自 Flickr 的随机背景前移动。椅子和背景的运动都是纯平面的。
FlyingThings3D	该集合包含超过 39000 个分辨率为 960x540 像素的立体帧，由各种合成序列渲染。
HD1K	这是一个独立的驾驶数据集和光流基准测试。对于公共训练数据集，我们提供：> 2560x1080 的 1000 帧，具有不同的照明和天气场景，带光流误差线的参考数据，动态对象的评估掩码，在具有挑战性的场景中进行特定的鲁棒性评估。
KittiFlow	立体 2015 / flow 2015 / scene flow 2015 基准测试由 200 个训练场景和 200 个测试场景（每个场景 4 张彩色图像，以无损 png 格式保存）组成。
Sintel	用于评估光流的数据集，源自开源 3D 动画短片 Sintel。数据集的主要特点：超长序列大动作镜面反射运动模糊散焦模糊大气效果。

立体匹配

数据集	说明
CarlaStereo	链接在 CREStereo github repo 中的 Carla 模拟器数据。
Kitti2012Stereo	立体/流基准测试由 194 个训练图像对和 195 个测试图像对组成，以无损失 png 格式保存。我们的评估服务器计算所有未遮挡或遮挡（=所有真实）像素的平均坏像素数。我们要求所有方法对所有测试对使用相同的参数集。
Kitti2015Stereo	立体 2015 / flow 2015 / scene flow 2015 基准测试由 200 个训练场景和 200 个测试场景（每个场景 4 个彩色图像，以无损失 png 格式保存）组成。与 stereo 2012 和 flow 2012 基准测试相比，它包含动态场景，其地面实况已在半自动过程中建立。我们的评估服务器计算所有 200 张测试图像的所有地面实况像素的平均不良像素百分比。对于此基准，如果视差或流终点误差为 <3px 或 <5%，则我们认为可以正确估计像素（对于场景流，视差图和流图都需要满足此标准）。
CREStereo	用于训练 CREStereo 架构的合成数据集。CREStereo 的官方 MegEngine 实现（CVPR 2022 口头）。通过具有自适应关联的级联循环网络进行实际立体匹配。
FallingThingsStereo	我们提出了一个名为 Falling Things （FAT）的新数据集，用于在机器人技术环境中推进物体检测和 3D 姿态估计的最新技术。通过综合组合复杂构图和高图形质量的物体模型和背景，我们能够为所有图像中的所有物体生成具有准确 3D 姿态注释的逼真图像我们的数据集包含从 YCB 数据集中拍摄的 21 个家庭物体的 60k 注释照片。对于每个图像，我们为所有对象提供 3D 姿势、每像素类分割和 2D/3D 边界框坐标。为了便于测试不同的输入模式，我们提供了单声道和立体 RGB 图像，以及配准的密集深度图像。我们详细描述了数据的生成过程和统计分析。
SceneFlowStereo	该数据集集合已用于训练卷积网络，在我们的 CVPR 2016 论文 A Large Dataset to Train Convolutional Networks for Disparity， Optical Flow， and Scene Flow Estimation 中。在这里，我们免费提供所有生成的数据。该集合包含超过 39000 个分辨率为 960x540 像素的立体帧，这些帧由各种合成序列渲染。
SintelStereo	MPI Sintel 立体训练数据，
InStereo2k	InStereo2K 包含 2050 对具有高精度视差图的图像（2000 对用于训练，50 对用于测试）。我们希望它可以提高深度立体匹配网络的泛化性能。
ETH3DStereo	ETH3D低分辨率两视角数据集。
Middlebury2014Stereo	立体声2014数据集公开可用场景。每个数据集由在几个不同的照明和曝光下拍摄的 2 个视图组成。

图像对

数据集	说明
LFWPairs	LFW (Labeled Faces in the Wild) 人脸数据集是目前人脸识别领域常用的测试集，专门用于研究非受限环境下的人脸识别问题。该数据集包含从互联网收集的 13,233 张人脸图像，涉及 5,749 个人，每张图像均标注对应的人名。其中 1,680 个人拥有两张或更多的照片。由于图片来源于真实世界的自然场景，LFW 数据集存在多姿态、光照变化、表情差异、年龄跨度和遮挡等问题，使得人脸识别任务更加具有挑战性。此外，一些图像中可能包含多个面孔，仅以中心坐标的面孔作为目标，其余部分视为背景干扰。LFW 数据集中大部分图像为 250×250 的彩色图像，但也包含少量黑白照片。
PhotoTour	在本文中，我们介绍了 BlendedMVS，这是一种新颖的大规模数据集，为基于学习的 MVS 提供足够的训练地面实况。为了创建数据集，我们应用了一个 3D 重建管道，从精心选择的场景的图像中恢复高质量的纹理网格。

图像描述

数据集	说明
CocoCaptions	MS COCO Captions 数据集是一个大型数据集，包含超过 3000 万张图像，每张图像都附有五种不同的自然语言描述。这些描述由不同的背景注释者提供，确保了多样性和丰富性。该数据集以其高质量和多样性而闻名，使其对于训练和评估图像描述生成模型很有价值。它还用于多模态学习和计算机视觉研究。

视频分类

数据集	说明
HMDB51	HMDB51 数据集是来自各种来源（包括电影和 Web 视频）的大量真实视频集合。该数据集由来自 51 个动作类别（如 “跳跃”、“亲吻” 和 “大笑”）的 6766 个视频剪辑组成，每个类别至少包含 101 个剪辑。
Kinetics	Kinetics 数据集是一个大规模、高质量的数据集，用于视频中的人体动作识别，涵盖 600 个人体动作类，每个动作类至少有 600 个视频剪辑.另一个数据集 Kinetics-GEB+ 由超过 170k 个边界组成，这些边界与描述 12K 视频中通用事件状态变化的字幕相关联。
UCF101	UCF101 是一个动作识别数据集，由从 YouTube 收集的逼真动作视频组成，具有 101 个动作类别。该数据集是 UCF50 数据的扩展集，具有 50 个动作类别。

视频预测

数据集	说明
MovingMNIST	移动 MNIST [782Mb] 包含 10,000 个长度为 20 的序列，显示 2 个数字在 64 x 64 帧中移动。

转载请注明转自www.hylab.cn，原文地址：PyTorch内置torchvision数据集简介

请登录后发表评论

暂无评论，快来发表第一条评论吧！