PyTorch内置torchaudio数据集简介

创建日期:2025-05-01
更新日期:2025-05-20

官方文档:torchaudio.datasets — Torchaudio 2.7.0 documentation

torchaudio数据集

数据集说明
CMUARCTICCMU ARCTIC 数据集是由卡内基梅隆大学(CMU)语言技术研究所开发的一个语音合成研究数据库。包含约1,150个精心挑选的句子,这些句子设计为音素平衡。数据集包含4位母语为英语的说话人。
CMUDictCMU Pronouncing Dictionary (CMUDict) 是由卡内基梅隆大学(CMU)开发的一个开源发音词典,主要用于语音处理和研究。包含超过134,000个英语单词和短语的发音。
COMMONVOICECommon Voice 是 Mozilla 主导的一个开源多语言语音数据集,旨在为语音识别(ASR)和语音合成(TTS)研究提供高质量的众包语音数据。包含 100+ 种语言(如英语、中文、西班牙语、法语等)。
DR_VCTKDR-VCTK(//Dysarthric and Regular VCTK//)是一个专门用于语音障碍(Dysarthria)研究的扩展语音数据集,基于著名的 VCTK(Voice Bank Corpus) 数据集构建。它包含健康说话人和构音障碍(dysarthric)说话人的语音样本,旨在促进语音识别(ASR)、语音合成(TTS)和辅助技术的研究。
FluentSpeechCommandsFluent Speech Commands (FSC) 是一个专门为口语理解(SLU)任务设计的语音指令数据集,主要用于意图识别语义槽填充研究。该数据集包含大量日常语音指令及其对应的语义标注。97名英语母语者(性别分布均衡),约3万条语音样本(总时长约19小时)。
GTZANGTZAN 是音乐信息检索(MIR)领域最具影响力的音乐流派分类数据集之一,由George Tzanetakis于2002年创建,长期作为音乐自动分类算法的基准测试集。音乐流派分类数据集,包含 10 类音乐(如摇滚、爵士),每类 100 条 30 秒片段。
IEMOCAPIEMOCAP(Interactive Emotional Dyadic Motion Capture)是由南加州大学(USC)创建的多模态情感识别数据集,广泛应用于语音情感识别、面部表情分析和对话情绪研究领域。
LibriMixLibriMix 是一个专为语音分离语音增强研究设计的开源数据集,基于著名的 LibriSpeech 语料库构建。该数据集提供了多种混合语音场景,支持单通道和多通道语音分离算法的开发与评估。
LIBRISPEECHLIBRI SPEECH‌ 是一个广泛用于自动语音识别(ASR)研究的开源数据集,由朗读英语有声读物的语音数据及其对应文本组成。以下是该数据集的关键信息:
LibriLightLimitedLIBRI LIGHT-LIMITED‌ 是Facebook AI Research(FAIR)推出的一个语音数据集,旨在支持大规模无监督或半监督语音表示学习和语音识别研究。它是‌Libri-Light‌数据集的子集,专注于有限标注数据的场景。以下是该数据集的关键信息:
LIBRITTSLIBRITTS‌ 是一个专为‌文本到语音合成(Text-to-Speech, TTS)‌任务设计的开源数据集,基于LibriVox的有声读物构建。与LibriSpeech不同,LibriTTS更强调语音的自然流畅性和韵律特征,适用于训练高质量的语音合成模型。
LJSPEECHLJSPEECH‌ 是一个经典的开放领域单说话人英语语音数据集,专为‌文本到语音合成(Text-to-Speech, TTS)‌任务设计。它以其高质量的录音和清晰的发音被广泛用于训练端到端语音合成模型(如Tacotron 2、WaveNet)。
MUSDB_HQMUSDB_HQ‌ 是一个开源的高质量多轨音乐数据集,专为‌音乐源分离(Music Source Separation)‌任务设计,包含多乐器/人声的独立音轨。它是原始MUSDB数据集的升级版,提供更高的音频质量(24位WAV格式),适用于研究和开发音频分离算法。
QUESST14QUESST14‌ 是一个专为‌音频查询检测(Query-by-Example Search on Speech and Audio Tasks)‌任务设计的开源数据集,主要用于研究在跨语言、低资源或嘈杂环境下,如何通过短音频片段(查询)从长音频中检索相似内容。
SnipsSnips‌ 是一个面向‌语音助手开发‌的开源数据集,专注于‌语音唤醒(Wake Word Detection)‌和‌自然语言理解(NLU)‌任务,适用于智能家居、IoT设备等场景。最初由Snips公司(后被Sonos收购)发布,支持多语言且包含丰富的语义标注。
SPEECHCOMMANDSSPEECHCOMMANDS‌ 是一个由Google发布的轻量级开源数据集,专为‌语音命令识别(Keyword Spotting, KWS)‌任务设计,用于训练和验证关键词唤醒(如“Hey Google”)或短指令识别模型。其低资源需求和高实用性使其成为边缘设备(如IoT设备)语音交互开发的基准数据集。
TEDLIUMEDLIUM‌ 是一个基于‌TED演讲录音‌构建的开源语音识别数据集,专为‌大规模英语语音识别(ASR)‌任务设计,适用于训练和评估端到端语音转文本(Speech-to-Text)模型。其高质量的人工校对转录和丰富的主题覆盖使其成为学术界和工业界的基准数据集之一。
VCTK_092VCTK_092‌ 是‌VCTK(Voice Cloning Toolkit)数据集‌的一个子集,专为‌多说话人语音合成(Multi-speaker TTS)‌和‌语音转换(Voice Conversion)‌任务设计,包含高质量多说话人录音及文本对齐信息。由英国爱丁堡大学CSTR(Centre for Speech Technology Research)发布,广泛用于学术界和工业界的语音生成研究。
VoxCeleb1IdentificationVoxCeleb1 Identification‌ 是‌VoxCeleb数据集‌的子集,专为‌闭集说话人识别(Speaker Identification)‌任务设计,包含大量名人采访视频的音频片段,用于训练和验证说话人身份鉴别模型。由英国牛津大学工程科学系于2017年发布,成为声纹识别领域的核心基准之一。
VoxCeleb1VerificationVoxCeleb1 Verification‌ 是‌VoxCeleb数据集‌的子集,专为‌开集说话人验证(Speaker Verification)‌任务设计,用于评估模型判断两段语音是否属于同一说话人的能力(即“1:1比对”)。作为声纹识别领域的核心评测基准,其真实场景录音和严格的测试协议被广泛用于学术论文与工业界技术验证。
YESNOYESNO‌ 是一个小型‌孤立词语音识别数据集‌,专为入门级语音命令识别或简单语音序列建模设计,包含由单个说话人录制的“yes”和“no”组成的短音频序列。由开源社区维护,常用于验证语音识别模型的基础架构或教学演示。

转载请注明转自www.hylab.cn,原文地址:PyTorch内置torchaudio数据集简介

网站简介

一个来自三线小城市的程序员开发经验总结。