torchaudio数据集

创建日期:2025-05-01
更新日期:2025-05-01

torchaudio数据集

数据集说明
CMUARCTIC语音合成数据集,包含 4 种语音风格(如 bdl 男声、slt 女声)。
CMUDictCMU Pronouncing Dictionary [Weide, 1998] (CMUDict) dataset.
COMMONVOICE多语言开源语音数据集(如英语、中文),包含多样化的说话人录音及文本。
DR_VCTKDevice Recorded VCTK (Small subset version) [Sarfjoo and Yamagishi, 2018] dataset.
FluentSpeechCommandsFluent Speech Commands [Lugosch et al., 2019] dataset
GTZAN音乐流派分类数据集,包含 10 类音乐(如摇滚、爵士),每类 100 条 30 秒片段。
IEMOCAPIEMOCAP [Busso et al., 2008] dataset.
LibriMixLibriMix [Cosentino et al., 2020] dataset.
LIBRISPEECHLibriSpeech [Panayotov et al., 2015] dataset.
LibriLightLimitedSubset of Libri-light [Kahn et al., 2020] dataset, which was used in HuBERT [Hsu et al., 2021] for supervised fine-tuning.
LIBRITTS高质量语音合成数据集,基于 LibriSpeech 的文本生成自然语音。
LJSPEECHLJSpeech-1.1 [Ito and Johnson, 2017] dataset.
MUSDB_HQMUSDB_HQ [Rafii et al., 2019] dataset.
QUESST14语音检索数据集,用于跨语言关键词搜索任务。
SnipsSnips [Coucke et al., 2018] dataset.
SPEECHCOMMANDS短语音指令数据集,包含 35 种英文单词(如 "yes", "no", "stop"),采样率 16kHz。
TEDLIUMTED 演讲录音数据集,包含高质量英文演讲及转录文本。
VCTK_092VCTK 0.92 [Yamagishi et al., 2019] dataset
VoxCeleb1Identification大规模说话人识别数据集,包含名人采访视频的音频片段。
VoxCeleb1Verification大规模说话人识别数据集,包含名人采访视频的音频片段。
YESNO希伯来语 "yes" 和 "no" 的录音数据集,每个音频包含 8 个单词序列。

简介

一个来自三线小城市的程序员开发经验总结。