数据集 | 说明 |
CMUARCTIC | 语音合成数据集,包含 4 种语音风格(如 bdl 男声、slt 女声)。 |
CMUDict | CMU Pronouncing Dictionary [Weide, 1998] (CMUDict) dataset. |
COMMONVOICE | 多语言开源语音数据集(如英语、中文),包含多样化的说话人录音及文本。 |
DR_VCTK | Device Recorded VCTK (Small subset version) [Sarfjoo and Yamagishi, 2018] dataset. |
FluentSpeechCommands | Fluent Speech Commands [Lugosch et al., 2019] dataset |
GTZAN | 音乐流派分类数据集,包含 10 类音乐(如摇滚、爵士),每类 100 条 30 秒片段。 |
IEMOCAP | IEMOCAP [Busso et al., 2008] dataset. |
LibriMix | LibriMix [Cosentino et al., 2020] dataset. |
LIBRISPEECH | LibriSpeech [Panayotov et al., 2015] dataset. |
LibriLightLimited | Subset of Libri-light [Kahn et al., 2020] dataset, which was used in HuBERT [Hsu et al., 2021] for supervised fine-tuning. |
LIBRITTS | 高质量语音合成数据集,基于 LibriSpeech 的文本生成自然语音。 |
LJSPEECH | LJSpeech-1.1 [Ito and Johnson, 2017] dataset. |
MUSDB_HQ | MUSDB_HQ [Rafii et al., 2019] dataset. |
QUESST14 | 语音检索数据集,用于跨语言关键词搜索任务。 |
Snips | Snips [Coucke et al., 2018] dataset. |
SPEECHCOMMANDS | 短语音指令数据集,包含 35 种英文单词(如 "yes", "no", "stop"),采样率 16kHz。 |
TEDLIUM | TED 演讲录音数据集,包含高质量英文演讲及转录文本。 |
VCTK_092 | VCTK 0.92 [Yamagishi et al., 2019] dataset |
VoxCeleb1Identification | 大规模说话人识别数据集,包含名人采访视频的音频片段。 |
VoxCeleb1Verification | 大规模说话人识别数据集,包含名人采访视频的音频片段。 |
YESNO | 希伯来语 "yes" 和 "no" 的录音数据集,每个音频包含 8 个单词序列。 |