searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

常用语音数据集介绍(1)

2023-05-08 03:35:59
799
0

随着近年来人工智能和语音技术的飞速发展,越来越多的开发者需要获取大量高质量的语音数据集来训练和优化各种语音识别和生成系统。为了满足这个需求,本文将为您介绍一些涵盖多种语言的优秀语音数据集。

【多种语言】

Mozilla Common Voice

Mozilla Common Voice 是一个庞大的多语言语音数据集,其时长达到了1965小时。数据集始于2017年,持续更新,共收录了29种不同语言的语音数据,其中包括汉语。该数据集的特点是多样性,收集了全球范围内的语音贡献者的年龄、性别和口音等元数据,方便语音引擎的训练。数据集下载地址:https://voice.mozilla.org/data

Tatoeba

Tatoeba 是一个大型的翻译和口语音频数据库,项目始于2006年,主要收集面向外语学习者的例句。数据集包括真人发音的例句,可以直接点击收听。下载地址:https://tatoeba.org/eng/downloads

【英语】

VOiCES Dataset

VOiCES 数据集是一个在复杂环境中采集的英语语音数据集,共计15小时,包含了3903个音频文件,参与人数达到300人。数据集的特点是其复杂的环境和背景噪声,适用于声学研究、说话人识别、语音识别等领域。下载地址:https://voices18.github.io/downloads/

LibriSpeech

LibriSpeech 数据集是一个由1000小时、16kHz读取英语演讲的语料库组成的有声读物数据集。经过切割和整理,适用于自然语音理解和分析挖掘。下载地址:http://www.openslr.org/12/

2000 HUB5 English

2000 HUB5 English 数据集主要包含英语电话对话的语音数据,由NIST 2000年发起的HUB5评估中使用。推荐应用方向为音乐、人声、车辆、乐器、室内等自然和人物声音识别。下载地址:https://catalog.ldc.upenn.edu/LDC2002T43

VoxForge

VoxForge 数据集主要包含带口音的清晰英语语音数据,适用于提升不同口音或语调鲁棒性的场景。推荐应用方向为语音识别。下载地址:http://www.voxforge.org/home/downloads

VoxCeleb

VoxCeleb 是一个大型人声识别数据集,包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音和年龄,覆盖了大量的专业领域。数据集适用于说话人识别、语音识别和声音研究。下载地址:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

【汉语】

THCHS-30

THCHS-30 是一个由中科院声学研究所和清华大学共同制作的汉语语音识别数据集。数据集包含了 30 小时的中文语音数据,共有 1000 个句子,涉及 133 个说话人。数据集适用于汉语语音识别研究。下载地址:http://www.openslr.org/18/

AISHELL

AISHELL 是一个普通话语音识别数据集,包含了约 170 个小时的中文语音数据。数据集涵盖了 400 个说话人,分布在各个年龄段和地区。数据集适用于中文语音识别和语音合成。下载地址:http://www.openslr.org/33/

ST-CMDS

ST-CMDS 数据集是由华为诺亚方舟实验室发布的一个中文远场语音数据集。数据集包含了 108 个小时的语音数据,涉及 855 名说话人,数据收集环境包括室内、室外以及车载等。数据集适用于远场语音识别和语音增强。下载地址:http://www.openslr.org/62/

CSLU: Chinese Mandarin CTS

CSLU: Chinese Mandarin CTS 是一个中文电话对话语音数据集。数据集包含了来自中国大陆不同地区的 180 个小时的电话对话录音。数据集适用于中文电话对话语音识别。下载地址:https://catalog.ldc.upenn.edu/LDC2005S13

HiVi: Spoken Chinese Gigaword

HiVi 数据集是一个规模庞大的中文语音数据集,包含了 60GB 的中文语音数据。数据集涵盖了各种口音、年龄和性别。适用于语音识别和自然语言处理研究。下载地址:https://catalog.ldc.upenn.edu/LDC2011T11

 

以上是一些常用的语音数据集,包含了多种语言,涵盖了各种应用场景,适用于语音识别、自然语言处理等多个领域。

0条评论
作者已关闭评论
b****n
4文章数
1粉丝数
b****n
4 文章 | 1 粉丝
原创

常用语音数据集介绍(1)

2023-05-08 03:35:59
799
0

随着近年来人工智能和语音技术的飞速发展,越来越多的开发者需要获取大量高质量的语音数据集来训练和优化各种语音识别和生成系统。为了满足这个需求,本文将为您介绍一些涵盖多种语言的优秀语音数据集。

【多种语言】

Mozilla Common Voice

Mozilla Common Voice 是一个庞大的多语言语音数据集,其时长达到了1965小时。数据集始于2017年,持续更新,共收录了29种不同语言的语音数据,其中包括汉语。该数据集的特点是多样性,收集了全球范围内的语音贡献者的年龄、性别和口音等元数据,方便语音引擎的训练。数据集下载地址:https://voice.mozilla.org/data

Tatoeba

Tatoeba 是一个大型的翻译和口语音频数据库,项目始于2006年,主要收集面向外语学习者的例句。数据集包括真人发音的例句,可以直接点击收听。下载地址:https://tatoeba.org/eng/downloads

【英语】

VOiCES Dataset

VOiCES 数据集是一个在复杂环境中采集的英语语音数据集,共计15小时,包含了3903个音频文件,参与人数达到300人。数据集的特点是其复杂的环境和背景噪声,适用于声学研究、说话人识别、语音识别等领域。下载地址:https://voices18.github.io/downloads/

LibriSpeech

LibriSpeech 数据集是一个由1000小时、16kHz读取英语演讲的语料库组成的有声读物数据集。经过切割和整理,适用于自然语音理解和分析挖掘。下载地址:http://www.openslr.org/12/

2000 HUB5 English

2000 HUB5 English 数据集主要包含英语电话对话的语音数据,由NIST 2000年发起的HUB5评估中使用。推荐应用方向为音乐、人声、车辆、乐器、室内等自然和人物声音识别。下载地址:https://catalog.ldc.upenn.edu/LDC2002T43

VoxForge

VoxForge 数据集主要包含带口音的清晰英语语音数据,适用于提升不同口音或语调鲁棒性的场景。推荐应用方向为语音识别。下载地址:http://www.voxforge.org/home/downloads

VoxCeleb

VoxCeleb 是一个大型人声识别数据集,包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音和年龄,覆盖了大量的专业领域。数据集适用于说话人识别、语音识别和声音研究。下载地址:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

【汉语】

THCHS-30

THCHS-30 是一个由中科院声学研究所和清华大学共同制作的汉语语音识别数据集。数据集包含了 30 小时的中文语音数据,共有 1000 个句子,涉及 133 个说话人。数据集适用于汉语语音识别研究。下载地址:http://www.openslr.org/18/

AISHELL

AISHELL 是一个普通话语音识别数据集,包含了约 170 个小时的中文语音数据。数据集涵盖了 400 个说话人,分布在各个年龄段和地区。数据集适用于中文语音识别和语音合成。下载地址:http://www.openslr.org/33/

ST-CMDS

ST-CMDS 数据集是由华为诺亚方舟实验室发布的一个中文远场语音数据集。数据集包含了 108 个小时的语音数据,涉及 855 名说话人,数据收集环境包括室内、室外以及车载等。数据集适用于远场语音识别和语音增强。下载地址:http://www.openslr.org/62/

CSLU: Chinese Mandarin CTS

CSLU: Chinese Mandarin CTS 是一个中文电话对话语音数据集。数据集包含了来自中国大陆不同地区的 180 个小时的电话对话录音。数据集适用于中文电话对话语音识别。下载地址:https://catalog.ldc.upenn.edu/LDC2005S13

HiVi: Spoken Chinese Gigaword

HiVi 数据集是一个规模庞大的中文语音数据集,包含了 60GB 的中文语音数据。数据集涵盖了各种口音、年龄和性别。适用于语音识别和自然语言处理研究。下载地址:https://catalog.ldc.upenn.edu/LDC2011T11

 

以上是一些常用的语音数据集,包含了多种语言,涵盖了各种应用场景,适用于语音识别、自然语言处理等多个领域。

文章来自个人专栏
文章 | 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0