深度学习:语音识别技术实践
上QQ阅读APP看书,第一时间看更新

1.10 语音识别语料库

本节讲解几个常用的语音识别语料库,更多的语料库可以从OpenSLR网站(http:// www.openslr. org/)下载。OpenSLR是一个致力于托管语音和语言资源的站点,例如用于语音识别的训练语料库和与语音识别相关的软件。

1.10.1 TIMIT语料库

TIMIT语料库有着准确的音素标注,可以应用于语音分割性能评价,同时含有几百个说话者语音,所以它也是评价说话者语音识别常用的权威语料库。

TIMIT语料库旨在提供语音数据和自动语音识别系统的开发和评估。TIMIT包含630个说话者的宽带录音,8个主要方言区的美式英语,每个人阅读10个语音丰富的句子。TIMIT语料库包括时间对齐的单词内容、语音和单词转录及每个话语的16位、16kHz语音波形文件。语料库设计是麻省理工学院(MIT)、斯坦福国际研究院(SRI)和得州仪器公司(TI)共同的努力成果。演讲在得州仪器公司录制,转录在麻省理工学院,并由美国国家标准技术研究所(NIST)验证。

1.10.2 LibriSpeech语料库

LibriSpeech语料库是一个大型英语阅读语料库。来自LibriVox项目的有声读物,采样频率为16kHz。该库的口音是多种多样的,没有标记,但大多数是美式英语。LibriSpeech语料库还有单独准备好的语言模型训练数据和预建好的语言模型。

1.10.3 中文语料库

中文的语音识别公共数据集共有以下3个。


gale_mandarin:中文新闻广播数据集。

hkust:中文电话数据集。

thchs30:清华大学30小时数据集。


有些数据集中包含Linux链接文件。