非常抱歉,我们暂时无法提供预览,您可以试试: 免费下载 ITU-R BS.1657 FRENCH-2003 前三页,或者稍后再访问。
您也可以尝试购买此标准,
点击右侧 “立即购买” 按钮开始采购(由第三方提供)。
具体而言,65%(438218小时)是英语音频和匹配的英语文本,大约18%(125739小时)是非英语音频和英语文本,而最后17%(117113小时)则是非英语音频和相应的文本。其中,非英语部分共包含98种不同语言。不过,虽然音频质量的多样性可以帮助提高训练模型的鲁棒性,但转录文本质量的多样性并不是同样有益的。初步检查显示,原始数据集中有大量不合格的、现有自动语音识别(ASR)系统生成的转录文本。...
Task 1包含了两个子任务,子任务task 1a的声学场景识别系统要求识别不同终端设备,比如手机、ipad或其它录音设备采集的音频,识别成不同的类别。如下图(左)所示,将不同设备不同场景采集的信号正确分类成“地铁站”、“公园”和“公共广场”。采用不同设备来评估场景识别系统就是为了验证系统对多种设备的鲁棒性。...
Copyright ©2007-2022 ANTPEDIA, All Rights Reserved
京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号