正在加载图片...
第4卷第3期 智能系统学报 Vol.4 No.3 2009年6月 CAAI Transactions on Intelligent Systems Jn.2009 doi:10.3969/j.issn.16734785.2009.03.013 利用人类计算技术的语音语料库 标注方法及其实现 沈映泉1,刘勇进',蔡骏2,史晓东 (1.暖门大学智能科学与技术系,福建厦门361005;2.Groupe Parole,L0RIA-CNRS&INRIA,BP239,54600Van- doeuvre-les-Nancy,France) 摘要:提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Wb的语言学习系 统来收集由大量学习者(用户)输人的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确 标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的 可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的 人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技 术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标 注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注. 关键词:语音语料库标注;人类计算;分布式知识获取;基于W©b的语言学习 中图分类号:TP39文献标识码:A文章编号:16734785(2009)03027008 Method and implementation of transcribing speech corpora based on human-computation SHEN Ying-quan',LIU Yong-jin',CAI Jun12,SHI Xiao-dong' (1.Department of Cognitive Science,Xiamen University,Xiamen 361005,China;2.Groupe Parole,LORIA-CNRS INRIA,BP 239,54600 Vandoeuvre-les-Nancy,France) Abstract:A new method is proposed for generating transcriptions of speech corpora based on human-computation. The method depends on collection of orthographic transcriptions and phonetic transcriptions from a large number of users by using a Web-based language learning system and choosing commonly-used labels as the transcriptions of the speech corpora.In order to guarantee the quality of transcriptions,some computer-aided mechanisms are also used to verify the collected transcriptions.This method combines speech data transcribing with language leaming and cuts down the cost of transcribing corpora effectively.The technology of human-computation-based speech cor- pora transcribing and the detailed design of language leamning system have been discussed,transcriptions generation system has also been expatiated in this article.The application of system shows that this method is an effective and economical way to generate orthographic and phonetic transcriptions. Keywords:speech corpora transcription;human-computation;distributed knowledge acquisition;Web-based lan- guage leaming 在语音识别系统的开发中,对语音语料库进行正 言模型的必要条件.然而,为大规模语音语料库添加 确的词汇标注(orthographic transcription)和音标标注 词汇标注和音标标注是一项需要投入大量人力、物力 (phonetic transcription)是建立有效的语音模型和语 资源的任务.由于现有的语音识别系统无法实现语音 语料库的自动标注,故添加词汇和音标标注往往只能 收稿日期:20080702. 通过手工标注来完成.不论是进行词汇标注还是音标 基金项目:国家留学基金资助项目(2006104705):福建省自然科学基 金资助项目(2006J0043):厦门大学“985工程”二期信息 标注,其本质都是将与语音集合对应的标注信息添加 创新平台资助项目(0000-X07204). 通信作者:蔡骏.E-mail:hun.Cai@ulh.ac.be,Jm.Cai@loria.五. 到语料库中.这样的语音标注任务在信息添加的内容
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有