Kaldi语音识别实战 - (EPUB全文下载)
文件大小:1.14 mb。
文件格式:epub 格式。
书籍内容:
内容简介
刚刚过去的十年是语音技术发展的黄金十年。2010年前后,从谷歌公司发布第一个语音搜索应用、苹果公司发布第一个语音助手Siri开始,语音技术的发展转瞬进入了快车道。语音技术的基础算法不断推陈出新,语音任务Benchmark持续被刷新;语音产品的应用也从一开始很小众的语音输入,逐渐渗透到人们生活的方方面面。
语音产业飞速发展,传统的语音技术教材已经满足不了该领域从业者的迫切需求。本书以目前流行的开源语音识别工具Kaldi为切入点,深入浅出地讲解了语音识别前沿的技术及它们的实践应用。本书的作者们拥有深厚的学术积累及丰富的工业界实战经验。
本书适合语音技术相关研究人员及互联网从业人员学习参考。
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。
版权所有,侵权必究。
图书在版编目(CIP)数据
Kaldi语音识别实战/陈果果等著.—北京:电子工业出版社,2020.4
ISBN 978-7-121-37874-4
Ⅰ.①K… Ⅱ.①陈… Ⅲ.①语音识别-软件包 Ⅳ.①TN912.34
中国版本图书馆CIP数据核字(2019)第251244号
责任编辑:刘 皎
印 刷:
装 订:
出版发行:电子工业出版社
北京市海淀区万寿路173信箱 邮编:100036
开 本:720×1000 1/16 印张:21 字数:365千字
版 次:2020年4月第1版
印 次:2020年4月第1次印刷
定 价:89.00元
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。
质量投诉请发邮件至zlts@phei.com.cn,盗版侵权举报请发邮件至dbqq@phei.com.cn。
本书咨询联系方式:010-51260888-819,faq@phei.com.cn。
序1
最近这段时间我的生活有了一些戏剧性的变化,大家可以从一些新闻(比如《纽约时报》)中看到具体的报道。因为这些变化,我目前暂时在做一些咨询的工作,也因此有机会到世界各处巡游。比如此时此刻,在为这本书写序的时候,我正在土耳其伊斯坦布尔的一家小咖啡馆里。写序其实并不是一个我所擅长的事情,相对来说,我更喜欢写程序,但是我会尽我所能为这本书写序。
计算机软件很少有处在稳定状态的,对于Kaldi来说尤其如此。用鲨鱼的例子来做类比,鲨鱼是从来不休息的,必须通过持续的运动才能生存;Kaldi也是这样,这些年来一直都在一刻不停地、持续地发展壮大。当然,发展是一把双刃剑,这么高速的发展给Kaldi带来了很多发展红利,也不可避免地带来了问题。事实上,在当前版本的Kaldi开发中,我们做出了不少正确的决定,但是回过去看,也有不少不尽如人意的设计。因此,我目前正在为Kaldi规划一些比平常大得多的改动,比如更好地支持当前主流的机器学习框架,例如PyTorch。当然,Kaldi大部分的特性都会保持不变,因此我相信这本书的内容会一直有很大的参考价值。
Kaldi最宝贵的资产其实一直都是Kaldi的开源社区。我相信这本书的出版能够极大地推动Kaldi开源社区的持续发展。对我个人来说,无论将来在哪里工作,我也都会继续全身心地投入到Kaldi项目中。
Daniel Povey 2019年9月27日
作者 译 2019年9月27日
序2
在最近的十年里,语音识别、语音合成和语音信号处理都有了长足的发展。这些发展一方面归功于研究人员在语音处理领域引入了一系列新的研究成果,比如序列上的区分度训练和基于深度学习的识别和合成框架,另一方面得益于用户在移动互联网时代对语音技术的应用需求和与之对应的海量数据和强大计算力,这些因素互相促进,极大地推动了语音技术的发展,并使得语音技术的性能指标在几年前就超过了用户的使用门槛,催生了大量的实际应用。
在技术和应用的发展过程中,工具一直占有着重要的地位,比如,TensorFlow、PyTorch、CNTK、MXNet等深度学习工具的出现极大地推动了深度学习的发展。而语音系统链路复杂,涉及的技术模块多样,所需的领域知识点繁多,对工程优化的要求高,好的工具就显得尤为重要。早期的语音识别的发展大大得益于HTK和Sphinx工具集,而在最近的十年里,Kaldi工具箱对于语音技术的普及和研发起到了举足轻重的作用。
Kaldi起源于2009年的约翰霍普金斯大学夏季研讨会,当时我在微软研究院语音与对话研究组的同事Dan Povey博士提出了Subspace Gaussian Mixture Model(SGMM),并在研讨会上组织研究了这个模型。作为这个研究的一个副产品,他们开始整理和开发一个新的语音技术工具箱Kaldi,并采用了开源的开发模式。经过十年的发展,Kaldi已经成为深度学习时代主流的语音技术工具箱,集成了大量的最新进展和最优脚本,极大地降低了语音技术的研究和应用门槛。
不过,Kaldi是一个持续发展中的开源项目,它的文档大大落后于代码。本书作者们基于自己多年的一线语音研发和 Kaldi 使用经验,深入浅出地介绍了语音识别各个模块的原理及Kaldi中各种实践技巧的来龙去脉和使用方法,极大地弥补了Kaldi文档方面的缺陷,降低了Kaldi的学习和使用门槛,有助于Kaldi的进一步推广和开发。
俞栋 IEEE Fellow,腾讯人工智能实验室副主任
2019年9月28日于西雅图
好评来袭
颜永红
中国科学院语言声学与内容理解重点实验室主任
Kaldi 开源软件对推动语音技术研究和产品落地做出了不可磨灭的贡献,本书作者是工作在语音研究和产业前沿的青年才俊,他们以第一手经验详细讲解了如何运用该软件构建实际系统,这对初学者迅速掌握相关知识和技能是非常有益的。
俞凯
上海交通大学智能语音技术实验室主任,思必驰联合创始人、首席科学家
我和Dan Povey博士十几年前在剑桥大学共事时,使用的是早期最著名的语音识别开源软件之一:HTK ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Kaldi语音识别实战 - (EPUB全文下载)