Python和NLTK自然语言处理 - (EPUB全文下载)

文件大小:0.45 mb。
文件格式:epub 格式。
书籍内容:

Python和NLTK自然语言处理
模块1 NLTK基础知识
第1章 自然语言处理简介
第2章 文本的整理和清洗
第3章 词性标注
第4章 对文本的结构进行语法分析
第5章 NLP应用
第6章 文本分类
第7章 网络爬取
第8章 与其他Python库一同使用NLTK
第9章 使用Python进行社交媒体挖掘
第10章 大规模的文本挖掘
模块2 使用Python 3的NLTK 3进行文本处理
第1章 标记文本和WordNet的基础
第2章 替换和校正单词
第3章 创建语料库
第4章 词性标注
第5章 提取组块
第6章 转换组块与树
第7章 文本分类
第8章 分布式进程和大型数据集的处理
第9章 解析特定的数据类型
附录A 宾州treebank词性标签
模块3 使用Python掌握自然语言处理
第1章 使用字符串
第2章 统计语言模型
第3章 词语形态学——试一试
第4章 词性标注——识别单词
第5章 解析——分析训练数据
第6章 语义分析——意义重大
第7章 情感分析——我很高兴
第8章 信息检索——访问信息
第9章 话语分析——知识就是信仰
第10章 NLP系统的评估——性能分析
参考书目
模块1 NLTK基础知识
使用NLTK和其他Python库构建炫酷的NLP和机器学习应用
第1章 自然语言处理简介
本书将从自然语言处理(NLP)简介开始讲述。语言是我们日常生活的核心部分,处理与语言相关的任何问题都是非常有趣的。我希望此书能够让你一嗅NLP的芬芳,激励你去了解更令人惊奇的NLP概念,并鼓励你开发一些具有挑战性的NLP应用。
研究人类语言的过程称为NLP。深入研究语言的人称为语言学家,而“计算语言学家”这个专有名词适用于应用计算研究语言处理的人。从本质上讲,计算语言学家是深入了解语言的计算机科学家,计算语言学家可以运用计算技能,对语言的不同方面进行建模。计算语言学家解决的是语言理论方面的问题,NLP只不过是计算语言学的应用。
NLP更多探讨的是应用计算机,处理不同语言的细微差别,以及使用NLP技术构建现实世界的应用。在实际情景下,NLP类似于教孩子学语言。一些最常见的任务(如理解单词和句子,形成在语法和结构上正确的句子)对人类而言是很自然。在NLP领域,把这样的一些任务转化为标记解析(tokenization)、组块(chunking)、词性标注(part of speech tagging)、解析(parsing)、机器翻译(machine translation)、语音识别(speech recognition),这些任务中的大部分依然是计算机所面临的最严峻的挑战。本书假设读者都有一些NLP方面的背景,因此更多探讨的是NLP的实践方面。本书期望读者,对编程语言有一些最基本的理解,并对NLP和语言感兴趣。
本章主要内容如下。
NLP及其相关概念。
安装Python、NLTK和其他库的方法。
编写一些非常基本的Python和NLTK代码片段的方法。
如果你从来没有听说过NLP这个词,那么请花一些时间来阅读这里提到的任何一本书籍,只要阅读最初几章即可。至少要快速阅读一些与NLP相关的维基百科网页。
由Daniel Jurafsky和James H. Martin合著的《Speech and Language Processing》。
由Christopher D. Manning和Hinrich Schütze合著的《Statistical Natural Language Processing》。
1.1 为什么要学习NLP
本节从Gartner的技术成熟度曲线开始讨论,从这条曲线上,你可以清楚地看到NLP处在技术成熟度曲线的顶部。目前,NLP是行业所需的稀有技能之一。在大数据到来之后,NLP面临的主要的挑战是,NLP需要大量不但精通结构化数据而且擅长于处理半结构化或非结构化数据的技术人员。我们正在生成拍字节量级的网络博客、推特信息、脸书(Facebook)的推送信息、聊天记录、电子邮件和评论。一些公司正在收集所有这些不同种类的数据,以便更好地为客户定位,并从中得到有意义的见解。为了处理这些非结构化数据源,我们需要了解NLP的技术人员。
我们身处信息时代;我们甚至不能想象生活中没有谷歌。我们使用Siri来处理大多数基本的语音功能。我们使用垃圾邮件过滤器过滤垃圾邮件。在Word文档中,我们需要拼写检查器。在我们周围,存在许多NLP在现实世界中应用的例子。
(图片来自gartner网站)
下面也提供一些你能够使用但是没有意识它们是建立在NLP上的令人赞叹的NLP应用的示例。
拼写校正(微软的Word/任何其他编辑器)
搜索引擎(谷歌、必应、雅虎和WolframAlpha)
语音引擎(Siri和谷歌语音)
垃圾邮件分类(所有的电子邮件服务)
新闻推送(谷歌和雅虎等)
机器翻译(谷歌翻译等)
IBM的沃森
构建这些应用需要一种非常特殊的技能集,你需要对语言非常了解,并具有可以有效处理语言的工具。因此,让NLP成为最具优势的领域之一的原因不是广告宣传,而是可以使用NLP创建的这种应用使得NLP成为必备的最独特技能之一。
为了实现上述的一些应用,以及其他基本的NLP预处理,我们有很多可用的开源工具。在这些工具中,有一些是某些组织为建立自己的NLP应用而开发的,而有一些是开源的。这里是一张可用的NLP工具列表。
GATE
Mallet
Open NLP
UIMA
斯坦福工具包
Genism
自然语言工具包(NLTK)
大部分工具是用Java编写的,具有相似的功能。其中一些工具非常健壮,可以获得NLP工具的不同版本。但是,当涉及易于使用和易于解释这两个概念的时候,NLTK得分最高。由于Python(NLTK的编码语言)的学习曲线非常快,因此NLTK也是非常易于学习的工具包。NLTK已经将大部分的NLP任务纳入篮中,非常优雅,容易用于工作中。出于所有这些原因,NLTK已成为NLP界最流行的库之一。
本书假设所有读者都了解P ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » Python和NLTK自然语言处理 - (EPUB全文下载)