精通Python自然语言处理 - (EPUB全文下载)
文件大小:0.21 mb。
文件格式:epub 格式。
书籍内容:
精通Python自然语言处理
第1章 字符串操作
第2章 统计语言建模
第3章 形态学:在实践中学习
第4章 词性标注:单词识别
第5章 语法解析:分析训练资料
第6章 语义分析:意义很重要
第7章 情感分析:我很快乐
第8章 信息检索:访问信息
第9章 语篇分析:理解才是可信的
第10章 NLP系统评估:性能分析
欢迎来到异步社区!
第1章 字符串操作
自然语言处理(Natural Language Processing,NLP)关注的是自然语言与计算机之间的交互。它是人工智能(Artificial Intelligence,AI)和计算语言学的主要分支之一。它提供了计算机和人类之间的无缝交互并使得计算机能够在机器学习的帮助下理解人类语言。在编程语言(例如C、C++、Java、Python等)里用于表示一个文件或文档内容的基础数据类型被称为字符串。在本章中,我们将探索各种可以在字符串上执行的操作,这些操作将有助于完成各种NLP任务。
本章将包含以下主题:
文本切分。
文本标准化。
替换和校正标识符。
在文本上应用Zipf定律。
使用编辑距离算法执行相似性度量。
使用Jaccard系数执行相似性度量。
使用Smith Waterman算法执行相似性度量。
1.1 切分
切分可以认为是将文本分割成更小的并被称作标识符的模块的过程,它被认为是NLP的一个重要步骤。
当安装好NLTK包并且Python的交互式开发环境(IDLE)也运行起来时,我们就可以将文本或者段落切分成独立的语句。为了实现切分,我们可以导入语句切分函数,该函数的参数即为需要被切分的文本。sent_tokenize函数使用了NLTK包的一个叫作PunktSentenceTokenizer类的实例。基于那些可以标记句子开始和结束的字母和标点符号,NLTK中的这个实例已经被训练用于对不同的欧洲语言执行切分。
1.1.1 将文本切分为语句
现在,让我们来看看一段给定的文本是如何被切分为独立的句子的:
>>> import nltk
>>> text=" Welcome readers. I hope you find it interesting. Please do
reply."
>>> from nltk.tokenize import sent_tokenize
>>> sent_tokenize(text)
[' Welcome readers.', 'I hope you find it interesting.', 'Please do
reply.']
这样,一段给定的文本就被分割成了独立的句子。我们还可以进一步对这些独立的句子进行处理。
要切分大批量的句子,我们可以加载PunktSentenceTokenizer并使用其tokenize()函数来进行切分。下面的代码展示了该过程:
>>> import nltk
>>> tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')
>>> text=" Hello everyone. Hope all are fine and doing well. Hope you
find the book interesting"
>>> tokenizer.tokenize(text)
[' Hello everyone.', 'Hope all are fine and doing well.', 'Hope you
find the book interesting']
1.1.2 其他语言文本的切分
为了对除英文之外的其他语言执行切分,我们可以加载它们各自的pickle文件(可以在tokenizers/punkt里边找到),然后用该语言对文本进行切分,这些文本是tokenize()函数的参数。对于法语文本的切分,我们将使用如下的french.pickle文件:
>>> import nltk
>>> french_tokenizer=nltk.data.load('tokenizers/punkt/french.pickle')
>>> french_tokenizer.tokenize('Deux agressions en quelques jours,
voilà ce qui a motivé hier matin le débrayage collège franco-
britanniquede Levallois-Perret. Deux agressions en quelques jours,
voilà ce qui a motivé hier matin le débrayage Levallois. L'équipe
pédagogique de ce collège de 750 élèves avait déjà été choquée
par l'agression, janvier , d'un professeur d'histoire. L'équipe
pédagogique de ce collège de 750 élèves avait déjà été choquée par
l'agression, mercredi , d'un professeur d'histoire')
['Deux agressions en quelques jours, voilà ce qui a motivé hier
matin le débrayage collège franco-britanniquedeLevallois-Perret.',
'Deux agressions en quelques jours, voilà ce qui a motivé hier matin
le débrayage Levallois.', 'L'équ ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 精通Python自然语言处理 - (EPUB全文下载)