Java自然语言处理 - (EPUB全文下载)
文件大小:0.41 mb。
文件格式:epub 格式。
书籍内容:
Java自然语言处理
第1章 NLP简介
1.1 什么是NLP
1.2 为何使用NLP
1.3 NLP的难点
1.4 NLP工具汇总
1.4.1 Apache OpenNLP
1.4.2 Stanford NLP
1.4.3 LingPipe
1.4.4 GATE
1.4.5 UIMA
1.5 文本处理概览
1.5.1 文本分词
1.5.2 文本断句
1.5.3 人物识别
1.5.4 词性判断
1.5.5 文本分类
1.5.6 关系提取
1.5.7 方法组合
1.6 理解NLP模型
1.6.1 明确目标
1.6.2 选择模型
1.6.3 构建、训练模型
1.6.4 验证模型
1.6.5 使用模型
1.7 准备数据
1.8 本章小结
第2章 文本分词
2.1 理解文本分词
2.2 什么是分词
2.3 一些简单的Java分词器
2.3.1 使用Scanner类
2.3.2 使用split方法
2.3.3 使用BreakIterator类
2.3.4 使用StreamTokenizer类
2.3.5 使用StringTokenizer类
2.3.6 使用Java核心分词法的性能考虑
2.4 NLP分词器的API
2.4.1 使用OpenNLPTokenizer类分词器
2.4.2 使用Stanford分词器
2.4.3 训练分词器进行文本分词
2.4.4 分词器的比较
2.5 理解标准化处理
2.5.1 转换为小写字母
2.5.2 去除停用词
2.5.3 词干化
2.5.4 词形还原
2.5.5 使用流水线进行标准化处理
2.6 本章小结
第3章 文本断句
3.1 SBD方法
3.2 SBD难在何处
3.3 理解LingPipe的HeuristicSentenceModel类的SBD规则
3.4 简单的Java SBD
3.4.1 使用正则表达式
3.4.2 使用BreakIterator类
3.5 使用NLP API
3.5.1 使用OpenNLP
3.5.2 使用Stanford API
3.5.3 使用LingPipe
3.6 训练文本断句模型
3.6.1 使用训练好的模型
3.6.2 使用SentenceDetectorEvaluator类评估模型
3.7 本章小结
第4章 人物识别
4.1 NER难在何处
4.2 NER的方法
4.2.1 列表和正则表达式
4.2.2 统计分类器
4.3 使用正则表达式进行NER
4.3.1 使用Java的正则表达式来寻找实体
4.3.2 使用LingPipe的RegExChunker类
4.4 使用NLP API
4.4.1 使用OpenNLP进行NER
4.4.2 使用Stanford API进行NER
4.4.3 使用LingPipe进行NER
4.5 训练模型
4.6 本章小结
第5章 词性判断
5.1 词性标注
5.1.1 词性标注器的重要性
5.1.2 词性标注难在何处
5.2 使用NLP API
5.2.1 使用OpenNLP词性标注器
5.2.2 使用Stanford词性标注器
5.2.3 使用LingPipe词性标注器
5.2.4 训练OpenNLP词性标注模型
5.3 本章小结
第6章 文本分类
6.1 文本分类问题
6.2 情感分析介绍
6.3 文本分类技术
6.4 使用API进行文本分类
6.4.1 OpenNLP的使用
6.4.2 Stanford API的使用
6.4.3 使用LingPipe进行文本分类
6.5 本章小结
第7章 关系提取
7.1 关系类型
7.2 理解解析树
7.3 关系提取的应用
7.4 关系提取
7.5 使用NLP API
7.5.1 OpenNLP的使用
7.5.2 使用Stanford API
7.5.3 判断共指消解的实体
7.6 问答系统的关系提取
7.6.1 判断单词依赖关系
7.6.2 判断问题类型
7.6.3 搜索答案
7.7 本章小结
第8章 方法组合
8.1 准备数据
8.1.1 使用Boilerpipe从HTML中提取文本
8.1.2 使用POI从Word文档中提取文本
8.1.3 使用PDFBox从PDF文档中提取文本
8.2 流水线
8.2.1 使用Stanford流水线
8.2.2 在Standford流水线中使用多核处理器
8.3 创建一个文本搜索的流水线
8.4 本章小结
第1章 NLP简介
自然语言处理(NLP)是一个宽泛的主题,它以借助计算机分析自然语言为核心,主要涉及语音处理、关系结构提取、文档分类、文本摘要等任务。不过,这些看似各异的任务都依赖于一些基本技术,包括分词、断句、分类和关系提取等,而本书也更侧重于这些基本技术的研究。首先,本章将详细讨论什么是NLP,为何NLP非常重要,以及NLP的具体应用领域有哪些。
很多语言和工具都支持NLP任务。本书主要讨论Java语言以及各种Java API如何支持NLP。本章首先介绍一些常用的API,包括Apache的OpenNLP、斯坦福的NLP库,以及LingPipe和GATE等。
接下来进一步分析前面提到的那些NLP基本技术。本书将基于NLP API介绍这些技术的基本原理及其具体使用方法。很多技术都会使用一些模型,这些模型可以看作一组规则,这些规则用于执行分词等任务。它们通常由从文件实例化的类表示。最后会说明如何为支持NLP任务准备数据。
NLP并不简单。虽然有些问题可以相对简单地解决,但大多数问题都需要使用非常复杂的技术。本书仅使读者对NLP处理技术有初步认识,使其在处理具体问题时能够使用相应的技术。
NLP是一个非常复杂的领域,本书通过Java实现一些核心的NLP任务,以帮助读者略窥自然语言处理中冰山的一角。在书中,通过Java SE SDK和OpenNLP、Stanford NLP等开源库展示了NLP的一些基本技术。使用这些库以前,需要将一些API JAR文件关联到相关API的项目中。关于这些库的说明可以参照1.4节,相关的下载链接 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Java自然语言处理 - (EPUB全文下载)