文本挖掘:基于R语言的整洁工具 - (EPUB全文下载)
文件大小:0.52 mb。
文件格式:epub 格式。
书籍内容:
文本挖掘:基于R语言的整洁工具
第1章 整洁文本格式
比较整洁文本结构与其他数据结构
unnest_tokens函数
整理Jane Austen的作品
gutenbergr包
词频
总结
第2章 基于整洁数据的情感分析
情感数据集
内连接的情感分析
比较三个情感词典
最常见的正面单词和负面单词
Wordclouds模块
除单词外的其他文本单元
总结
第3章 分析词和文件频率:tf-idf
Jane Austen小说中的词项频率
Zipf定律
bind_tf_idf函数
物理学语料库
总结
第4章 词之间的关系:n-gram及相关性
n-gram词条化
用widyr包对单词对计数并计算相关性
总结
第5章 非整洁格式转换
使文档–词项矩阵整洁
将整洁文本数据转换为矩阵
总结
第6章 主题建模
LDA
示例:博大的图书馆馆藏
LDA方法的替代实现
总结
第7章 案例研究:Twitter归档文件比较
单词使用情况的比较
单词使用情况的变化
收藏和转发
总结
第8章 案例研究:NASA元数据挖掘
NASA如何组织数据
共现单词与相关单词
计算描述字段的tf-idf
总结
第9章 案例研究:分析Usenet文本
预处理
新闻组中的单词
情感分析
总结
参考文献
作者简介
封面简介
第1章 整洁文本格式
使用整洁数据原则是一种更容易、更有效的数据处理方式,这在处理文本时也是如此。Hadley Wickham(Wickham,2014)认为整洁数据的结构为:
·每个变量是一列
·每次观察是一行
·每次观察的结果会构成一张表
因此,可将整洁的文本格式定义为表的每行都有一个词条(token)。词条是一个有意义的文本单元,例如在分析时感兴趣的单词,而词条化是将文本分解为词条的过程。这种每行一个词条(one-token-per-row)的结构与当前分析文本时采用字符串或文档–词项(document-term)矩阵的存储方式形成对比。对于整洁文本挖掘,存储在每行的词条通常是一个单词,但也可以是n-gram、句子或段落。tidytext包能通过常用文本单元来进行词条化的功能,并将其转换为每行一个词条的格式。
整洁数据集允许使用一套“简洁”工具进行操作,包括诸如dplyr(Wickham和Francois,2016),tidyr(Wickham,2016),ggplot2(Wickham,2009)和broom(Robinson,2017)等流行包。通过保证输入和输出为整洁表格的形式,用户在这些包之间的转换很容易。这些简洁工具能扩展到许多文本分析和研究中。
同时,tidytext软件包并不期望用户在分析过程中始终保证文本数据是整洁的。该软件包基于文本挖掘R包,例如tm(Feinerer等人,2008)和quanteda(Benoit和Nulty,2016),它包括tidy()对象(参见broom包)的功能。这个包可以使用诸如dplyr和其他整洁工具的工作流,即导入、过滤和处理文本,将数据转换为机器学习应用中的文档–词项矩阵,最后可用ggplot2将模型重新转换成整洁形式进行解释和可视化。
比较整洁文本结构与其他数据结构
如上所述,我们将整洁文本格式定义为每行一个词条形式的表。以这种方式构建文本数据是符合整洁数据原则的,可以通过一组一致的工具来进行操作。值得将其与经常在文本挖掘方法使用的文本存储方式进行比较:
字符串(String)
当然,文本可以作为字符串(即,字符向量)存储在R内,通常可以先将这种数据读入内存中。
语料(Corpus)
这些类型的对象通常含有原始字符串,同时还包含标注这些字符串的元数据和详细信息。
文档–词项矩阵(Document-term matrix)
这是一个描述文档集合(如语料库)的稀疏矩阵,该矩阵的行表示一个文档,列表示词项,矩阵的值通常是数字或tf-idf值(参见第3章)。
本书第5章还会继续探究语料和文档词–项矩阵,现在先了解将文本转换为整洁格式的基础知识。
unnest_tokens函数
Emily Dickinson写了一些可爱的文字。
text <- c("Because I could not stop for Death -",
"He kindly stopped for me -",
"The Carriage held but just Ourselves -",
"and Immortality")
text
## [1] "Because I could not stop for Death -" "He kindly stopped for me -"
## [3] "The Carriage held but just Ourselves -" "and Immortality"
这是一个我们可能想要分析的典型字符向量。为了将其变成一个整洁文本数据集,首先需要将其放入一个数据框(data frame)中。
library(dplyr)
text_df <- data_frame(line = 1:4, text = text)
text_df
## # A tibble: 4 × 2
## line text
##
## 1 1 Because I could not stop for Death -
## 2 2 He kindly stopped for me -
## 3 3 The Carriage held but just Ourselves -
## 4 4 and Immortality
这意味 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 文本挖掘:基于R语言的整洁工具 - (EPUB全文下载)