社交网站的数据挖掘与分析 - (EPUB全文下载)
文件大小:8.49 mb。
文件格式:epub 格式。
书籍内容:
O'Reilly精品图书系列
社交网站的数据挖掘与分析
Mining the Social Web
[美]罗塞尔(Russell,M.A.) 著
师蓉 译
ISBN:978-7-111-36960-8
本书纸版由机械工业出版社于2012年出版,电子版由华章分社(北京华章图文信息有限公司)全球范围内制作与发行。
版权所有,侵权必究
客服热线:+ 86-10-68995265
客服信箱:service@bbbvip.com
官方网址:www.hzmedia.com.cn
新浪微博 @研发书局
腾讯微博 @yanfabook
目 录
O'Reilly Media,Inc.介绍
业界评论
本书赞誉
译者序
前言
是否要阅读本书
还是不要阅读本书
工具和先决条件
本书约定
代码示例的使用
联系我们
致谢
第1章 绪论:Twitter数据的处理
Python开发工具的安装
Twitter数据的收集和处理
摆弄Twitter的API
频率分析和词汇多样性
tweet图的可视化
综合应用:用Protovis可视化转发的tweet
小结
第2章 微格式:语义标记和常识碰撞
XFN和朋友
使用XFN来探讨社交关系
对XFN数据的广度优先抓取
地理坐标:兴趣爱好的共同主线
维基百科文章+Google地图=自驾游是否成立
(以健康的名义)对菜谱进行交叉分析
对餐厅评论的搜集
小结
第3章 邮箱:虽然老套却很好用
mbox:Unix的入门级邮箱
mbox+CouchDB=随意的Email分析
将文档批量加载到CouchDB中
合理的排序
映射/化简启发的频率分析
couchdb-lucene:全文索引以及更多
将对话线程化到一起
看谁在说话
使用SIMILE Timeline将邮件“事件”可视化
分析你自己的邮件数据
Graph Your(Gmail)Inbox Chrome扩展
小结
第4章 Twitter:朋友、关注者和Setwise操作
REST风格的和OAuth-Cladded API
不,你不能知道我的密码
干练而中肯的数据采集器
一个非常简短的重构子程序
Redis:数据结构服务器
基本的集合操作
使用基本的朋友/关注者度量来增强性能
通过计算共同好友和关注者来计算相似性
影响的度量
友谊图的构建
派系检测与分析
Infochimp“强链接”API
交互式3D图的可视化
小结
第5章 Twitter:tweet,所有的tweet,只有tweet
笔PK剑:和tweet PK机枪(?!?)
对tweet的分析(每次一个实体)
对(Tim的)Tweet的利用
Tim最常转发谁的tweet
Tim的影响力
Tim的tweet中有多少包含hashtag
并置潜在的社交网站(或#JustinBieber VS#TeaParty)
#JustinBieber和#TeaParty的tweet中最常共同出现的实体
平均来说,#JustinBieber或#TeaParty,谁的tweet包含更多hashtag
谁更常被转发:#JustinBieber还是#TeaParty
#TeaParty和#JustinBieber的tweet实体之间存在多少重叠
对大量tweet的可视化
使用高级的标签云可视化tweet
对Twitter搜索结果中群集结构的可视化
小结
第6章 LinkedIn:为了乐趣(和利润?)将职业网络聚类
聚类的动机
按职位将联系人聚类
规范并统计职位的数量
聚类常见的相似性度量
聚类的贪心方法
分层聚类和k均值聚类
获取补充个人信息
从地理上聚类网络
使用Google Earth标识职业网络
使用Dorling Cartograms标识职业网络
小结
第7章 Google Buzz:TF-IDF、余弦相似性和搭配
Buzz=Twitter+博客(???)
使用NLTK处理数据
文本挖掘的基本原则
对TF-IDF的精彩介绍
使用TF-IDF查询Buzz数据
查找相似文档
向量空间模型和余弦相似性的理论
使用余弦相似性将文章聚类
使用图形可视化将相似性可视化
在二元语法中发Buzz
列联表和计分函数
利用Gmail
使用OAuth访问Gmail
抓取并分析邮件消息
在中断之前试着创建一个搜索引擎……
小结
第8章 博客及其他:自然语言处理(等)
NLP:帕累托式介绍
句法与语义
简短的思考练习
使用NLTK的典型NLP流程
使用NLTK检测博客中的句子
对文件的总结
对Luhn摘要算法的分析
以实体为中心的分析:对数据的深层了解
分析的质量
小结
第9章 Facebook:一体化的奇迹
利用社交网络数据
在10分钟内从零到访问令牌
Facebook的查询API
对Facebook数据的可视化
对整个社交网络的可视化
可视化分组中的共同友谊
我的朋友都到哪里去了(一个由数据驱动的游戏)
把留言板数据可视化为(旋转的)标签云
小结
第10章 语义网:简短的讨论
发展中的变革
人不可能只靠事实生活
开放世界与封闭世界假说
使用FuXi推断开放世界
期望
作者介绍
封面介绍
O'Reilly Media,Inc.介绍
O'Reilly Media通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978年开始,O'Reilly一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者,O'Reilly的发展充满了对创新的倡导、创造和发扬光大。
O'Reilly为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make杂志,从而成为DIY革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。O'Reilly的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,O'R ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 社交网站的数据挖掘与分析 - (EPUB全文下载)