构建实时机器学习系统 - (EPUB全文下载)

文件大小:0.59 mb。
文件格式:epub 格式。
书籍内容:

构建实时机器学习系统
第1部分 实时机器学习方法论
第1章 实时机器学习综述
1.2 机器学习发展的前世今生
1.3 机器学习领域分类
1.4 实时是个“万灵丹”
1.5 实时机器学习的分类
1.6 实时应用对机器学习的要求
1.7 案例:Netflix在机器学习竞赛中学到的经验
1.8 实时机器学习模型的生存期
第2章 实时监督式机器学习
2.2 怎样衡量监督式机器学习模型
2.3 实时线性分类器介绍
第3章 数据分析工具Pandas
3.2 Pandas的安装
3.3 利用Pandas分析实时股票报价数据
3.4 数据分析的三个要点
第4章 机器学习工具Scikit-learn
4.2 Scikit-learn的安装
4.3 Scikit-learn的主要模块
4.4 利用Scikit-learn进行股票价格波动预测
第2部分 实时机器学习架构
第5章 实时机器学习架构设计
5.2 Lambda架构和主要成员
5.3 常用的实时机器学习架构
5.4 小结
第6章 集群部署工具Docker
6.2 容器虚拟机的基本组成部分
6.3 Docker引擎命令行工具
6.4 通过Dockerfile配置容器虚拟机
6.5 服务器集群配置工具Docker Compose
6.6 远端服务器配置工具Docker Machine
6.7 其他有潜力的Docker工具
第7章 实时消息队列和RabbitMQ
7.2 AMQP和RabbitMQ简介
7.3 RabbitMQ的主要构成部分
7.4 常用交换中心模式
7.5 消息传导设计模式
7.6 利用Docker快速部署RabbitMQ
7.7 利用RabbitMQ开发队列服务
第8章 实战数据库综述
8.1 SQL与NoSQL,主流数据库分类
8.2 数据库的性能
8.3 SQL和NoSQL对比
8.4 数据库的发展趋势
8.5 MySQL简介
8.6 Cassandra简介
第9章 实时数据监控ELK集群
9.2 Elasticsearch基本架构
9.3 Elasticsearch快速入门
9.4 Kibana快速入门
第10章 机器学习系统设计模式
10.2 读:高速键值模式
10.3 读:缓存高速查询模式
10.4 更新:异步数据库更新模式
10.5 更新:请求重定向模式
10.6 处理:硬实时并行模式
10.7 处理:分布式任务队列模式
10.8 处理:批实时处理模式
第3部分 未来展望
第11章 Serverless架构
11.2 Serverless架构对实时机器学习的影响
第12章 深度学习的风口
12.1 深度学习的前世今生
12.2 深度学习的难点
12.3 如何选择深度学习工具
12.4 未来发展方向
第1部分 实时机器学习方法论
■第1章 实时机器学习综述
■第2章 实时监督式机器学习
■第3章 数据分析工具Pandas
■第4章 机器学习工具Scikit-learn
第1章 实时机器学习综述
1.1 什么是机器学习
相信本书的读者都已经接触过一点机器学习了,或者听说过各种新奇的机器学习方法,或者通过相关新闻了解过机器学习的应用场景。那么,大家是否了解机器学习的定义呢?事实上,对它的定义层出不穷,不同领域的大咖往往都会有一个从自己角度出发的特别“机灵”的定义。比如,吴恩达(Andrew Ng)是深度学习的先驱者之一,他对机器学习的定义是从计算机从业者的角度出发的,他的定义是:
机器学习是一门科学,它旨在让计算机自主化工作,而不需要刻意编程。
而从统计和数据分析的角度出发,世界领先的统计软件公司SAS对机器学习的定义是:
机器学习是一种方法,它旨在用数据分析自动化模型的建立。
笔者个人从学术和工业界应用的角度出发,认为机器学习的定义应该包括以下三个方面。
·用数据说话:在常规计算机编程中,所有的逻辑都是人为设定的。而机器学习方法是试图让观测到的数据和现象成为编撰逻辑的依据,不同模型之间的衡量标准也试图尽量达到标准化,以使得人为干预最小化。
·高度自动化:机器学习模型往往会在工业应用中不断重复更新,所以机器学习建模生存期中的每个步骤往往都是可以高度自动化的。
·鲁棒性:虽然教科书中很少提及,但鲁棒性(又称稳定性,Robustness)确实是机器学习方法论中隐含的一个巨大要求。由于模型建立高度自动化,因此我们需要运用的机器学习模型在面对极端数据的时候只会受到较少影响,不需要人为排错。
根据笔者的经验,以上三点是一个组织成功运用机器学习的必要条件,但是一定要以用户体验为出发点来进行均衡。
在工业应用中,上面这三点的重要性总是在不断得到印证。下面就通过两个应用中的有名案例来体会一下。
1.谷歌通过机器学习和人工干预进行网页筛查
谷歌等搜索引擎公司每天需要处理上百万个新网页信息。为了向用户快速提供这些信息,谷歌多年来通过不懈的努力开发出了Caffeine平台,将提供实时新闻搜索结果的延迟从一天缩短到了若干分钟。机器学习数据驱动、高度自动化的特点让谷歌用户受益不少。就连微软在通过记者发布会宣布发行Windows10的时候,谷歌搜索引擎也比微软自有的必应搜索引擎更快地呈现了与Windows10相关的信息。同时为了满足鲁棒性的要求,谷歌通过第三方人工服务,不断进行人工抽样审查了大量的网页内容。
2.Yelp机器学习模型的失败
Yelp类似于国内的大众点评网,其内容多为用户生成,对餐馆、娱乐、家装等行业都有很全面的覆盖。由于大量商家的成败都取决于Yelp,因此市场上出现了冒充消费者进行刷点的评论师。评论师会按照商家的要求对商户进行不公正的点评,从而对消费者产生误导。Yelp意识到了这样的问题,并且建立了机器学习模型进行自动化侦测。但可能是建模数据出现了问题(比如,建模的时候使用了评论师的数据),因此生成的模型并没有阻挡评论师的进攻,真正的用户所产生的评论反而会被屏蔽掉,用户体验大打折扣。
通过这样的案例,我们可以意识到基本数据采集对机器学习模型的重要性。如果数据出现 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 构建实时机器学习系统 - (EPUB全文下载)