Python数据分析与数据化运营 - (EPUB全文下载)
文件大小:0.97 mb。
文件格式:epub 格式。
书籍内容:
Python数据分析与数据化运营
第1章 Python和数据化运营
1.1 用Python做数据化运营
1.1.1 Python是什么
1.1.2 数据化运营是什么
1.1.3 Python用于数据化运营
1.2 数据化运营所需的Python相关工具和组件
1.2.1 Python程序
1.2.2 Python IDE
1.2.3 Python第三方库
1.2.4 数据库和客户端
1.2.5 SSH远程客户端
1.3 内容延伸:Python的OCR和TensorFlow
1.3.2 机器学习框架——TensorFlow
1.4 第一个用Python实现的数据化运营分析实例——销售预测
1.4.2 案例过程
1.4.3 案例小结
1.5 本章小结
第2章 数据化运营的数据来源
2.1 数据化运营的数据来源类型
2.1.1 数据文件
2.1.2 数据库
2.1.3 API
2.1.4 流式数据
2.1.5 外部公开数据
2.1.6 其他
2.2 使用Python获取运营数据
2.2.1 从文本文件读取运营数据
2.2.2 从Excel获取运营数据
2.2.3 从关系型数据库MySQL读取运营数据
2.2.4 从非关系型数据库MongoDB读取运营数据
2.2.5 从API获取运营数据
2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音
2.3.1 从网页中爬取运营数据
2.3.2 读取非结构化文本数据
2.3.3 读取图像数据
2.3.4 读取视频数据
2.3.5 读取语音数据
2.4 本章小结
第3章 11条数据化运营不得不知道的数据预处理经验
3.1 数据清洗:缺失值、异常值和重复值的处理
3.1.1 数据列缺失的4种处理方法
3.1.2 不要轻易抛弃异常数据
3.1.3 数据重复就需要去重吗
3.1.4 代码实操:Python数据清洗
3.2 将分类数据和顺序数据转换为标志变量
3.2.1 分类数据和顺序数据是什么
3.2.2 运用标志方法处理分类和顺序数据
3.2.3 代码实操:Python标志转换
3.3 大数据时代的数据降维
3.3.1 需要数据降维的情况
3.3.2 基于特征选择的降维
3.3.3 基于维度转换的降维
3.3.4 代码实操:Python数据降维
3.4 解决样本类别分布不均衡的问题
3.4.1 哪些运营场景中容易出现样本不均衡
3.4.2 通过过抽样和欠抽样解决样本不均衡
3.4.3 通过正负样本的惩罚权重解决样本不均衡
3.4.4 通过组合/集成方法解决样本不均衡
3.4.5 通过特征选择解决样本不均衡
3.4.6 代码实操:Python处理样本不均衡
3.5 如何解决运营数据源的冲突问题
3.5.1 为什么会出现多数据源的冲突
3.5.2 如何应对多数据源的冲突问题
3.6 数据化运营要抽样还是全量数据
3.6.1 什么时候需要抽样
3.6.2 如何进行抽样
3.6.3 抽样需要注意的几个问题
3.6.4 代码实操:Python数据抽样
3.7 解决运营数据的共线性问题
3.7.1 如何检验共线性
3.7.2 解决共线性的5种常用方法
3.7.3 代码实操:Python处理共线性问题
3.8 有关相关性分析的混沌
3.8.1 相关和因果是一回事吗
3.8.2 相关系数低就是不相关吗
3.8.3 代码实操:Python相关性分析
3.9 标准化,让运营数据落入相同的范围
3.9.1 实现中心化和正态分布的Z-Score
3.9.2 实现归一化的Max-Min
3.9.3 用于稀疏数据的MaxAbs
3.9.4 针对离群点的RobustScaler
3.9.5 代码实操:Python数据标准化处理
3.10 离散化,对运营数据做逻辑分层
3.10.1 针对时间数据的离散化
3.10.2 针对多值离散数据的离散化
3.10.3 针对连续数据的离散化
3.10.4 针对连续数据的二值化
3.10.5 代码实操:Python数据离散化处理
3.11 数据处理应该考虑哪些运营业务因素
3.11.1 考虑固定和突发运营周期
3.11.2 考虑运营需求的有效性
3.11.3 考虑交付时要贴合运营落地场景
3.11.4 不要忽视业务专家经验
3.11.5 考虑业务需求的变动因素
3.12 内容延伸:非结构化数据的预处理
3.12.2 网络用户日志解析
3.12.3 图像的基本预处理
3.12.4 自然语言文本预处理
3.13 本章小结
第4章 跳过运营数据分析和挖掘的“大坑”
4.1 聚类分析
4.1.1 当心数据异常对聚类结果的影响
4.1.2 超大数据量时应该放弃K均值算法
4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程
4.1.4 高维数据上无法应用聚类吗
4.1.5 如何选择聚类分析算法
4.1.6 代码实操:Python聚类分析
4.2 回归分析
4.2.1 注意回归自变量之间的共线性问题
4.2.2 相关系数、判定系数和回归系数之间到底什么关系
4.2.3 判定系数是否意味着相应的因果联系
4.2.4 注意应用回归模型时研究自变量是否产生变化
4.2.5 如何选择回归分析算法
4.2.6 代码实操:Python回归分析
4.3 分类分析
4.3.1 防止分类模型的过拟合问题
4.3.2 使用关联算法做分类分析
4.3.3 用分类分析来提炼规则、提取变量、处理缺失值
4.3.4 类别划分-分类算法和聚类算法都是好手
4.3.5 如何选择分类分析算法
4.3.6 代码实操:Python分类分析
4.4 关联分析
4.4.1 频繁规则不一定是有效规则
4.4.2 不要被啤酒尿布的故事紧固你的思维
4.4.3 被忽略的“负相关”模式真的毫无用武之地吗
4.4.4 频繁规则只能打包组合应用吗
4.4.5 关联规则的序列模式
4.4.6 代码实操:Python关联分析
4.5 异常检测分析
4.5.1 异常检测中的“新奇检测”模式
4.5.2 将数据异常与业务异常相分离
4. ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Python数据分析与数据化运营 - (EPUB全文下载)