Python贝叶斯分析 - (EPUB全文下载)

文件大小:0.26 mb。
文件格式:epub 格式。
书籍内容:

Python贝叶斯分析
第1章 概率思维——贝叶斯推断指南
第2章 概率编程——PyMC3编程指南
第3章 多参和分层模型
第4章 利用线性回归模型理解并预测数据
第5章 利用逻辑回归对结果进行分类
第6章 模型比较
第7章 混合模型
第8章 高斯过程
欢迎来到异步社区!
第1章 概率思维——贝叶斯推断指南
归根到底,概率论不过是把常识化作计算而已。
——皮埃尔—西蒙•拉普拉斯
本章我们将学习贝叶斯统计中的核心概念以及一些用于贝叶斯分析的基本工具。大部分内容都是一些理论介绍,其中会涉及一些Python代码,绝大多数概念会在本书其余章节中反复提到。尽管本章内容有点偏理论,可能会让习惯代码的你感到有点不安,不过这会让你在后面应用贝叶斯统计方法解决问题时容易一些。
本章包含以下主题:
统计模型;
概率及不确定性;
贝叶斯理论及统计推断;
单参数推断以及经典的抛硬币问题;
如何选择先验;
如何报告贝叶斯分析结果;
安装所有相关的Python库。
1.1 以建模为中心的统计学
统计学主要是收集、组织、分析并解释数据,因此,统计学的基础知识对数据分析来说至关重要。分析数据时一个非常有用的技巧是知道如何运用某种编程语言(如Python)编写代码。真实世界里充斥着复杂而杂乱的数据,因此对数据做一些预处理操作必不可少。即便你的数据已经是整理好的了,掌握一定的编程技巧仍然会给你带来很大帮助,因为如今的贝叶斯统计绝大多数都是计算统计学。
大多数统计学导论课程(对非统计学专业的人而言)一般就像展示一本菜谱书,每一种统计方法就是一个菜谱:首先,到统计学的后厨取出一个罐头打开,放点数据上去尝尝,然后不停搅拌直到得出一个稳定的p值,该值最好低于0.05(如果你不知道什么是p值,别担心,本书不会涉及这些概念)。这类课程的目的是教会你如何选择一个合适的罐头。本书采用的是另外一种方式:首先我们也需要点原料,不过这次是自己亲自做的而不是买来的罐头,然后学习如何把新鲜的食材混合在一起以适应不同的烹饪场景。在正式烹饪之前,我们先学点统计学的术语和概念。
1.1.1 探索式数据分析
数据是统计学最基本的组成部分。数据的来源多,比如实验、计算机模拟、调查以及观测等。假如我们是数据生成或收集人员,首先要考虑的是要解决什么样的问题以及打算采用什么方法,然后再去着手准备数据。事实上,统计学有一个叫做实验设计的分支专门研究如何获取数据。在这个数据泛滥的年代,我们有时候会忘了获取数据并非总是很便宜。例如,尽管大型强子碰撞加速装置一天能产生上百TB的数据,但其建造却要花费数年的人力和智力。本书假设我们已经获取了数据并且数据是整理好的(这在现实中通常很少见),以便关注到本书的主题上来。如果你想学习如何用Python做数据清洗和分析并进一步学习机器学习,你可以阅读Jake VanderPlas写的《Python Data Science Handbook》一书。
假设我们已经有了数据集,通常的做法是先对其探索并可视化,这样我们就能对手头的数据有个直观的认识。可以通过如下两步完成所谓的探索式数据分析过程:
描述性统计;
数据可视化。
其中,描述性统计是指如何用一些指标或统计值来定量地总结或刻画数据,例如你已经知道了如何用均值、众数、标准差、四分位差等指标来描述数据。数 据可视化是指用生动形象的方式表述数据,你大概对直方图、散点图等表现形式比较熟悉。乍看起来,探索式数据分析似乎是在复杂分析之前的一些准备工作,或者是作为一些复杂分析方法的替代品,不过探索式数据分析在理解、解释、检查、总结及交流贝叶斯分析结果等过程中依然有用。
1.1.2 统计推断
有时候,画画图、对数据做些简单的计算(比如求均值)就够了。另外一些时候,我们希望从数据中挖掘出一些更一般性的结论。我们可能希望了解数据是怎么生成的,也可能是想对未来还未观测到的数据做出预测,又或者是希望从多个对观测值的解释中找出最合理的一个,这些正是统计推断所做的事情。模型分为许多种,统计推断依赖的是概率模型,许多科学研究(以及我们对真实世界的认识)也都是基于模型的, 大脑不过是对现实进行建模的一台机器,可以观看相关的TED演讲了解大脑是如何对现实进行建模的,网址为http://www.tedxriodelaplata.org/videos/m%C3%A1quina-construye-realidad。
什么是模型?模型是对给定系统或过程的一种简化描述。这些描述只关注系统中某些重要的部分,因此,大多数模型的目的并不是解释整个系统。此外,假如我们有两个模型能用来解释同一份数据并且效果差不多,其中一个简单点,另一个复杂一些,通常我们倾向于更简单的模型,这称作奥卡姆剃刀,我们会在第6章模型比较部分讨论贝叶斯分析与其之间的联系。
不管你打算构建哪种模型,模型构建都遵循一些相似的基本准则,我们把贝叶斯模型的构建过程总结为如下3步。
(1)给定一些数据以及这些数据是如何生成的假设,然后构建模型。通常,这里的模型都是一些很粗略的近似,不过大多时候也够用了。
(2)利用贝叶斯理论将数据和模型结合起来,根据数据和假设推导出逻辑结论,我们称之为经数据拟合后的模型。
(3)根据多种标准,包括真实数据和对研究问题的先验知识,判断模型拟合得是否合理。
通常,我们会发现实际的建模过程并非严格按照该顺序进行的,有时候我们有可能跳到其中任何一步,原因可能是编写的程序出错了,也可能是找到了某种改进模型的方式,又或者是我们需要增加更多的数据。
贝叶斯模型是基于概率构建的,因此也称作概率模型。为什么基于概率呢?因为概率这个数学工具能够很好地描述数据中的不确定性,接下来我们将对其进行深入了解。
1.2 概率与不确定性
尽管概率论是数学中一个相当成熟和完善的分支,但关于概率的诠释仍然有不止一种。对于贝叶斯派而言,概率是对某一命题不确定性的衡量。假设我们对硬币一无所知,同时没有与抛硬币相关的任何数据,那么可以认为正面朝上的概率介于0到1之间,也就是说,在缺少信息的情况下, ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » Python贝叶斯分析 - (EPUB全文下载)