统计思维:程序员数学之概率统计 - (EPUB全文下载)

文件大小:2.0 mb。
文件格式:epub 格式。
书籍内容:

1.1 第一个孩子出生晚吗
1.1 第一个孩子出生晚吗
如果在Google上搜索这个问题,你会看到大量的相关讨论。有些人说确实如此,也有人说这没根据,还有人持完全相反的观点:第一个孩子会在预产期之前出生。
在这类讨论中,人们会用各种数据来证明自己的说法,常见的例子如下。
“我有两个朋友最近都刚生了第一个孩子,两个宝宝的出生时间都比预产期晚了差不多两周。”
“我的第一个孩子晚了两周才出生,我想我的第二个孩子会提前两周。”
“我觉得这没道理,因为我姐姐是我妈妈的第一个孩子,她就提前出生了,我的几个表姐也一样。”
诸如此类的传闻称为经验之谈(anecdotal evidence),因为它们基于非公开发表的数据,而且通常是个人感受。在非正式场合,这类说辞没问题,所以这里并不是说上述观点不对。问题在于,我们需要更有说服力的证据和更可靠的结论。但这些经验之谈显然做不到这一点,原因如下。
观察的数量太少 第一胎宝宝的妊娠期比较长,但这种差异可能在自然波动范围内。这种情况下,我们需要比较大量孕妇的妊娠期数据才能判断这种差异是否真的存在。
选择偏差 第一胎宝宝出生比较晚的父母会更有兴趣加入这样的讨论。这种对数据进行选择的过程就会导致结果不准确。
确认偏差 相信这种说法的人会提供支持示例,而怀疑这种说法的人则会引用反例。
不准确 传闻通常都是个人的经历,在记忆、表述和复述等方面都会不准确。
那么,更好的做法是什么呢?
本书由「ePUBw.COM」整理,ePUBw.COM 提供最新最全的优质电子书下载!!!
1.2 统计方法
1.2 统计方法
为了解决上述经验之谈的种种不足,我们会运用以下统计学手段。
收集数据 使用大型全国性调查的数据,这些数据是为得出美国人口方面可靠的统计推断而专门收集的。
描述性统计 计算能总结数据的统计量,并评测各种数据可视化的方法。
探索性数据分析 寻找模式、差异和其他能解答我们问题的特征。同时,我们会检查不一致性,并确认其局限性。
假设检验 在发现明显的影响时(比如两个族群间的差异),我们需要评判这种影响是否真实,也就是说是否是因为随机因素造成的。
估计 我们会用样本数据推断全部人口的特征。
通过这些步骤,绕过各种陷阱,我们就能得到更加合理也更可能正确的结论。
本书由「ePUBw.COM」整理,ePUBw.COM 提供最新最全的优质电子书下载!!!
1.3 全国家庭成长调查
1.3 全国家庭成长调查
美国疾病控制与预防中心(CDC)从1973年开始推行全国家庭成长调查(NSFG),目的是收集(美国)“家庭的生活、婚姻状况、生育、避孕和男女健康信息。调查的结果用于……制定健康服务和健康教育计划,以及对家庭、生育和健康的统计研究”。〔1〕
〔1〕参见http://cdc.gov/nchs/nsfg.htm。
我们会利用调查收集的数据来研究诸如“第一个小孩是否出生得较晚”之类的问题。为了有效使用这些数据,我们需要理解这个调查是怎么设计的。
NSFG是一个横断面研究(cross-sectional study),意思就是它的数据是一群人在某个时间点的情况。另一种常见方法是纵贯研究(longitudinal study),就是在一段时间内反复观察同一群人。
NSFG已经进行了7次,每次称为一个周期(cycle)。我们会使用来自Cycle 6的数据,这些数据是在2002年1月到2003年3月间收集的。
NSFG的目的是得到关于人口情况的一些结论,调查对象是15到44岁的美国人。
参与调查的人称为被调查者(respondent),一组被调查者就称为队列(cohort)。通常,横断面研究意味着具有代表性,即目标人群中的每一个人都有同等的几率参与调查。当然,实际很难实现这种理想状况,但执行调查的人会尽可能地做到这一点。
NSFG不具有代表性,而是有意进行了过采样(oversample)。设计者所调查的西班牙裔、非裔美国人和青少年的比例都高于他们在美国人口中的比例。过采样这些人群是为了确保其中的被调查者数量够大,从而得到有效的统计推断。
当然,过采样增大了根据调查结果推断全体人口结论的难度。稍候我们会继续讨论这一点。
习题1-1
尽管NSFG已经进行了7次,但它并不是纵贯研究。阅读维基百科页面http://wikipedia.org/wiki/Cross-sectional_study和http://wikipedia.org/wiki/Longitudinal_study可以弄清楚原因。
习题1-2
这个练习需要从NSFG下载数据,本书接下来会用到这些数据。
打开http://thinkstats.com/nsfg.html,阅读数据的使用协议,然后点击“I accept these terms”(假设你确实同意)。
下载2002FemResp.dat.gz和2002FemPreg.dat.gz两个文件。前者是被调查者文件,每一行代表一个被调查者,总共7643个女性被调查者。后者是各个被调查者的怀孕情况。
调查的在线资料地址:http://www.icpsr.umich.edu/nsfg6 。浏览左侧导航栏中调查的各部分,大致了解一下其中的内容。还可以在 http://cdc.gov/nchs/data/nsfg/nsfg_2002_questionnaires.htm上阅读调查问卷的内容。
本书的配套网站提供了处理NSFG数据文件的代码。从http://thinkstats.com/survey.py下载,然后在放置数据文件的目录中运行。程序会读取数据文件,然后会显示每个文件的行数:Number of respondents 7643
Number of pregnancies 13593
浏览一下代码,大致了解一下其功能。下一节会详细介绍。
本书由「ePUBw.COM」整理,ePUBw.COM 提供最新最全的优质电子书下载!!!
1.4 表和记录
1.4 表和记录
诗人、哲学家Steve Martin ............

书籍插图:
书籍《统计思维:程序员数学之概率统计》 - 插图1
书籍《统计思维:程序员数学之概率统计》 - 插图2

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 统计思维:程序员数学之概率统计 - (EPUB全文下载)