深入浅出数据分析-读书笔记

Posted by ZhouJ000 on October 4, 2018
最后更新于:2018-10-05

引言-分解数据

固定基本流程: 确定(确定问题) -> 分解 -> 评估 -> 决策

(确定)客户将帮助你确定问题

(分解)将大问题划分为小问题,将问题划分为可管理、可解决的组块,将数据分解为更小的组块,找到感兴趣的比较对象,分解汇总数据

(评估)作出自己的明确假设,并且以自己的信用为自己的结论打赌

(决策)让自己和客户仔细研究你对数据的评估,洞察先机,从而有能力作出更好的决策。确保自己的意见传达到位,让人们根据你的意见作出正确的决策

(确定)对外界的假设和你确信的观点就是你的心智模型,请务必明确你的心智模型。心智模型应当包含你不了解的因素

千万要保存原始数据

实验-检验你的理论

一个好实验往往能够让你摆脱对观察数据的无限依赖,能帮助你理清因果关系;可靠的实证数据将让你的分析判断更具有说服力

市场调查

统计与分析最基本的原理之一就是比较法,它指出,数据只有通过相互比较才会有意义

比较时破解观察数据的法宝。比较越多,分析结果越正确,对于观察研究尤其如此

混杂因素就是研究对象的个人差异,它们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差

为了控制观察研究混杂因素,有时候将数据拆分为更小的数据块是个好想法。这些小数据块更具有同质性

以控制组为基准(一组体现现状的处理对象,未经过任何新的处理,也称为对照组)。没有控制组就意味着没有比较,没有比较就意味着无法对所发生的情况进行判断

顶级数据分析师懂得妥当地报告有可能令人沮丧的消息

实验照样会毁于混杂因素。精心选择分组,避免混杂因素。随机选择相似组。可能成为混杂因素的那些因素最终在控制组和实验组中具有同票同权。通过随机选择组成的各个组的成员,组与组之间将非常相似,因而具有可比性

寻找最大值

有些东西人人都想多多益善

可以将所需要的数据分为两类,无法控制的因素,可以控制的因素。你需要获得两种因素的可靠数组

你能控制的变量受到约束条件的限制。决策变量是你能控制的因素

借助目标函数发现目标: C1(约束条件)X1(决策变量) + C2X2 .. = P(期望的最大化对象)

任何最优化问题都有一些约束条件和一个目标函数

列出有其他约束条件的产品组合

Microsoft Excel和OpenOffice都有趁手的小函数(Solver),可以麻利的解决最优化问题

你的模型告诉你如何实现最大利润,但仅仅是在你说规定的约束条件下

一切模型都是错误的,但其中一些是有用的。你的目标应该是尽量创建最有用的模型,让模型的不完美相对于分析目标变得无足轻重

你的模型现在是在起作用,但可能会突然失灵。需要最好准备,以便在必要的时候重新构建分析方法,反复不断地进行构建真是分析师的工作

数据图形化-图形让你更精明

数据表远非所需

体现数据。创建优秀数据图形的第一要务就是促使客户谨慎思考并制定正确决策,优秀的数据分析由始至终都离不开“用数据思考”

数据太多绝不会成为你的问题。如果对如何处理这些数据没有把握,那就记住目标,目光停留在和目标有关的数据上,无视其他

让数据变美观也不是你要解决的问题

使用散点图探索原因。散点图是探索性数据分析的奇妙工具。分析师喜欢用散点图发现因果关系,即一个变量影响另一个变量的关系

最优秀的图形都是多元图形。同时展示多张图形,体现更多的变量

当你描述你的数据图形时,需要论述可相互换用的两种赢过模型或图解

假设校验-假设并非如此

变量之间可以正相关,也可以负相关

现实世界中的各种原因呈网络关系,而非线性关系

假设校验的核心是证伪。请勿视图选出最合理的假设,只需剔除无法证实的假设,这就是假设检验的基础:证伪。需要回避满意法

诊断性是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性,就能帮助你对假设排序

贝叶斯统计-穿越第一关

数据收集工作永不停息

贝叶斯规则,能帮助你利用基础概率和波动数据做到明察秋毫

条件概率即以一件事的发生为前提的另一件事的发生概率

基础概率又称作为事前概率

用简单的整数思考复杂的概率

收集到新数据后,用贝叶斯规则处理基础概率: P(L¦+) = P(L)P(L¦+) / P(L)P(+¦L) + P(~L)P(+¦~L)

主观概率-信念数字化

虚拟数据未尝不可

主观概念体现专家信念。如果用一个数字来表示自己对某事的确认程度,所用的就是主观概率。主观概率可能表明根本不存在真正的分歧

每个人都能理解主观概率,但它远没有得到充分的利用。优秀的数据分析师同时也是优秀的沟通者。主观概率则是一种向别人精确地传达你的想法和信念的富有启示性的表达方法

标准偏差量度分析点与平均值的偏差。标准偏差量度的是典型的分析点与数据集平均值的差距(Excel的STDEV公式计算标准偏差)

贝叶斯规则是修正主观概率的好办法: P(H¦E) = <假设的概率>P(H)P(E¦H)<假设成立条件下证据出现的概率> / P(H)P(E¦H) + <假设不成立的概念>P(~H)P(E¦~H)<假设不成立条件下证据出现的概率>

使用贝叶斯规则求主观概率的根本在于找出在假设成立的条件下,证据出现的概率

启发法-凭人类的天性做分析

启发法是从直觉走向最优化的桥梁。(启发法,1(心理学定义)用一种便于理解的属性代替一种难以理解的、令人困惑的属性 2(计算机科学定义)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案)

人类的一切推理都是启发式的,而最优化是一种理想境界。只有在问题超规范的情况下才能发挥作用

使用快省树。固定模式都具有启发法

直方图-数字的形状

按照现象中的数据组的样子,准备动手,进行汇总。在需要分割、汇总复杂的数据集时,会想用最优秀的软件工具完成(Excel Data Analysis)

直方图体现每组数据的发生频数,能显示出数据点在数值范围内的分布情况

回归-预测

散点图是一种将不同变量放在一起进行比较的好办法。直线能为客户指明目标。使用平均值图形预测每个区间内的数值

回归线就是最准确地贯穿平均值图中的各个点的直线

需要一个等式进行精确预测: y(y轴)=a(y轴截距)+b(斜率)x(x轴)

误差-合理误差

回归方程预测的是人们平均得到的结果。显然并不是每个人都能和平均值一样

用回归方程预测数据范围以外的数值成为外插法。小心外插法,你对这里发生的情况并不了解。如果打算使用外插法,就需要指定附加假设条件,明确表示不考虑数据集外发生的情况

千万要对模型假设保持戒心

机会误差=实际结果与模型预测结果之间的偏差。在统计学中,机会误差又称为残差,对残差的分析时优秀的统计模型的核心

误差对你和客户都有好处,指出误差并不意味着你的分析是错误的,只能说明你对预测的真实程度无所隐瞒。你的客户越是理解你的预测,越是能根据预测做出正确的决策

定量地指定误差。残差分布。用均方根误差定量表示残差分布

分割的根本目的是管理误差。将数据分拆为几个组成为分割。如果为几个组分别创建预测模型比单独使用一个模型更能减少误差,则应进行分割

优秀的回归分析兼具解释功能和预测功能

关系数据库-你能关联吗

用关系型数据库管理关系

整理数据-井然有序

作为数据分析师,花在数据整理上的时间多过数据分析上的时间

清理混乱数据的根本在于准备。一旦组织好数据,就能修复数据

正则表达式

若手头数据非常混乱,就应该大胆地排序,尤其是在记录量很大的情况下

附录

统计学领域拥有大量数据分析工具和技术。之前未提及的统计工具:

  • 取样: 调查、置信区间、标准误差、样本均值
  • 概率: 乘法规则、独立性、二项式定理
  • 显著性检验: 原假设和备折假设、T检验、卡方检验、Z检验
  • 随机变量: 平均律、概率直方图、正态逼近法、盒子模型
  • 其他…

掌握Excel技巧

耶鲁大学教授的图形原则:

  • 体现出比较、对比、差异
  • 体现出因果关系、机制、理由、系统结构
  • 体现出多元数据、既体现出1个或2个变量
  • 将文字、数字、图片、图形全面结合起来
  • 充分描述证据
  • 数据分析报告的成败在于报告内容的质量、相关性和整体性

数据透视表

R社区(R语言)

非线性与多元回归

随机性

Google Docs