-
一
.
数据分析概述
1.
数据分析的概念
数据分析就是分析数据,
从一大堆数据中提取你想要的信息。
比较专业的回答:
数据分析是
有针对性的收集、加工、
整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。
比较客观的回答:
p>
从行业的角度看,
数据分析是基于某种行业目的,
< br>有目的地对数据进行收
集、整理、加工和分析,提炼有价值信息的过程。
理解数据分析的三个方面:目标、方法、结果。
2.
数据挖掘的概念
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的
数据集中识别有效的、新
颖的、
潜在有用的,
< br>以及最终可理解的模式的非平凡过程。
它是一门涉及面很广的交叉学科,
包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。
3.
商业数据分析预测的本质
数据分析和
业务是紧密联合在一起的,
其目的就是满足商业决策的需求。
预
测未
来发展情况,及早发现问题,对业务进行优化,制定最优的决策方案。
4.
数据分析的
8
p>
个层次
常规报表
即席查询
多维分析
警报
统计分析
预报
预测型建模
优化
5.
大数据对传统小数据的拓展
(
1
)大数据与小数据,大量数据的区别与转变就是,放弃对因果关系的
渴求,而取而代之
关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么
”。这就颠覆了千百
年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新
的挑战。
(
2
)
.
还有一个重要的区别是在用途上,过去的数据很大程度上
停留在说明过去的状态,拿
数据说话,
实际上是用过去的数据说
明过去,
而大数据的核心就是预测。
大数据将为人类的
生活创造前所未有的可量化的维度。
使数据从原来停留在说明过去变为驱
动现在,
我以为预
测对企业的作用从两个方向:
A.
宏观是对趋势的预测,给企业做大势分析,
p>
B.
微观是对个体的精准分析,给企业做
个性化精准营销
(
3
)
.
从结构上,大数据更多的体现在海量非结构化数据
本身与处理方法的整合
大数据与小数据判断原则:
A.
数据的量
B.
数据的种类、格式
C.
数据的处理速度
D.
数据复杂度
(
4
)
.
分析基础不同,大数据是只有在大规模数据的基础上才可以做的事情,而这需要有从
量变
到质变的过程,
也正因为科技的创新在方法上打下基础,
而利用
互联网展开的新的生活
与工作方式,
让信息积累到可以引发变革
的程度,
而很多事情在小规模数据的基础上是无法
完成的
6.
明确数据分析目标的意义
数据分析的关键在于设定目标,专业上叫做“有针对性”。
<
/p>
数据分析的前提是有清晰的目标。
对数据分析目的的把握,
是数据分析成败的关键。
只有对
数据分析的目
的深刻理解,
才能整理出完整的分析框架和思路,
因为根据不同
的分析目标所
选择的分析方法是不同的。
7.
数据分析的过程
明确分析的目的和内
容——
>
数据收集——
>
数据预处理——
>
数据分析——
>
数据展现
——
>
撰写报告
8.
统计分析和数据挖掘的区别和联系
联
系:
都来源于统计基础理论,
数据挖掘中也经常会用到统计分析
方法,如主成分分析、回
归分析
区别:
数据挖掘是统计分析方法
的延伸和发展。统计分析常需要先做假设或判断,
然后
利用数据
分析技术来验证假设是否成立。
数据挖掘则不需要对数据内在的关系做任何假设和
判断,
而是让数据挖掘工具中的算法自动去寻找数据中隐藏的关系和规
律。
统计分析在预
测中的应用常表现为一个或者一组函数关系式,
而数据挖掘在预测中有时候不会
从结果中生
产明确的函数关系,不知道哪些变量起作用,缺乏解释性,例如“神经网络”
。
实际应用中,统计分析和数据挖掘是不可分割开来。
9.
CRISP-DM
CRISP-DM
(cross-industry
standard
process
for
data
mining),
即为
跨行业数据挖
掘标准流程
CRISP-DM
模
型为一个
KDD
工程提供了一个完整的过程描述
.
该模型将一个
KDD
工程分
为
6
个不同的
,
但顺序并非完全不变的阶段。
是一种数据挖掘项目关系方法论。
10.
SEMMA
SAS
公司的数据挖掘项目实施方法论。对
CRIS
P-DM
方法中的数据准备和建模环节进行了
拓展。
Sample
─数据取样
Explore
─数据特征探索、分析和予处理
Modify
─问题明确化、数据调整和技术选择
Model
─模型的研发、知识的发现
Assess
─模型和知识的综合解释和评价
11.
数据分析中不同人员的角色与职责
一
个大型数据分析项目会涉及行业学术专家、业务专家、数据分析师和
IT
人员。其中,业
务专家提供业务目标,
业务理解,
p>
并提供目前的营销和反馈信息;
学术专家提供相关领域研
究的最新进展,并进行维度分析;数据分析师进行数据理解、清洗和建模;
IT
人员提供数
据支持和项目实施支持。
二、
描述性统计分析
1.
数据的计量尺度
定类尺度、定序尺度、定距尺度、定比尺度
分类变量:定类尺度
、定序尺度
连续性变量:定距尺度
、定尺度
2.
数据的集中趋势
集中趋势在统计学中是指一组数据向某一中心值靠拢的程度
,
它反映了一组数据中心点的
位置所在。集中趋势测度就是寻找
数据水平的代表值或中心值。
常用的指标:平均数、中位数(分位数)、众数
平均值易受极端值影响,中位数和众数不受极端值影响。
3.
数据的离中趋势
离中趋势在统计学中
是指一组数据向某一中心值分散的程度,
它反映了各个数据远离中心点
< br>的程度。从侧面说明了集中趋势测度的代表程度。
常用指标:极差、四分位距、平均差、方差、标准差、离散系数
极差
=
最大值
-
最小值
四分位距
=
(第三个四分位数
-
第一个四分位数)
/
2
平均差
方差
·
标准差
5
%
远离)
(一般
68%
在一个标准差,
95%
在<
/p>
2
个标准差,其余
离散系数
均值越具有代表性)
(比较两组样本离中程度大小:离散系数越小,平
4.
数据分布形态
一组或一系列数字,落
在坐标图里的形态特征。比如:正态分布。
数据分布形态的测度主要以正态分布为标准进行衡量。
指标:偏态、峰度
(
1
)偏态
(数据分布的不对称性)
正偏态:平均数
>
众数
>
中位数
负偏态:
平均数
<
众数
<
中位数
偏态系数
:计算方法有多种,在
p>
Excel
中的计算公式为
SK=0
分布为对称的
SK>0
正偏态,值越大,正偏程度越高
SK<0
负偏态,值越小,负偏程度越高
(
2
)峰度
峰度系数:在
Excel
中的计算公式
为
K=0
标准峰度
K<0
平顶峰度
K>0
尖顶峰度
(
3
)适度偏态时,中位数与平均数的距离,约等于众数与平均
数距离的三分之一
已知两个,可以推导另一个。
5.
统计图
常用:
条形图
扇形图
折线图
箱线图
茎叶图
直方图
散点图:描述两个变量之间的相关关系
气泡图:散点图的一种延伸
6.
p>
分类变量和连续型变量的描述统计量
分类:频数
百分比
累计频数和累计百分比
众数
连续型:均值
方差
偏度
峰度
三、
抽样估计
1.
随机试验、随机事件、随机变量的概念
随机试验:
对随机现象的观测
随机事件:由随机现象的某些基本结果组成的集合
随机变量:用来表示随机现象结果的变量
2.
总体与样本的概念
总体:把研究对象的全体称为总体
样
本:一般地,从研究的总体中按照一定规则抽取
n
个个体进行观
察或试验,
这
n
个个体称为总体的一个
样本
3.
抽样估计的理论基础
抽样估计是利用
抽样调查所获得的样本信息,
根据概率论所揭示的随机变量的一般规律,
对
总体的某些数量特征进行估计的一种统计分析方法。
抽样估计是建立在大数定律和中心极限定理基础上的。
大数定律
论证了抽样平均数趋近于总
体平均数的趋势。
中心极限定理论证
了抽样平均数和总体平均数的离差在一定范围的概率问
题。
4.
正态分布及三大分布
(
1
)正态分布
正态分布的特征:
a.
正态分布有两个参数,即均数
μ
和标准差
σ
,可记作
N
(
μ
,
σ
2
):均数
μ
决定正态曲线
的中心位置;标准差
σ
决定正态曲线的陡峭或扁平程度。
σ
越小,曲线越陡峭;
σ
越大,曲线
越扁平。
b.
p>
u
变换:为了便于描述和应用,常将正态变量作数据转换。
μ
是正态分布的位置参数,描
述正态分布的
p>
集中趋势
位置。
正态分布以
X=
μ
为
对称轴
,
左右完全对称。
正态分布的
均数
、
中位数
、众数相同,均等于<
/p>
μ
。
c. <
/p>
σ
描述正态分布资料数据分布的离散程度,
σ
越大,数据分布越分散,
σ
越小,
数据分布
越集中。
也称为是正态分布的形状参数,
σ
越大,曲线越扁平,反之,
σ
越小,
曲线越瘦高。
d. 3<
/p>
σ
原则:
P
(<
/p>
μ
-
σ
-3 μ <
br>总体均值的估计和检验常用 <
br>误差变大,
<
br>
≤
μ
+
σ
)
=68.3%P
(
μ
-2
σ
≤
μ
+2
σ
)<
/p>
=95.4%P
(
μ
σ
≤
+3
σ
)
=99.7%
(2)
卡方分布
卡方分布是从正态分布中衍生出的一种分布。
其定义是若干个随机变量的平方和也服从一
种
分布,即卡方分布。
(
3
)
p>
t
分布
(
3
)
p>
F
分布
三大分布的用途:
卡方分布:常用于拟合优度检验
t
分布:
多用于比例的估计和检验,用
于方差分析,协方差分布和回归分析
t
分布:
在信息不足的情况下,只能用
t
分布,比如在整体方差不知道的情况下,对
t
统计量
5.
抽样的组织形式
简单随机抽样
分层抽样
等距抽样
整群抽样
阶段抽样
6.
确定必要样本容量的原因
p>
必要样本容量是指为了使抽样误差不超过给定的允许误差范围,
至少
应该抽取的样本个体数
目。
如果抽样
数目过大,
尽管误差会减小,但是会增加调查的工作量,
费时费
力,体现不出抽样
的优越性;
抽样数目过少,
失去了抽样调查的意义。
所以要选择合适的样
本数量。
7.
必要样本容量的影响因素
总体方差(
标准差
σ
)
允许误差范围
置信度(
1-
α
)
抽样方法
抽样组织形式
8.
抽样平均误差
抽样平均误差是抽样平均数的标准差。
反映了抽样平均数与总体平均数的平均误
差程度。
总
体中多个样本的平均数的标准差。
9.
点估计与区间估计的特点及优缺点
参
数估计就是通过样本来推断总体分布中的未知参数或者对未知参数的某些函数做出估计。
参数估计的两种基本形式:点估计
、
区间估计
点估计:是一种以点代面的估计方法。
特点
:
<
/p>
根据总体指标的结构形式设计样本指标,并以样本指标的实际数值
直接作为总体指标的估计值。
优点:
简便易行,原理直观
缺点:没有标明
点估计的误差,没有指出在误差在一定范围内的概念保证程度
区间估计:区间估计必须同时具备估计值、抽样误差范围、概率保证程度三个要素。
p>
特点:
不直接给出总体参数的被估计值,
而是规定总体参数被估计值的上下限,
即总体参数
存在的区间范围,并给予一定概率的保证。
优点:明确了精度和可靠性
缺点:精
度和可靠性是相互矛盾的。求出参数的置信区间,先保证可靠性,再提高精度。
10.
总体平均数和成数的区间估计方法
总体平均数的区间估计:
总体成数的区间估计:
11.
中心极限定理的意义和应用
中心极限定理的核心内容是只要
n
足够大,便
可以把独立同分布的随机变量和的标准化当
作正态变量,
所以可
以利用它解决很多实际问题,
同时这还有助于解释为什么很多自然群体
-
-
-
-
-
-
-
-
-
上一篇:王开岭《精神自治》精选摘录
下一篇:Photoshop CS6中英对照