高中数学各册书-历年高中数学竞赛真题湖南赛区
第三章 统计案例
章末复习提升课
,
线性回归分析
[问题展示] (选修2?3
P101复习参考题A组T2)如果美国10家工业公司提供了以下数据:
公司
通用汽车
福特
埃克森
IBM
通用电气
美孚
菲利普·莫利斯
克莱斯勒
杜邦
德士古
销售总额
x
1
百万美元
126 974
96 933
86 656
63 438
55 264
50 976
39 069
36 156
35 209
32 416
利润
x
2
百
万美元
4 224
3 835
3 510
3 758
3 939
1 809
2 946
359
2 480
2 413
(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;
(2)建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;
(3)计算R
,你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由.
【解】 (1)将销售总额作为横轴
x
,利润作为纵轴
y
,根据表中
数据绘制散点图如图.
2
1
由于散点图中的
样本点基本上在一个带状区域内分布,猜想销售总额与利润之间呈线性相关
关系.
^^
(2)由最小二乘法的计算公式,得
a
≈1
334.5,
b
≈0.026,
^
则线性回归方程为
y
=0.026
x
+1 334.5.
其残差值计算结果见下表:
销售
总额
利润
残差
销售
总额
利润
残差
126 974
4 224
-411.824
50 976
1 809
-850.876
96 933
3 835
-19.758
39 069
2 946
595.706
2
86 656
3 510
-77.556
36 156
359
-1 915.556
63 438
3 758
774.112
35 209
2 480
230.066
55 264
3 939
1 167.636
32 416
2 413
235.684
(3)对于(2)中所建立的线性回归方程,
R
≈0.457,说明在线性回归模型中销售总额只能解
释利润变化的46%,所以线性回归模
型不能很好地刻画销售总额和利润之间的关系.
经分析预测,美国通用汽车等10家大公司
的销售总额
x
i
(
i
=1,2,…,10,单位:百万美
^
^
元)与利润
y
i
(
i
=1,2,…,10,单位:百万美
元)的近似线性关系为
y
=0.026
x
+
a
,经
(2)若通用汽车公司的销售总额
x
1
=126
974(百万美元),残差
车的利润;
(3)福特公司的销售总额为96
933百万美元,利润为3 835,比较通用汽车与福特公司利
润的解释变量对于预报变量变化的贡献
率说明了什么?
,
(以上答案精确到个位)
=-387,估计通用汽
2
得样本中心点为(62
309,2 930),
^
所以
a
=2 930-0.026×62
309=1 310.
^
(2)由(1)知
y
=0.026
x
+1 310,
当
x
1
=126 974时,
^
y
1
=0.026×126 974+1 310≈4 611,
^^
所以
y
1
=
y
1
+
e
1<
br>=4 611+(-387)=4 224,
估计通用汽车的利润为4 224百万美元. <
br>(3)由(1)(2)可得通用汽车利润的解释变量对于预报变量变化的贡献率为
R
1<
br>,
^
22
(
y
1
-
y
1
)(-387)
则
R
=1-=1-
2
≈0.911=91.1%.
-
2
(1 294)
(
y
1
-
y
)
2
1
2
设福特公司利润的解释变量对于预报变量变化的贡献率为
R
2
,
^
由
y
=0.026
x
+1
310得
^
2
y
2
=0.026×96 933+1 310≈3
830,
(3 835-3
830)5
则
R
=1-
2
=1-
2
≈0.999
9=99.99%.
(3 835-2 930)905
2
2
22
^
22
由
R
1
<
R
2
知,用
y<
br>=0.026
x
+1 310作为解释变量与预报变量的关系,预报通用汽车的效果没<
br>有预报福特公司的效果好,或者说预报通用汽车的精确度低于预报福特公司的精确度.
非线性回归分析
[问题展示]
(选修2?3 P86例2)一只红铃虫的产卵数
y
和温度
x
有关.现收集了
7组观测
数据列于表中,试建立
y
关于
x
的回归方程.
温度
x
℃
产卵数
y
个
【解】 根据收集的数据,作散点图:
21
7
23
11
25
21
27
24
29
66
32
115
35
325
3
由散点图知,样本点分布在某条指数函数曲线周围,故该回归方程为
y
=
c
1
e
c
2
x
,两边取对
数得ln
y
=
c
2
x
+ln
c
1
,
作变换
?
?
z
=ln
y
?
?
?
x
=
x
^^^^^
(
c
2
=
b
,ln
c
1
=
a
),得
z
=
bx
+
a
,
且变化后所得样本数据表为
x
z
21
1.946
23
2.398
25
3.045
27
3.178
29
4.190
32
4.745
35
5.784
经计算得
z
关于
x
的线性回归方程为
^
^
z
=0.272
x
-3.849,所以
y
关于
x
的回归方程为
y
=e
0.272
x
-3.849
即
y
=
^
1
e
3.849
·e
0.272
x
.
[拓展1] “指数型”回归方程选择的等价性.
(1)选择指数
函数
y
=
a
(
a
>0且
a
≠1)不科学,
因为指数函数
y
=
a
(
a
>0且
a
≠1)
恒过定点
(0,1),且仅有一个估计值
a
,不能有效体现解释变量
x
与预报变量
y
之间的关系,即拟合
效果很差.
(2)“平移型”指数函数
与
y
=
c
1
e
c
2
x
的等价性.
①回归方程为
y
=
a
由
y
=
a
x
+
b
x
+
b
xx
得ln
y
=(
x
+
b
)ln
a
=(ln
a
)
x
+
b
ln
a
,
?
?
z
=ln
y
^^^^^
作变换
?
(
b
=ln
a
,
a
=
b
ln
a
),则有
z
=
bx
+
a
.
?
x
=
x
?
②回归方程为
y
=
a
+
b
,令
a
=
k
·e,
t
=e,
1
?
?
t
=
a
x
,
^^
可得变换
?
k
得
y
=
kt
+
b
(
b
=
k
,
a
=
b
).
?
?y
=
y
(3)一般“指数型”函数与
y
=
c
1
e
c
2
x
的等价性.
回归方程为
y
=<
br>k
1
e
k
2
x
+
b
因为
y
=
k
1
e
k
2
x
+
b
=
k
1
e
k
2
x
·e=
k
1
e·e
k
2
x
,
ln
y
=ln(
k
1
e)+
k
2
x
=ln
k
1
+
b
+
k
2
x
,
?
?
z
=ln
y
^^
作变换
?
(
b
=
k
2
,
a
=ln
k
1
+
b
),
?
?
x
=
x
b
bb
xxxx
^^^
则有
z
=
bx
+
a
.
[拓展2] 从散点图看回归方程的设置
4
(1)由本例从散点图可以看出,样本点集中在某二次函数(抛物线)的附近,因此可选
择二次
函数
y
=
ax
+
b
作为回归方程.
?
t
=
x
,
?
^^
作变换
?
即
得
y
=
at
+
b
(其中
b
=
a<
br>,
a
=
b
).
?
?
y
=
y
2
2
(2)若选用
y
=
ax
+
bx+
c
模型,则具有不确定性;
2
b
?
4
ac
-
b
?
因为
y
=
ax
+
bx+
c
=
a
?
x
+
?
-,
4
a
?
2
a
?
2
2
2
2
?
?
2
?
t
=
?
x
+
b
?
4
ac
-
b
,
?
虽然作变换
?
?
2
a
?
可得出线性关系
y
=
at
+, <
br>4
a
?
?
y
=
y
b
??
但
由于
a
、
b
、
c
未确定,从而变换
t
=<
br>?
x
+
?
的
t
值不确定,从而不能列出样本点(t
i
,
y
i
)
?
2
a
?4
ac
-
b
数据表,即
y
=
at
+不
能确定.
4
a
因此,我们根据散点图设置回归方程应特别注意:
?
?
t
=
f
(
x
),
①变换
?
可
列出(
t
i
,
z
i
)的数据表.
?
z<
br>=
g
(
y
)
?
2
2
^^
②
注重变换后的线性回归方程中的
b
与
a
与变换前参数的关系.
③利用求出的线性回归方程替换变量后还原成原问题的回归方程.
④最后根据需要进行回归分析.
独立性检验
[问题展示] (选修2?3 P97练习)有甲乙两个班级进行一门课程的考试,按照学
生考试成绩
优秀和不优秀统计成绩后,得到如下的列联表:
班级与成绩列联表
甲班
乙班
总计
优秀
10
7
17
不优秀
35
38
73
总计
45
45
90
请画出列联表的等高条形图,并通过图形判断成绩与班级是否有关系;根
据列联表的独立性
检验,能否在犯错误的概率不超过0.01的前提下认为成绩与班级有关系?
【解】 列联表的等高条形图如图.由图及表直观判断,好像“成绩优秀与班级有关系”.
5
假设成绩与班级没有关系,则有
a
=10,
b
=35,
c
=7,
d
=38,
a
+
b
=45,
c
+
d
=45,
a
+c
=17,
b
+
d
=73,
n
=90,代入<
br>K
公式,得
K
的观测值
90×(10×38-7×35)
k
=≈0.653.
45×45×17×
73
由于
k
≈0.653<6.635,所以在犯错误的概率不超过0.01的前提下
不能认为成绩与班级有
关系.
甲、乙两个班级进行一门课程的考试,按照学生考试
成绩优秀和不优秀统计后,得到如下的
列联表
班级与成绩列联表
2
22
甲班
乙班
总计
18
2
若
K
的观测值为.
13<
br>(1)求
a
,
b
,
c
,
d
的值;
(2)根据观测值表,能否在犯错误的概率不超过0.25的前提下认为成绩与班级无关.
【解】 (1)由表知,
c
=25-
a
,
b
=45
-
a
,
d
=45-
c
=45-(25-
a
)=20+
a
,
n
=90.
优秀
不优秀
总计
45
45
90
a
c
25
b
d
65
n
(
ad
-
bc
)
2
由
K
=得
(<
br>a
+
b
)(
c
+
d
)(
a
+
c
)(
b
+
d
)
2
90[
a<
br>(20+
a
)-(25-
a
)(45-
a
)]18<
br>=,
45×45×25×6513
化简得(2
a
-25)=25,所
以2
a
-25=5或2
a
-25=-5,
所以
a
=15或
a
=10,当
a
=10时,
2
2
甲班
乙班
优秀
10
15
不优秀
35
30
总计
45
45
6
总计
当
a
=15时,
25
65
90
甲班
乙班
总计
说明甲班与乙班编号不同而已,
故当
a
=10时,
b
=35,
c
=15,
d
=30,
或当
a
=15时,
b
=30,
c
=10,
d
=35.
18
2
(2)因为
K
的观测值
k=≈1.385>1.323,
13
而
P
(
K
≥1.323)=0.25,
所以在犯错误的概率不超过0.25的前提下可以认为成绩与班级无关.
数学教师
STC对他所任教的高二两个班进行一次数学考试(满分100分),从两个班学生考试
成绩中,都随机
抽取了15名学生的数学成绩的茎叶图如下,
2
优秀
15
10
25
不优秀
30
35
65
总计
45
45
90
(1)从茎叶图能否判断乙班的成绩好于甲班的成绩;
(2)若记成绩在区间[8
0,100)为优秀,小于80为不优秀,你有多少把握判断乙班的成绩比
甲班的成绩优良.
【解】 (1)甲班成绩集中在“茎7”,乙班的成绩集中在“茎8”,从茎叶图可判断乙班的
成绩好于甲班的成绩.
(2)根据茎叶图列出2×2列联表
甲班
乙班
总计
优秀
5
7
12
不优秀
10
8
18
总计
15
15
30
7
30×(5×8-7×10)5
5
K
的观测值
k
==≈0.556>0.455,且
k
=≈
0.556<0.708,
15×15×12×1899
2
2
又
P
(
K
≥0.455)=0.50,
P
(
K
≥0.7
08)=0.40,
故仅有50%至60%的把握认为乙班的成绩比甲班的成绩优良.
<
br>1.甲、乙、丙、丁四位同学各自对
A
、
B
两变量的线性相关性做试验
,并用回归分析方法分
别求得相关系数
r
与残差的平方和
m
如下表:
22
r
m
甲
0.82
106
乙
0.78
115
丙
0.69
124
丁
0.85
103
则哪位同学的试验结果体现
A
、
B
两变量有更强的线性相关性(
)
A.甲
C.丙
B.乙
D.丁
解析
:选D.相关系数
r
越接近于1和残差平方和
m
越小,两变量
A、
B
的线性相关性越强,
故选D.
2.某大学数学系学生会为了调查爱
好游泳运动与性别是否有关,通过随机询问110名性别
不同的大学生是否爱好游泳运动,得到如下的列
联表:
爱好
不爱好
总计
2
男
40
20
60
女
20
30
50
总计
60
50
110
n
(
ad
-
bc<
br>)
2
2
由
K
=算得
K
的观测值
(
a
+
b
)(
c
+
d
)(
a
+
c
)(
b
+
d
)
110×(40×30-20
×20)
k
=≈7.8.
60×50×60×50
附表:
2
P
(
K
2
≥
k
0
)
k
0
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好游泳运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好游泳运动与性别无关”
0.050
3.841
0.010
6.635
0.001
10.828
8
C.在犯错误的概率不超过1%的前提下认为“爱好游泳运动与性别有关”
D.在犯错误的概率不超过1%的前提下认为“爱好游泳运动与性别无关”
解析:选C.因为
K
≈7.8>6.635,但7.8<10.828,故在犯错误的概率不超过1%的前提下<
br>认为“爱好游泳运动与性别有关”,故选C.
3.为了规定工时定额,需要确定加工零件所花费
的时间,为此进行了5次试验,得到5组
数据(
x
1
,
y
1
),(
x
2
,
y
2
),(
x
3<
br>,
y
3
),(
x
4
,
y
4
),(
x
5
,
y
5
).根据收集到的数据可知
x<
br>1
+
x
2
+
x
3
^
+
x<
br>4
+
x
5
=150,由最小二乘法求得回归直线方程为
y=0.67
x
+54.9,则
y
1
+
y
2+
y
3
+
y
4
+
y
5
的值为
________.
-
1
^-
解析:由题意,得
x
=(<
br>x
1
+
x
2
+
x
3
+
x<
br>4
+
x
5
)=30,且回归直线
y
=0.67
x
+54.9 恒过点(
x
,
5
---
y
),则
y
=0.67×30+54.9=75,所以
y
1
+
y2
+
y
3
+
y
4
+
y
5=5
y
=375.
答案:375
4.在西非肆虐的“埃博拉病毒”的
传播速度很快,这已经成为全球性的威胁.为了考察某
种埃博拉病毒疫苗的效果,现随机抽取100只小
鼠进行试验,得到如下列联表:
2
服用
未服用
总计
附表:
感染
10
20
30
未感染
40
30
70
总计
50
50
100
P
(
K
2
≥
k
0
)
k
0
0.10
2.706
0.05
3.841
0.025
5.024
参照附表,在犯错误的概率不超过________(填百分比)的前提下,认为“小鼠是否被感染与
服用疫苗有关”.
100×(10×30-20×40)
解析:
K
的观测值
k
=≈4.762>3.841,所以在犯错误的概率不
30×70×50×502
2
超过5%的前提下,认为“小鼠是否被感染与服用疫苗有关”.
答案:5%
5.某中学对高二甲、乙两个同类班级进行了“加强‘语文阅读理解’训练对提高‘数学应
用题
’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班
(常规教学,无
额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基
本一致,试验结束后,统计
几次数学应用题测试的平均成绩(均取整数)如下表所示:
9
甲班
(人数)
乙班
(人数)
60分
及以下
3
61~
70分
6
71~
80分
11
81~
90分
18
91~
100分
12
4
8
13
15
10
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分别估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,并判断
能否在犯错误概率不超过0.1的前提下认
为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率
”有关系.
甲班
乙班
总计
优秀人数
非优秀人数
总计
解:(1)由题意知,甲、乙两班均有学生50人,
30
甲班优秀人数为30,优秀率为=60%,
50
25
乙班优秀人数为25,优秀率为=50%,
50
所以甲、乙两班的优秀率分别为60%,50%.
(2)2×2列联表如下:
甲班
乙班
总计
2
优秀人数
30
25
55
非优秀人数
20
25
45
2
总计
50
50
100
100×(30×25-2
0×25)100
所以
K
的观测值
k
==≈1.010<2.706
,
50×50×55×4599
所以不能在犯错误概率不超过0.1的前提下认为“加强‘语
文阅读理解’训练对提高‘数
学应用题’得分率”有关系.
10
11
高中数学怎么蒙题-高中数学课程都有多少
高中数学核心期刊-高中数学选修2-1课本百度云
高中数学必修一第一章知识点总结-高中数学三视图快速还原
人教a版高中数学必修2课件ppt-广西高中数学必修
高中数学选修2-1电子课本内容-高中数学联赛真题2017
2018国培计划高中数学班-高中数学选修3系列书
高中数学两直线位置关系-高中数学学业水平测试卷解析
2011天津高中数学联赛-高中数学教学中应用意识的现状
-
上一篇:高中数学必修三特级教师视频
下一篇:高中数学概念大全