抽样分布与参数估计(2)
5-28
(二)样本平均数的分布规律
当总体X服从正态分布时,根据正态分布的再生
定理,样本平均数服从正态分布,即X~N(?,?)。
2X
而且统计理论表明, 不论总体的分布如何,只要样本容量m足够大(大 于30),样本均值的分布总会趋向于正态分布。(服从正态分布,求:(1)总体均值,,样本标准差的0.99的置信区间。当只知样本平均数(),而不知总体平均数时,可根据平均数的样本分布进行推理。
2
正态分布时,所需的样本容量n可以较小,反之则需要较大的样本容量。通常将样本单位数不少于30的称为大样本。
5-29
【例5-4】160件电子元器件重量的均值为5.02克,标准差为0.30克,从中采用不放回方式随机抽取64件,试求:(1)样本平均数的期望值与方差;(2)总重量在4.96克与5.00克之间的概率。解:(1)E(X)???5.02克;
2
0.3(160-64)?0.02914克??=n?N?1?64(160-1)
5-30
可是在实际的研究中,只能得到一个样本的平均数,我们可将这个样本平均数看作无限多个样本平均数之中的一个。样本平均数的平均数,平均数的离散程度即平均数分布的标准差(简称标准误写作或),根据正态分布,可以说:。3正态分布的优缺点3.1正态分布优点对于社会上遇到的大部分问题,其概率分布规律基本都满足正态分布,为了计算某种概率,我们就可以通过数学建模利用正态分布方便解决问题。
2
=0.0279+0.0793=0.1072
5-31
例题
1、某地区职工家庭的人均年收入平均为60000元,标准差为8000元。若知该地区家庭的人人均年收入服从正态分布,现采用重复抽样从总体中随机抽取25户进行调查,求:(1)样本平均数的数学期望、样本平均数的标准差。(2)样本平均数等于或超过62000元的可能性有多大?
5-32
例题
2、某公司1000名职工的人均年奖金为20000元,标准差5000元,从中不放回随机抽取36人作为样本进行调查,求:(1)样本平均数的数学期望和标准差(2)样本的人均年奖金在19000—22000元的概率有多大?
5-33
二、样本比例的抽样分布
(一)样本比例的期望值与方差
设随机变量X服从二点分布,其总体平均数为?,?又
从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。 对任意分布的总体j,期望为EX,方差为DX, 有放回抽选样本,容量为m,设样本均值为随机变量 其中,茗。1.理解总体、简单随机样本、统计量、样本均值、样本方差及样本矩的概念,其中样本方差定义为。
N1P?n
(5.11)
5-34
这款《3d大底统计与分布处理》专业软件,主要分为“大底统计”与“分布处理”两大类功能,利用“大底统计”功能,统计往期的大底分布命中情况,从中查找可供我们利用的规律,以观察到的规律做为参数,对下期大底做“分布处理”,从而得到一组新的更准确的大底,再对这组新大底做进一步的容错交集,得到我们最终的缩水结果,实现有效博彩。我们很清楚大家的期望值有多高,而eidos studios的目标不仅仅是达到大家的期望值,甚至是超越,”eidos studios官方声明如此介绍道,“直到如今我们对于《杀出重围:人类分裂》的制作都感到满意,但由于我们还没有对这部作品进行过彻底的检查,很显然我们还需要一些额外的时间来确保这款作品能达到我们的要求。我们很清楚大家的期望值有多高,而eidos studios的目标不仅仅是达到大家的期望值,甚至是超越,”eidos studios官方声明如此介绍道,“直到如今我们对于《杀出重围:人类分裂》的制作都感到满意,但由于我们还没有对这部作品进行过彻底的检查,很显然我们还需要一些额外的时间来确保这款作品能达到我们的要求。
(5.12)
(5.13)
5-35
在不放回抽样条件下,有关结论与样本平均数相类似,即
(5.14)
(5.15)
这时样本比例的方差也可不必修正,可直接用(5.13)式来计算。
5-36
【例5-5】从某地区6000名适龄儿童中用不放回抽样方法抽取400名儿童,其中有320名儿童入学,求样本入学率的标准差。320?80%解:P?400
5-37
(二)样本比例的分布规律
中心极限定理表明,当n充分大时,样本比例近似服从正态
都要大于等于5。
实际工作中,当0.1???0.9,n符合表5-5要求的大小时,就可以认为P近似服从正态分布。由于总体参数通常并不知道,所以,实际总体是否符合表中所列情况,可以用样本比例来近似判断。
5-38
表5-5
总体参数
用正态分布来近似时对样本量的要求
0.450.400.350.300.250.200.150.10
0.50
1-
0.50
36
0.55
37
0.60
38
0.65
40
0.70
43
0.75
48
0.80
57
0.85
71
0.90
100
样本量至少为
n
5-39
例:某企业生产的一种产品,根据以往的经验,合格率为95%。分布规律与参数现从生产线上随机抽取100件产品进行检验,问样本合格率大于等于90%的概率是多少?
5-40
例:一种电子元件的合格率是98%。随机抽取800个元件,其合格率超过96%的概率是多少?如果在这次抽样中发现样本合格率低于96%,你对这种元件的生产会做出怎样的判断?
5-41
练习题1:某商场推销一种洗发水。据统计,本年度购买此种洗发水的有10万人,其中6万是女性。如果按不重复随机抽样方法,从购买者中抽出100人进行调查,问样本中女性比例超过50%的可能性有多大?
5-42
(三)样本方差的抽样分布
对于来自正态总体的样本容量为n的简单随机样本,统计量
(n?1)S2
服从自由度为(n?1)的?分布,即
2
(n?1)s2
2
2
(5.16)
5-43
【例5-6】某企业生产一种零件,已知其直径服从正态分布,总体的标准差为0.01毫米。现随机抽查36个零件,试求其样本标准差大于0.012的概率。解:??
2
(n?1)s2
35(0.012)2?50.4=20.01
(3)反函数法:利用函数f(x)与其反函数f-1(x)的定义域和值域间的关系,通过求反函数的定义域而得到原函数的值域,形如(a≠0)的函数值域可采用此法求得.。分析:(Ⅰ)利用三角函数的恒等变换化简函数的解析式为f(x)=2sin(2x﹣)+1+,由此求得函数f(x)的最小正周期.。利用钩子函数键盘录制回放保存到文件hmilyzhen利用钩子函数键盘录制回放保存到文件利用钩子函数键盘录制回放保存到文件(lily)等级:]分10[问题点数:利用钩子函数键盘录制回放保存到文件。
5-44
第三节参数估计
一、参数估计概述二、总体均值的估计三、总体比例的估计四、总体方差的估计
5-45
一、参数估计概述
(一)参数估计的定义与种类所谓参数估计,就是用样本统计量去估计总体的未知参数(或参数的函数)。例如,估计总体均值,估计总体比例和总体方差等等。参数估计有两种基本形式:点估计和区间估计。前者是用一个数值作为未知参数θ的估计值,后者则是给出具体的上限和下限,把θ包括在这个区间内。下面分别介绍点估计与区间估计的有关概念。
5-46
(二)点估计点估计就是根据总体参数与样本统计量之间的内在联系,直接以样本统计量作为相应总体参数的估计量,点估计又称为定值估计.
5-47
(三)估计量的优良标准
?的数学期望值等于θ。即有:1.无偏性。?
(5.17)
2.有效性。又称最小方差性。
5-48
概率密度
*
偏倚E(?)
*
估计值
5-49
概率密度
f(?*)
估计值
5-50
所谓一致性是指当样本容量无限增大时,估计值应能越来越接近它所估计的总体参数。锂离子电池一致性主要指单体电池性能的一致特性,包括电池外特性的一致性(电压、电流、内阻),内特性的一致性(容量、功率、能量)。t:相同观察值的祖数 样本1 485.5 39 5411 48 5.5 41 5914.5 49 5914.5 52 10 47 6516 56 12 51 5713 原假设:总体分布相同 备选假设:总体分布不完全相同 显著性水平:95% 1612 自由度为2,风险水平是0.05的临界值为5.991,h>5.991,则拒绝原假设,认为总体分布存在差异。
(5.18)
4.充分性。估计量包含了样本中关于θ的全部信息。
5-51
(四)区间估计与估计的精度和可靠性
所谓区间估计,实质上就是用两个互相联系的样本统计量给
出θ的区间。即以?1和?2分别作为总体参数?区间估计的下限与上限,同时要求该区间将θ包含在内的概率应达到一定的程度。即:P(?1????2)=1-α
(5.19)
样极限误差,它可以反映抽样估计误差的最大范围。
5-52
作为参数的区间估计,应满足以下两个要求:一是估计的精度要求,二是可靠性要求。所谓精度要求就是估计误差必须控制在一定的范围内。允许误差的最大值,可通过极限误差来反映。显然,Δ越小,估计的精度要求越高,Δ越大,估计的精度要求越低。极限误差的大小要根据研究对象的变异程度和分析任务的性质来确定。
5-53
所谓可靠性是指估计结果正确的概率保证,可用置信度来反映。在区间估计中,置信度十分重要。只有精度而没有置信度的估计是毫无意义的。能够给出
?服从(精确置信度的前提条件是,能够证实估计量?
地或是近似地)某种已知的常见分布。
5-54
二、总体均值的估计
设随机变量X~N?,?
2
?,(X,X
1
2
,?,Xn)
是取自X的简单随机样本。根据简单随机样本的定义,自然有,各个Xi(i=1,2,?,n)独立,并且与X有相同的分布,即xi~N?,?2。现在我们来估计X的均值μ。
5-55
(一)总体方差σ已知的情形1.点估计1n??X??Xi?ni?1
2
(5.20)
5-56
2.区间估计根据《抽样分布》一节的论述,我们已知X~N(?,?X)。
2
为了进行区间估计,首先,把X标准化
Z=
(5.21)
显然,Z是标准正态变量(见图5-1)。如果我们在图5-1的两个尾部各取面积α/2,临界值(我们把截取尾部面积的横坐标点叫做临界值)分别为-z?/2和+z?/2,那末,显然有:
(5.22)
5-57
5-58
将式(5.21)代入式(5.22)得到:
(5.23)
在式(5.23)的括号内做不等式的等价变换后得到:(5.24)
通常,我们先给出置信度1??的具体数值,根据这个数值查标准正态分布表求得z?/2值,然后计算置信区间的上下限。
5-59
放回抽样的场合,?X?
n
。总体均值的
置信度为1??的区间估计为:
(5.25)
抽样极限误差为:
n
(5.26)
5-60
不放回抽样的场合,?x?
n
N-nN-1
(5.27)
抽样极限误差为:
n
N-nN-1
(5.28)
5-61
【例5-3】某企业加工的产品直径X是一随机变量,且服从方差为0.0025的正态分布。从某日生产的大量产品中随机抽取6个,测得平均直径为16厘米,试在0.95的置信度下,求该产品直径的均值置信区间。解:本例产品数量很多,即总体单位数N很大,故采用放回抽样的有关公式计算。样本平均数
X=16
样本平均的标准差?x=
n
=
0.056
=0.0204
z0.05/2?1.96
2
?x=1.96×0.0204=0.04
所求μ的置信区间为:16-0.04μ16+0.04即(15.96,16.04)。
5-62
例:为了研究居民用于报刊消费的支出,某城市的统计部门抽取了64户居民进行调查,得到平均用于报刊的消费支出为290元/年,假设总体服从正态分布,且总体的标准差为100元/年.。对该城市居民户均用于报刊的消费支出做区间估计(置信水平为95%)。
5-63
通常的做法是随机抽取一定量的样本(例如每个省抽取总人口的1%),然后求这些样本的平均升高(一个统计量),最后利用该统计量来估计总体中的未知参数。看一看、抱一抱2 同学间相互估计对方的体重有多少千克,再把自己的真实体重告诉猜的同学,看谁估得准三、巩固练习基础训练:1.想想做做1谈话:通过称一称,我们知道表示物品有多重都可以用千克作单位。抽样调查是一种非全面调查,它是从研究的总体中按随机原则抽取部分样本单位进行调查,并根据样本单位的调查结果来推断总体,以达到认识总体的一种统计调查方式。
因为这包装早改了)