如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Ex
ctguxp发表于 2015-5-3 17:55
在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为
[*]a方支持率为45.3%;
[*]b方支持率为30.2%;
[*]c方支持率为8.5%;
[*]...
本次调查延用分层随机整群抽样调查方法,即首先确定调研点校,再以年级分层,以教学班为单位随机整群抽样构成调研样本。抽样调查用样本指标代表总体指标不可避免会产生误差,抽样推断虽然会有抽样误差(不包括登记误差和系统性误差),但只要严格遵守随机原则,所选的样本结构与总体结构相同,或者两者分布一致,就可以运用数学公式计算抽样误差。 用户会用鼠标点击来对结果投票, 相关的广告会被点击, 不相关的广告不会被点击, 那很自然就能得出 “点击率和相关性正相关” 这个结论 (至于描述里写 “二十五岁以下免进” 但实际是钢材广告的这种诱骗行为后面再说怎么处理). 那对于这种相关性准入的场景, 预估点击率就是预估广告是否相关, 最朴素情况下这是个二分类问题, 那不管预估成怎样, 只要有一种分割方法能分开是否相关就行了. 此时预估点击率的目标是能对广告按相关与否分类 (或说按相关性排序并给出一个截断值). 评估分类问题好坏, 一般都是看准确和召回两个指标, 用人工打分的记录来做回归验证就行。
?%5Cfn_jvn%20%5C120dpi%20n%5Capprox%5Cfrac%7B%28%7Bz_%7B%5Calpha%20/2%7D%7D%29%5E%7B2%7D%7B%5Csigma%7D%5E2%7D%7BE%5E2%7D
n: 为样本量;
?%5Cfn_jvn%20%5C120dpi%20%7B%5Csigma%7D%5E2:方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;
(三) 对角线误差:一般对角线的误差为3mm以内,如果超过这个数值,直线是铺不出来的,而且影响施工量,比如一个工人一天可以铺30平方,由于对角线的差别大需要不断的调整、换板子,可能最后一天只能铺17平方,从而增加了人工成本,这个是隐形成本施工方可能会不太注意。有界性,即误差很大的概率几乎为零.从随机误差分布规律可知,增加测量次数,并按统计理论对测量结果进行处理可以减小随机误差.三、精密度、精确度与准确度用同一测量工具与方法在同一条件下多次测量,如果测量值随机误差小,即每次测量结果涨落小,说明测量重复性好,称为测量精密度好也称稳定度好,因此,测量偶然误差的大小反映了测量的精密度.根据误差理论可知,当测量次数无限增多的情况下,可以使随机误差趋于零,而获得的测量结果与真值偏离程度——测量准确度,将从根本上取决于系统误差的大小,因而系统误差大小反映了测量可能达到的准确程度.精确度是测量的准确度与精密度的总称,在实际测量中,影响精确度的可能主要是系统误差,也可能主要是随机误差,当然也可能两者对测量精确度影响都不可忽略.在某些测量仪器中,常用精度这一概念,实际上包括了系统误差与随机误差两个方面,例如常用的仪表就常以精度划分仪表等级.仪表精确度简称精度,又称准确度。稳定性是动态性能,稳态误差是稳态性能,最好的例子是,增加系统开环传递函数,可以减小稳态误差,但是系统稳定性变坏甚至不稳定,不是一个概念稳定性是数学或工程上的用语,判别一系统在有限的输入是否也产生有限的输出。
?%5Cfn_jvn%20%5C120dpi%20%5E%7Bz_%7B%5Calpha/2%7D%7D: 为可靠性系数,即置信度,置信度为95%时,?%5Cfn_jvn%20%5C120dpi%20%5E%7Bz_%7B%5Calpha/2%7D%7D=1.96,置信度为90%时,?%5Cfn_jvn%20%5C120dpi%20%5E%7Bz_%7B%5Calpha/2%7D%7D=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;
为了体现相对差距: 假设抽样均值为 y相对抽样误差 h = E / y变异系数 C= σ / y
?%5Cfn_jvn%20%5C120dpi%20n%5Capprox%5Cfrac%7B%28%7Bz_%7B%5Calpha%20/2%7D%7D%29%5E%7B2%7DC%5E2%7D%7Bh%5E2%7D
以下是基于抽样得分的抽样误差估算表格: 方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少;
置信度相对抽样误差(假设:C=0.4)
1%2%3%4%5%
95%61471537683384246
90%43301082481271173
如果是基于胜出率,支持率等: 分值为0/1状态分布,公式拟合为?%5Cfn_jvn%20n%5Capprox%5Cfrac%7B%28%7Bz_%7B%5Calpha%20/2%7D%7D%29%5E%7B2%7D%5Cpi%281-%5Cpi%29%7D%7BE%5E2%7D π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬殊需要的样本量越少;
置信度相对抽样误差
1%2%3%4%5%
95%960424011067600384
90%67651691752423270
从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;
附: 抽样误差/抽样量计算Excel表格(基于崔玮的表格修改)
11楼 网友于2016-3-2 19:52:29发表:10楼 网友于2016-3-2 19:48:11发表:9楼 网友于2015-10-6 14:45:50发表:8楼 网友于2015-7-17 1:25:53发表:。8楼 网友于2014-10-3 23:51:03发表: 7楼 网友于2014-10-3 23:50:12发表: 6楼 网友于2014-10-3 23:49:17发表: 5楼 网友于2014-10-2 23:52:29发表: 4楼 网友于2014-4-8 16:37:22发表: 3楼 网友于2014-1-29 23:19:36发表: 2楼 网友于2014-1-29 23:19:15发表: 1楼 网友于2013-9-6 16:44:09发表:。13楼 网友于2016-10-30 11:24:40发表: 12楼 网友于2015-11-27 12:52:47发表: 11楼 网友于2015-11-9 23:05:48发表: 10楼 网友于2015-10-2 23:26:13发表: 9楼 网友于2015-6-2 12:23:47发表: 8楼 网友于2014-9-29 21:45:14发表: 7楼 网友于2014-9-29 21:44:35发表: 6楼 网友于2014-9-27 15:58:33发表: 5楼 网友于2014-9-27 15:58:27发表: 4楼 网友于2014-7-14 16:22:42发表: 3楼 网友于2014-6-1 1:06:20发表: 2楼 网友于2014-2-17 15:22:45发表: 1楼 网友于2013-10-2 12:52:17发表:。
现在见俄打击有效抢风头