样本量和检验效能估计的 Excel 快速实现
收稿日期:2015-04-03通讯作者:王昌富 * 华中科技大学同济医学院附属荆州医院检验医学部 文章编号:1004-4337(2015)06-0791-05 中图分类号:R195 文献标识码:A·医学数学模型探讨·样本量和检验效能估计的Excel快速实现周治年 彭长华* 肖秀林* 王昌富*(湖北省荆州市中心血站 荆州 434100)摘 要: 目的:探讨对假设检验资料进行样本量和检验效能估计的 Excel快速实现的方法。方法:在 Excel工作表中,利用Excel函数ASIN、BINOMDIST、FINV、NORMSINV、NORMSDIST等,将α、β、容许误差δ、标准差σ、总体率π等原始数据与最终估计的样本量和检验效能部署在同一界面,将其他中间计算数据隐藏,最终统计分析结论可随原始数据立即呈现。结果:建立“样本量和检验效能估计”的Excel工作表后,对常用的几种假设检验资料进行样本量和检验效能估计时仅仅录入相关的α、β、容许误差δ、标准差σ、总体率π等,不须再录入任何统计公式和命令,就能立即得到样本量和检验效能的估计值。
为了使实验结论客观、明确、可重复验证,我们对此次取证分析过程中的界定范围、测试方法、可选工具引入了一些限制条件,也为用户、系统、使用tor浏览器套件的方式做了必要的前提假设,即操作系统采用默认方式安装,且假设用户不知如何发现和移除tor浏览器套件的使用痕迹。这样,我们先把score排序(假设score越大,此样本属于正类的概率越大),然后一边扫描就可以得到我们想要的auc。聚类分析可以定量描述每个样本之间的关系,将不同地区的人参加以分类,避免主观误差,使所得结论更具有客观性和可信性。
确定要求达到的检验效能等参数后可估计样本量,反过来,当样本量确定后也可估计检验效能。医学研究中最常见的统计分析是进行假设检验,对于事前的样本量估计和事后的检验效能估计目前逐渐引起了研究者的注意,为此,我们建立了对假设检验资料快速进行样本量和检验效能估计的Excel工作表,使研究前后的这两项工作变得简单快速。1 材料和统计学原理1.1 材料(统计学教材中的例题)例1:拟比较甲、乙两药对某病的疗效,按完全随机设计预试验甲药20例有效率为60%、乙药20例有效率为85%,拟进一步作治疗试验,问至少要观察多少病例(α=0.05、β=0.1)?对预试验进行假设检验并估算检验效能(α=0.05)。例2:若采用配对设计,甲药有效率为 65%、乙药为50%,两药阳性一致率为40%,(假设甲乙两药都有效的 16例,都无效的10例,甲有效而乙无效的 10例,甲无效而乙有效的 4例),拟进一步作治疗试验,问至少要观察多少对 病例(α=0.05、β=0.1)? 对预试验进行假设检验并估算检验效能(α=0.05)。例3:在一个队列研究中,前人研究结果估计相对危险度RR约为1.75,且非暴露组人群的患病率为0.2,以α=0.05、β=0.10,对 RR作检验,需多大的样本? 以α=0.05,估计 RR下限RRL在0.9RR范围(ε=1-RRL/RR=0.1),需多大的样本? 若有资料非暴露组20例患病率为0.2、暴露组80例患病率为0.35,试估算检验效能(α=0.05,双侧)。
例3,《天津市区胃癌危险因素的配对病例对照研究》这个题目既有特点,也很具体。例3,《天津市区胃癌危险因素的配对病例对照研究》 (中华流行病学杂志,2001,22(5):362)这个题目既有特点,也很具体。病例对照研究不能计算各种率,只能计算暴露比值,故评价暴露与疾病关系采用比值比。
对预试验进行假设检验估算检验效能(α=0.05)。例7:用某升白细胞(单位109/L)药物预试验治疗 9名患者,用药前后白细胞差值的标准差为2.5,若要求白细胞平均上升1才算该药临床实际有效,问需多少例病人(α=0.05、β=0.1)? 对预试验进行假设检验估算检验效能(α=0.05)?例8:据以往的调查结果,缺碘地区母婴 TSH水平之间直线相关系数为 0.8,预试验 A中心 10对母婴相关系数为0.7,B中心12对母婴相关系数为0.6。取α=0.05、β=0.10。(1)要得到相关系数有统计学意义的结论,AB两中心分别至少要观察多少对母婴? (2)要得到与以往相关系数差异有统计学意义的结论,AB两中心分别至少要观察多少 对 母婴?(3)要得到AB两中心相关系数差异有统计学意义的结论,AB·197·数理医药学杂志2015年第28卷第6期两中心分别至少要观察多少对母婴? 对预试验进行检验效能估算。1.2 统计学原理样本量和检验效能估计的统计学计算公式见表1。样本容量计算公式excel表1 样本量和检验效能估计的统计学计算公式A样本量估计B检验效能估计注两 个 率的比较1成组设计n=(uα+uβ)22[arcsin(p1)-arcsin(p2)]2tβ=2n×arcsin(p1)-arcsin(p2)-tαarcsin(p)为 弧 度值(取值0~1.5708)2配对设计n=[2p×uα+2(p1-p0)(p2-p0)/p×uβp1-p2]2tβ=n× p1-p2 -tα2p2(p1-p0)(p2-p0)/pp0为两组阳 性 一 致率,p=(p1+p2-2p0)/2病例对照资料3配对(1∶1)设计n=[0.5×uα+uβ×p(1-p)]2(p-0.5)2×[p1(1-p2)+p2(1-p1)]tβ=n× p-0.5 ×p1(1-p2)+p2(1-p1)-0.5×tαp(1-p)p=OR∕(1+OR)≈RR/(1+RR)两个均数的比较4成组设计n1=n2=2×(tα+tβδ×s)2tβ=(n1+n2)/4×δ/s-tαs为两总体标准差的估计值,δ为两均数之差值5配对设计n=(tα+tβδ×s)2tβ= n×δ/s-tαs为差值的标准差,δ为两均数之差值相关系数的比较6推断ρ=0n=4[(uα+uβ)/ln(1+r1-r)]2+3uβ=n-34ln(1+r1-r)-uα7推断ρ=ρ0n=(uα+uβ)2/(z-z0)2+3uβ=n-3×12ln(1+r1-r)-12ln(1+ρ01-ρ0)-uα8推断ρ1=ρ2n1=n2=2(uα+uβ)2/(z1-z2)2+3uβ=12ln(1+r11-r1)-12ln(1+r21-r2)/1n1-3+1n2-3-uα把r变换为z∶z=12ln(1+r1-r) 1.2.1 样本量估计的统计学原理表中n1、n2为两样本量,估算时视两样本为相同大小,p1、p2为两总体率的估计值(取值 0~1),样本平均率p=(p1+p2)/2,uα、uβ分别为检验水准α、Ⅱ类错误概率β相对应的u值。
uα、uβ先用自由度df= ∞时的tα、tβ代入公式中求得第一次n(1),第二次用df= n(1)-1时的tα、tβ代入公式求第二次的n(2)……直至前后两次求得结果趋于稳定时为所求样本量。RR可信区间估计中的样本量估计:对于下限 RRL,要控制RRL在RR(1-ε)范围内,可推导出:n=u2α/2[(1-p1)/p1+(1-p2)/p2]/[ln(1-ε)]2,对于上限 RRU,公式中 1-ε换为1+ε。OR可信区间估计中的样本量估计:对于下限 ORL,要控制ORL在OR(1-ε)范围内,可推导出:n=u2α/2{1/[p1(1-p1)]+1/[p2(1-p2)]}/[ln(1-ε)]2,对于上限 ORU,公式中1-ε换为1+ε。1.2.2 检验效能估计的统计学原理Power计算过程是样本量估计值计算的逆过程,先计算uβ或tβ,然后用函数 NORMSDIST()或TDIST()得到对应的β。
当α=0.05时,双侧检验tα用函数TINV(0.05,n1+n2-2)表达;单侧检验tα用函数TINV(0.1,n1+n2-2)表达。若tβ≥0,Power=1-TDIST(tβ,n1+n2-2,1);因为 Excel函数TDIST(x,df,1)中要求x>0,若x<0用1-TDIST(-x,df,1)表达;所以当tβ<0时,β值用 1-TDIST(-tβ,n1+n2-2,1)计算,Power=TDIST(-tβ,n1+n2-2,1)。2 对假设检验资料快速进行样本量和检验效能估计的Excel 快速实现方法Excel有某一单元格可调用另一单元格的数据特点,将原始数据、中间计算数据及最终统计分析结论之间进行适当地调用,最终统计分析结论可随原始数据的变化立即呈现。按彭小娟等[2]介绍的方法,将假设检验资料的原始数据与最终统计分析结论部署在同一界面,将其他中间计算数据隐藏。使用时只需在指定单元格录入原始数据后立即可得到统计结论,使统计分析变得直观、快速。对假设检验资料快速进行样本量和检验效能估计的 Excel工作表如下列图 1~图 3所示(Excel表中各计算格公式略)。
典例 物体以一定的初速度冲上固定的光滑斜面,图 1-2-3 到达斜面最高点 c 时速度恰为零, 如图 1-2-3 所示. 已知物体第一次运动到 3 斜面长度4处的 b 点时,所用时间为 t,求物体从 b 滑到 c 所用的时间. 解析 法一 基本公式法设物体的初速度为 v0,加速度为 a, 1 则:xac=v0(t+tbc)-2a(t+tbc)2,① 1 xab=v0t-2at2,② 3 xab=4xac,③ 联立①②③解得 tbc=t。为了验证实现效果,采用一段gps轨迹信息,如图4所示,该gps位置信息坐标点为车辆行驶轨迹,表现出没有匹配到道路的误差样本,期望利用osm实现的地图匹配系统来进行修正。实验完毕应先断开电源 后取纸带. 3.防止碰撞:在到达长木板末端前应让小车停止运动,要防止钩码落地和小 车与滑轮相撞. 4.减小误差:小车的加速度要适当大些,可以减小长度的测量误差,加速度 大小以能在约 50 cm 的纸带上清楚地取出 6~7 个计数点为宜.热点一刻度尺的读数【典例 1】 如图 1-4-1 所示,用毫米刻度尺测量纸带中的计数点 0、1 之间 的距离为________ mm,0、2 之间的距离为________ mm,2、3 之间的距离为 ________ mm。
图1 成组设计的两个总体率比较时样本量及检验效能估计例2为配对设计的两个率的比较:在B3格录入两药都有效例数16、C4格录入都无效例数 10,在C3格录入甲有效而乙无效例数10,B4格录入甲无效而乙有效例数 4;在C36格录入α(0.05)、E36格录入β(0.1)后(Excel图省略),显示在B41格的124为甲乙两药要观察的配对对子数:{n=[( 2×0.175×1.658+2×(0.65-0.4)(0.5-0.4)/0.175×1.287)/(0.65-0.5)]2=124}。显示 在 B32、C32格 是 假 设 检 验 的χ2= 1.786,P=0.1814,统计结论是不能排除由抽样误差引起的两药疗效的差异,B35格为此结论的检验效能:0.464{tβ=[ 40×0.65-0.5 -1.686×2×0.175]/2×(0.65-0.4)(0.5-0.4)/0.175=-0.091},TDIST(0.091,38,1)= 0.464)。检验效能低,样本量不够。
忘不了昨日的美丽