统计学总结

2020-03-03 03:50:54 来源：范文大全收藏下载本文

统计学（Statistics）：应用统计学的原理与方法，研究数据的搜集、整理与分析的科学，对不确定性数据作出科学的推断。

医学统计学（Medical Statistics）：应用统计学的原理与方法，研究医学科研中有关数据的搜集、整理和分析的应用科学。

统计学方法的特点: 1.用数量反映质量

2.统计逻辑：用群体规律估算/推测个体 3.手段：常通过部分个体估计总体

同质和变异（考试重点）

 同质（homogeneity）：据研究目的所确定的所有研究对象的相同属性。例子：身高、体重、年龄、容貌……  变异（variation）：同质研究单位中变量值间的差异，整个统计学甚至是整个科学研究存在的基础。

总体、样本和研究单位（考试重点）

 总体（population）：是根据研究目的确定的同质研究单位的全体。统计学人员习惯将其叫做同质研究单位某种变量值的集合，包括有限总体和无限总体。  样本（sample）：是总体中抽取的一部分个体。包括随机抽样和非随机样本。  样本含量（ sample size）：样本中包含的研究单位数。  观察单位（observed unit）：也叫个体或研究单位，它是研究中的个体（individual），完全由研究目的确定。它可以是一个（群）人、一只动物和一个细胞。

变量、变量值和资料（考试重点）

 变量(variable）：按特定目的确定的研究单位的某种特征或属性。

 变量值（value of variable）：变量的观察或检测结果，也叫变量的观测值。  资料（data）：在特定目的指引下而确定的变量及其变量值。  计量资料(measurement/quantitative/numerical data）：其特征是能够用数量衡量，通常具体计量单位。按照变量值是否连续又可分为连续型（continuous/interval）和离散型（discrete）两类按特定目的确定的研究单位的某种特征或属性（请举例）。要特别注意比值资料，如细胞凋亡率。

 计数资料(enumeration/qualitative/categorical/ nominal data）：是将观察单位按某种属性或类别分组计数，分组汇总各组观察单位数后而得到的资料。其变量值是定性的，表现为互不相容的属性或类别。按变量值类别的多少又分为二分类和多分类两种类型（举例）。

 等级资料（ordinal categorical/rank/semi-quantitative data）：是将观察单位按某种属性的不同程度分成等级后分组计数，分组汇总各组观察单位数后而得到的资料，其变量值具有半定量性质。（举例，如血清反应强度、疗效）

参数和统计量（考试重点）

 参数（parameter）：根据总体中所有个体值计算出来的特征量/指标，一般用希腊字母表示。  统计量（statistic）：根据样本个体值计算出来的描述的特征量/指标，一般用拉丁字母表示。

 总体参数一般是不知道的，统计工作的目的是：通过样本统计量估计推测总体参数。

误差、随机误差、系统误差和非系统误差（考试重点）  误差（error）：泛指实际观测值与真值之差，也即样本指标/统计量与总体指标/参数之差。

 按误差产生的原因分为：系统误差、非系统误差和随机误差。

 系统误差（systematic error）：由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因，使观察值不是分散在真值两侧，而是有方向性、系统性或周期性地偏离真值。

 非系统误差（nonsystematic error）：由于研究者偶然失误而造成的误差。例如：仪器失灵、抄错数据、点错小数点、写错单位等，亦称过失误差（gro error）  测量值 = 真值 + 随机误差 + 非随机误差

 随机误差：是一类不恒定的、随机变化的误差，由于多种目前尚无法控制的因素引起。如：在同一条件下对某一实验进行多次重复，虽极力对其进行控制或消除系统误差后，但实验结果却不尽相同。  抽样误差（sampling error）：由于抽样所造成的样本统计量与总体参数的差别。随机抽样误差不可避免，具有统计规律性，主要由个体差异（变异）

频率、概率和小概率事件（考试重点）

 频率（relative frequency）: 一次随机试验有几种可能结果，在重复进行试验时，各种结果看来是偶然发生的，但当重复试验次数相当多时，将显现某种规律性。例如，投掷一枚硬币，结果不外乎出现“正面”与“反面”两种

 概率（probability）概率是度量随机事件发生可能性大小的一个数值。设在相同条件下，独立地重复n次试验，随机事件A出现 f 次，f/n 则称为随机事件A出现的频率。当 n 逐渐增大时，频率 f/n 趋向于一个常数，则称该常数为随机事件A的概率，可记为 P（A），简记为P。概率的取值范围： 0≤ P（A）≤1。

 频率是就样本而言的，而概率从总体的意义上说的，频率是概率的估计值。试验次数（样本含量）越多（越大），估计就越可靠。

 小概率事件: 统计分析中的很多结论都基于一定置信程度下的概率推断，小概率是研究人员确定的统计判断或决策标准，习惯上将概率小于0.05或0.01定为小概率事件。研究人员认为小概率事件在一次试验中不可能发生，这即是统计决策必须付出的代价。

医学统计工作的基本步骤 1.设计（design）

 设计阶段主要涉及实验的三要素（对象对象、研究因素、实验效应）、四原则（对照、随机、重复和均衡）和设计方法。

 包括专业设计和统计设计。根据研究对象的不同可将医学科研设计分为：实验设计、调查设计和临床实验设计。

2.收集资料（collection of data）（1）资料来源

 第一手资料：统计报表（传染病报表、职业病报表、医院工作报表、死亡登记、疫情报告等）；经常性工作记录（卫生监督记录、健康检查记录、病历等）；专题调查、实验或临床试验。

 第二手资料：已公布的资料，特别是官方出版物，以及其他各种类型的数据。

（2）对资料要求

 完整：观察单位及观察指标应尽可能地完整  准确：即真实、可靠。真实是统计学的灵魂  及时：即时限性

3.整理资料（sorting data）

 目的：通过对原始数据的条理化、系统化和数量化的处理，使得其能够满足统计分析的需要，特别是要满足统计软件的要求。因此，国外有些教材也把该阶段称作数据筛查（data screening）

 评估数据质量，弥补缺失值或补做调查或实验，确保数据准确、可信。

4.分析资料（analysis of data）（考试重点）

 目的：揭示样本数据中潜藏的内在联系和规律，借以估计总体的特征，从而达到支持决策的目的。

 包括统计描述（统计图、表、统计指标）和统计推断（假设检验和置信区间）。

资料的类型

 定量资料: 可直接利用原始测量值进行分析，也可将其分为几类，完全取决于研究目的。

 无序资料: 二项分类资料（赋值进行量化）和多项分类资料（必须采用哑变量）举行分析。

 有序数据：可直接进行量化处理。

统计描述：采用合适的统计指标、统计图和统计表来表达数据分布的特征和规律。极差（range）也称全距，即最大值和最小值之差，记作R。（考试重点）

编制频数表的步骤 1.求极差 2．确定组距(i)

3．写组段（分为12个组段）组下限（L）：每个组段的起点组上限（U）：每个组段的终点

4．分组段划记并统计频数

（1）对称分布：若各组段的频数以频数最多组段为中心左右两侧大体对称，就认为该资料是对称分布。

（2）偏态分布：

 右偏态分布也称正偏态分布:右侧的组段数多于左侧的组段数，频数向右侧拖尾。（考试重点）

 左偏态分布也称负偏态分布：左侧的组段数多于右侧的组段数，频数向左侧拖尾。（考试重点）频数表和频数分布图用途 1．描述数据分布类型

2．描述频数分布的特征

3．便于发现一些特大或特小的可疑值； 4．便于进一步做统计分析和处理。

集中趋势：遴选最合适的代表值。

离散趋势：评判代表值对总体代表的程度。

集中趋势的描述（考试重点）统计上使用平均数（average）这一指标体系来描述一组变量值的集中位置或平均水平。（考试重点）常用的平均数有:算术均数、几何均数、中位数

 算术均数：简称均数（mean）。可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。（考试重点）适用于对称分布，特别是正态分布或近似正态分布的资料。

 几何均数（geometric mean）：可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用于成等比级数的资料，特别是对数正态分布资料。  中位数（median）：是将变量值从小到大排列，位次居于正中间的那个变量值。当数据个数为奇数时，取位次居中的变量值；当为数据个数为偶数时，取位次居中的两个变量值的平均值。各种分布类型的资料，特别是偏态分布资料和含有不确定数值的资料。

 百分位数（percentile）是一种位置指标，用

来表示，读作第X 百分位分数。

离散趋势的描述（考试重点）

常用统计指标：极差、四分位数间距、方差、标准差和变异系数。

极差或全距（Range），用R表示：即一组变量值最大值与最小值之差。

四分位数间距，用QR表示：QR=p75-p25 下四分位数：QL=P25 上四分位数;QU=P75 方差（variance）也称均方差（mean square deviation），反映一组数据的平均离散水平。

标准差：方差的开方

变异系数（coefficient of variation）记为，多用于观察指标单位不同时的变异程度的比较；或均数相差较大时变异程度的比较。（考试重点）

正态分布的概念：如果随机变量X的分布服从概率密度函数

(X)2221f(X)e2

X则称服从正态分布，记作



( 

, 

2 ) μ为X的总体均数，



2为总体方差。 X

百分位数法：公式：双侧1-α参考范围 P100α/2~ P100-100α/2 单侧1-α参考范围 >P100或

医学参考值（reference value）是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数，也称正常值。由于存在个体差异，生物医学数据并非常数而是在一定范围内波动，故采用医学参考值范围（medical reference range）作为判定正常和异常的参考标准。

双侧 :即指标过高和过低都不正常，如：血清总胆固醇、血压、体重等等。

单侧：即仅在指标值过低或过高才被认为不正常，如：血清转氨酶仅过高异常、肺活量。

计算医学参考值范围的常用方法：

 正态分布法（当资料服从正态分布）

 百分位数法（当资料不服从正态分布）

抽样误差:由于存在个体差异，抽得样本的均数不太可能恰好等于总体均数，因此通过样本推断总体会有误差。这种由个体变异产生的、抽样造成的样本统计量(statistic)与总体参数(parameter)的差异，称为抽样误差。（常考内容）

标准误(standard error, SE):表示样本统计量抽样误差大小的统计指标。均数标准误：说明均数抽样误差的大小，总体计算公式

X n

t 分布: 若某一随机变量X服从总体均数为X、总体标准差为2N(, )，的正态分布则可通过u变换( )将一般正态分布转化为标准正态分布N(0,12)，即u分布.t 分布特征

1.单峰分布，以0为中心，左右对称； 2.自由度3.当越小，则t值越分散，t分布的峰部越矮而尾部翘得越高；

X逼近, SX逼近, t分布逼近u分布，故标准正态分布是t分布的特例

参数估计 :用样本统计量推断总体参数。总体均数估计：用样本均数推推断总体均数

点估计：就是用相应样品统计量直接作为其总体参数的估计值。如用ˉX估计μ，S估计σ等。其方法虽简单，但未考虑抽样误差的大小。

区间估计：是按预先给定的概率（1-α）所确定的包含位置总体参数的一个范围。该范围称为参数的可信区间（confidence bound/confidence interval, CI）；预先给定的概率1-α称为可信度或置信度（confidence level）,常取95﹪或99﹪，如果没有特别说明，一般取双侧95﹪。

可信区间的两个要素

（1）准确度：用可信度（1）表示：即区间包含总体均数的理论概率大小。它愈接近1愈好，如99%的可信区间比95%的可信区间要好。

（2）精确度：即区间的宽度。区间愈窄愈精确，如95%的可信区间比99%的可信区间要好。

假设检验的步骤

1.建立检验假设，确定检验水准

① =0：即检验假设，常称无效假设或零/原假设，用H0表示。

② 0：即备择假设，常称对立假设，用H1表示。 ③ ：即检验水准，也称显著性水准。是预先规定的概率值，它确定了小概率事件的标准。在实际工作中常取=0.05。 2.计算检验统计量

应根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。 3.确定P值

按照所选择的统计方法计算P值。P值的含义是指从H0规定的总体中随机抽样，抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u)值的概率。

4.下结论

 将上述计算所得概率P与检验水准进行比较，判断其是否为小概率事件，从而得出结论。一般来说，结论应包含统计结论和专业结论两部分。统计结论只说明有无统计学意义，而不能说明专业上的差异大小。必须将二者结合起来，才能得出符合客观实际的结论。

 若P≤，则结论为按所取的检验水准，拒绝H0，接受H1，有统计学意义(统计结论)，可认为……不等或不同(专业结论)。；

 若P>，则结论为按检验水准，不拒绝H0，无统计学意义（统计结论），还不能认为……不等或不同（专业结论）。

t检验和u检验的应用条件

1.t检验应用条件

样本含量n较小时(如n

(2)方差齐性

2.u 检验应用条件

样本含量n较大，或n虽小但总体标准差已知 ( 1)方差齐性(homogeneity of variance) 总变异:全部测量值大小不同，这种变异称为总变异。

离均差平方和:总变异的大小可以用离均差平方和(sum of squares of deviations from mean，SS)表示，即各测量值Xij与总均数差值的平方和，记为SS总。

组间变异:各处理组由于接受处理的水平不同，各组的样本均数 (i＝1，2，…，g)也大小不等，这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示，记为SS组间。

均方差，均方(mean square，MS)。

MS组间MS组内SS组间组间SS组内组内完全随机设计：(completely random design)是采用完全随机化的分组方法，将全部试验对象分配到g个处理组（水平组），各组分别接受不同的处理，试验结束后比较各组均数之间的差别有无统计学意义，推论处理因素的效应。

随机区组设计(randomized block design)又称为配伍组设计，是配对设计的扩展。具体做法是：先按影响试验结果的非处理因素（如性别、体重、年龄、职业、病情、病程等）将受试对象配成区组(block)，再分别将各区组内的受试对象随机分配到各处理或对照组。

率：说明某现象发生的频率或强度。常以百分率（%）、千分率（‰）、万分率（1/万）、十万分率（1/10万）等表示，计算公式为：某时期内发生某现象的观察单位数率比例基数同期可能发生某现象的观察单位总数

构成比：表示事物内部某一部分的个体数与该事物各部分个体数的总和之比，用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。

相对比简称比（ratio），是两个有关指标之比，说明两指标间的比例关系。两个指标可以是性质相同，如不同时期发病数之比；也可以性质不同，通常以倍数或百分数（%）表示。

应用相对数的注意事项

1、计算相对数应有足够数量即分母不宜太小。

2、不能以构成比代替率 3.正确计算合计率 4.注意资料的可比性

动态数列(dynamic series)：是一系列按时间顺序排列起来的统计指标（可以为绝对数，相对数或平均数），用以观察和比较该事物在时间上的变化和发展趋势。常用的动态数列分析指标有：绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。

二项分布（binomial distribution）是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验（常常称为n重Bernoulli试验）中，当每次试验的“阳性”概率保持不变时，出现“阳性”的次数X=0，1，2，…，n的一种概率分布。

二项分布的适用条件

1.每次试验只会发生两种对立的可能结果之一，即分别发生两种结果的概率之和

恒等于1；

2.每次试验产生某种结果（如“阳性”）的概率π固定不变；

3.重复试验是相互独立的，即任何一次试验结果的出现不会影响其它试验结果出

现的概率。

Poion分布（Poion distribution）作为二项分布的一种极限情况，已发展成为描述小概率事件发生规律性的一种重要分布。Poion分布是描述单位面积、体积、时间、人群等内稀有事件（或罕见事件）发生数的分布。

Poion分布的适用条件

假定在规定的观测单位内某事件（如“阳性”）平均发生次数为λ，而其样本计数为X（X=0，1，2，„）。则在满足下面三个条件时，有X～P(λ)。

1.普通性

在充分小的观测单位上X的取值只能为1个，不能同时取多个值。 2.平稳性

X的取值只与观测单位的大小有关，而与观测单位的位置无关。

3.独立增量性

在某个观测单位上X的取值与其他各观测单位上X的取值无关。

卡方检验目的：推断两个总体率或构成比之间有无差别

多个总体率或构成比之间有无差别

多个样本率的多重比较

两个分类变量之间有无关联性

频数分布拟合优度的检验。检验统计量：X2 应用：计数资料

X2分布的一个基本性质是可加性

参数检验

如果总体分布为已知的数学形式，对其总体参数作假设检验。如： t 检验和 F 检验。

非参数检验:对总体分布不作严格假定，又称任意分布检验（distribution-free test），

它直接对总体分布作假设检验。

秩转换的非参数检验应用范围：对于计量资料：

1.不满足正态和方差齐性条件的小样本资料；

2.分布不明的小样本资料；

3.一端或二端是不确定数值（如＜0.5、＞5.0等）的资料（必选）；对于等级资料：若选行×列表资料的 x2检验，只能推断构成比差别，而选秩转换的非参数检验，可推断等级强度差别。

wilcoxon秩和检验，用于推断两个独立样本所来自的两个总体分布是否有差别。

直线回归

目的：研究应变量Y对自变量X的数量依存关系。

特点：统计关系。 X值和Y的均数的关系，不同于一般数学上的X 和Y的函数关系。

回归模型的前提条件:线性(linearity)独立(independent)正态(normal)等方差(equal variance)

ˆabX (91)直线回归方程的一般表达式为

Ya 为回归直线在 Y 轴上的截距,b为回归系数，即直线的斜率.

残差(residual)或剩余值，即实测值Y与假定回归线上的估计值的纵向距离。

直线回归方程的求法:原则：最小二乘法(least sum of squares)，即可保证各实测点至直线的纵向距离的平方和最小.

22SSlll2回决定系数(coefficient of determination) RXYXXXYSS总lYYlXXlYY

取值在0到1之间且无单位，其数值大小反映了回归贡献的相对程度，也就是在Y的总变异中回归关系所能解释的百分比。

(YY)SSSS总=SS回+SS残，总即，为Y的离均差平方和，表示未考虑X与Y的回归关

2系时Y的总变异。

直线相关(linear correlation)又称简单相关(simple correlation)，用于双变量正态分布(bivariate normal distribution)资料。目的：研究两个变量X,Y数量上的依存（或相关）关系。特点：统计关系

相关系数（correlation coefficient）又称Pearson积差相关系数，用来说明具有直线关系的两变量间相关的密切程度与相关方向。

相关系数没有单位，其值为-1≥ r≥ 1。r值为正表示正相关，r值为负表示负相关，r的绝对值等于1为完全相关，r=0为零相关。

(XX)(YY)l样本相关系数的计算公式为

rXY lXXlYY(XX)2(YY)2

秩相关适用条件：双变量计量资料： ①资料不服从双变量态分布； ②总体分布型未知，

一端或两端是不确定数值（如＜10岁，≥65岁）的资料；原始数据（一个或两个变量值）用等级表示的资料。

曲线拟合：当发现散点图中应变量 Y 和自变量 X 间表现出非线性趋势时，可以通过曲线拟合方法来刻画两变量间数量上的依存关系。

几种曲线拟合：对数曲线、指数曲线、抛物线、S型曲线

统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式；

统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统计数据。

制表的基本要求

(1)标题：概括表的主要内容，包括研究的时间、地点和研究内容，放在表的上方。

(2)标目：分别用横标目和纵标目说明表格每行和每列数字的意义，注意标明指标的单位。 (3)线条：至少用三条线，表格的顶线和底线将表格与文章的其它部分分隔开来，纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开，或用横线将两重纵标目分割开。其它竖线和斜线一概省去。

(4)数字：用阿拉伯数字表示。无数字用“—”表示，缺失数字用“”表示，数值为0者记为“0”，不要留空项。数字按小数位对齐。 (5)备注：表中数字区不要插入文字，也不列备注项。必须说明者标“*”号，在表下方说明。

常用统计图

1．直条图(bar chart) 2．圆图(pie chart)和百分比条图(percent bar chart) 3．线图(line graph) 4．直方图(histogram) 5．统计地图(statistical map) 6．其他特殊分析图

箱式图(box plot) 茎叶图(stem-leaf plot) 误差条图(error bar chart)

线图是用线段的升降来表示数值的变化，适合于描述某统计量随另一连续性数值变量变化而变化的趋势，最常用于描述统计量随时间变化而变化的趋势。

箱式图(box plot)使用5个统计量反映原始数据的分布特征，即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数，中间横线是中位数，两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。

多因素试验资料的方差分析设计类型：析因设计各因素各水平的全面组合处理组合数 g = 各因素水平数之积。

正交试验：非全面组合，g个处理组是各因素各水平的部分组合，即析因设计的部分实施。

嵌套试验：非各处理因素各水平的全面组合，而是各因素按隶属关系系统分组，各因素水平没有交叉。

裂区设计：两因素析因设计的特殊形式。

单独效应指其他因素的水平固定时，同一因素不同水平间的差别。主效应指某一因素各水平间的平均差别/不考虑其他因素下的效应。

交互作用当某因素的各个单独效应随另一因素变化而变化时，则称这两个因素间存在交互作用。

析因设计变异分解 SS总SS处理SS误差 SSASSBSSABSS误差

重复测量资料

目的：推断处理、时间、处理×时间作用于试验对象的试验指标的作用。

资料特征：处理因素 g （≥1 ）个水平，每个水平有n个试验对象，共计 gn个试验对象。时间因素同一试验对象在m（≥2 ）个时点获得m个测量值，共计gnm个测量值。方法：方差分析

单组前后测量设计与配对设计的区别区别

区别点配对设计单组前后测量设计

N 两实验单位可随机分配

观测时间同期两时间点 N 试验数据与差值关系独立

分析指标平均差值平均差值、相关回归

推断组间差别前后差别

logistic回归分析目的：作出以多个自变量（危险因素）估计应变量（结果因素）的logistic回归方程。属于概率型非线性回归。

用途：研究某种疾病或现象发生和多个危险因素（或保护因子）的数量关系。

logistic回归种类: 1.成组（非条件）logistic回归方程。 2.配对（条件）logistic回归方程。

优势比OR(odds ratio) 流行病学衡量危险因素作用大小的比数比例指标。计算公式为：

P/(1P 1)ORj1 P0/(1P0)

logistic回归的应用及注意事项 1．流行病学危险因素分析 2．便于控制混杂因素效应 3．预测与判别

等级变量和无序分类变量的数量化样本含量的计算（经验标准和科学计算）

模型拟合优度（偏差、显著性检验、假决定系数、AIC、BIC和预测准确率）二分类logistic回归、有序logistic回归和多分类logistic回归的选择

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

统计学总结

相关推荐