统计学知识点(完整)

时间:2022-06-16 12:30:10 浏览量:

 基本统计方法 第一章

 概论 1 、 总体(Population):根据研究目的确定的同质对象的全体(集合); 样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。

 2 、 参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,就是固定的常数; 统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,就是在参数附近波动的随机变量。

 3 、 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。

 第二章

 计量资料统计描述 1 、 集中趋势:均数(算术、几何)、中位数、众数 2 、 离散趋势:极差、四分位间距(QR=P 75 -P 25 )、标准差(或方差)、变异系数(CV) 3 、 正态分布特征:①X 轴上方关于 X=  对称的钟形曲线;②X=  时,f(X)取得最大值;③有两个参数,位置参数  与形态参数  ;④曲线下面积为 1,区间  ±  的面积为 68、27%,区间  ±1、96 的面积为 95、00%,区间  ±2、58  的面积为 99、00%。

 4 、 医学参考值范围的制定方法:正态近似法:/2X u S ;百分位数法:P 2 、 5 -P 97 、 5 。

 第 三章 章

 总体均数估计与假设检验 1 、 抽样误差(Sampling Error):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可避免,产生的根本原因就是生物个体的变异性。

 2 、 均 数 的 标 准 误 (Standard error of Mean, SEM): 样 本 均 数 的 标 准 差 , 计 算 公式: /Xn    。反映样本均数间的离散程度,说明抽样误差的大小。

 3 、 降低抽样误差的途径有:①通过增加样本含量 n;②通过设计减少 S。

 4 、 t 分布特征: ①单峰分布,以 0 为中心,左右对称; ②形态取决于自由度  ,  越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高; ③当  逼近∞,XS 逼近X , t 分布逼近 u 分布,故标准正态分布就是 t 分布的特例。

 5 、 置信区间(Confidence Interval, CI):按预先给定的概率(1-  )确定的包含总体参数的一个范围,计算公式:/2, XX t S  或/2, XX u S  。95%CI 含义:从固定样本含量的已知总体中进行重复抽样试验,根据每个样本可得到一个置信区间,则平均有 95%的置信区间包含了总体参数。

 6 、 假设检验的基本原理: 小概率反证法的思想。

 ①反证法:从问题的对立面(H 0 )出发间接判断要解决的问题(H 1 )就是否成立。

 ②小概率事件:在H 0 成立的条件下计算检验统计量,根据概率分布确定检验水准  下P值

 大小,判断就是否为小概率事件(通常 P≤  视为小概率事件,  通常取),就是则拒绝 H 0 ,接受 H 1 ;否则尚不能拒绝 H 0 。

 7 、 假设检验一般步骤:①建立假设(反证法,H 0 与 H 1 ),确定检验水准(  );②计算统计量:u, t,F;③确定概率值 P,做出推断结论。

 8 、 t 检验需满足的条件:比较的两个样本相互 独立、均服从 正态分布。

 9、 、 P 的含义:就是指从 H 0 规定的总体随机抽样,抽得等于及大于(或/与等于及小于)现有样本获得的检验统计量(如 t、u 等)值的概率。

 10 、 Ⅰ Ⅰ 型错误(Type Ⅰ error):拒绝了实际上成立的 H 0 ,这类“弃真”的错误称为Ⅰ型错误,Ⅰ型错误的大小为检验水准   。

 Ⅱ 型错误(Type Ⅱ error):接受了实际上不成立的 H 0 ,这类“存伪”的错误称为Ⅱ型错误,Ⅱ型错误的大小用   表示,1-   表示检验效能。

   越小,   越大,增大样本量可以同时降低   与   。

 11、 、 置信区间与假设检验的区别与联系:①可以通过判断置信区间就是否包含零假设,判断单样本均数就是否来自已知的总体;②置信区间不但能回答差别有无统计学意义,还可提示差别有无实际意义。③假设检验可提供置信区间不能提供的信息,如 P 值与检验效能等。

 第 四章 章

 方差分析 1 、 方差分析的基本思想:根据研究目的与设计类型,把所有测量值的总变异按照 处理因素与水平等分解成两部分(组内变异与组间变异)或更多部分,同时把对自由度相应进行分解,再进行比较,评价由处理因素引起的变异就是否具有统计学意义。

 2、 、 方差分析的应用条件:各样本就是相互 独立的随机样本,均来自 正态分布的总体,各样本的总体方差相等(具有 方差齐性)。

 3 、 方差分析表: 变异来源 SS ν MS F P 组间变异 a g-1 a/(g-1) MS 组间 /MS 组内

  组内变异 b N-g b/(N-g)

  总变异 a+b N-1

 4 、 g=2 时,随机区组设计的方差分析与配对设计资料 t 检验等价, t F  。

 5 、 多个样本均数间的多重比较:①LSD-t 检验,即最小显著差异 t 检验,适用于一对或几对在专业上有特殊意义的样本均数间的比较;②Dunnett-t 检验:适用于g-1个实验组与一个对照组均数差别的多重比较;③SNK-q 检验:适用于多个样本均数两两之间的全面比较。

 第 五章 章

 计数资料的统计描述 1 、 相对数的类型:强度相对数(率,如死亡率、发病率等);结构相对数(构成比);相对比(如性别比等) 2 、 应用相对数的注意事项:①结构相对数不能代替强度相对数;②计算相对数应有足够的数量;③正确计算合计率;④注意资料的可比性;⑤对比不同时期资料应注意客观条件就是否相同;⑥样本率(或构成比)的抽样误差。

 3 、 标准化率(Standardization rate):采用标准化法进行计算,消除数据内部构成的差异,使标化后的合计率具有可比性,这种经过标化后的合计率称为标准化率。

 4、 、 标准化率的注意事项:①只适用于内部构成不同,影响总率的可比性的问题;②选择的标准不同,计算得到的标准化率也不同,多个标准化率比较时,应选同一标准;③标准化率已经不再

 反映当地的实际水平;④样本标准化率就是样本值,存在抽样误差。比较两样本标准化率,当样本量较小时,需做假设检验。

 第 六章 章

 几种离散型变量的分布及应用 1 、 二项分布 X~B(n,  )的适用条件:①每次试验只发生两种对立的可能结果之一;②每次试验产生某结果的概率  固定不变;③重复试验就是相互独立的。

 2 、 二项分布的性质:①阳性次数 X 的总体均数( n    )、标准差( (1 ) n      );②样本率 p 的均数(p   )、标准差((1 )pp pSn,即 率的标准误)。③二项分布的正态近似条件:np 与 与 n(1-p) 均大于 5 。

 3 、 泊松分布 X ~P(   ) 的性质:①总体均数  与总体方差  2 相等;②当 n 很大,  很小,且 np=  为常数时,二项分布近似泊松分布;③   ≥ ≥20 时,泊松分布近似正态分布;④泊松分布具备可加性。

 第 七章 章

   2 检验 1 、   2 检验的基本思想根据  2 分布特征通过比较实际频数与理论频数的差异确定在  成立的条件下该差异由抽样误差造成就是否为小概率事件进而判断差异就是否具有统计学意义。

  2 值反映了实际频数与理论频数的吻合程度。2、 、 R×C 列联表中的各格子 T≥1,并且 1≤T<5 的格子数不宜超过 1/5 格子总数,否则可能产生偏差。处理方法有三种:①增加样本量,使理论频数增大;②根据专业知识,删除或合并行列;③采用 Fisher 确切概率法分析。

 3 、 有序分组资料表线性趋势检验: ① 双向无序的 的 R ×C 列联表:多个样本率的比较采用 R×C 列联表的  2 检验;两个分类变量的关联性分析则采用 R×C 列联表的  2 检验与 Pearson 列联系数进行分析。

 ② 单向有 序的 的 R ×C 列联表:行有序而列无序:R×C 列联表的  2 检验;行无序而列有序,采用Wilcoxon 秩与检验。

 ③的 双向有序属性相同的 R ×C 列联表:配对四格表的扩展,采用一致性检验(Kappa 检验)。

 ④ 双向有序属性 不的 同的R ×C 列联表:样本率的比较采用Wilcoxon秩与检验;相关性分析采用Spearman 相关分析;线性变化趋势分析采用有序分组资料的线性趋势检验或 CMH  2 检验等 。

 第 八章 章

 非参数 检验 1 、 秩与检验的适用范围:①总体分布偏态的计量资料;②数据两端有不确定值;③等级资料;④各组离散程度相差悬殊,总体方差不齐的资料。

 2 、 非参数检验对总体分布的形状差别不敏感,只对总体分布位置差别敏感;非参数检验没有充分利用资料信息,较参数检验的检验效低。故 能用参数检验尽量采用参数检验, 不满足参数检验条件才使用非参数检验。

 3 、 不同数据类型的统计分析路径: (1)样本均数与总体均数的比较:正态,样本均数与总体均数的 t 检验;非正态,Wilcoxon 符号秩检验。

 (2)两样本均数比较:①独立正态:两独立样本 t 检验;②独立非正态:两独立样本的 Wilcoxon 秩

 与检验;③配对设计差值正态,配对 t 检验;④配对设计差值非正态,Wilcoxon 符号秩检验。

 (3)多样本均数比较:①独立正态(方差齐),方差分析;②独立非正态 Kruskal-Wails H 检验;③非独立正态,重复测量资料的方差分析;④非独立非正态,Friedman M 检验 第 九章 章

 双变量回归与相关 1 、 直线回归应满足的条件:自变量与因变量呈线性关系、观察值之间相互独立、因变量 Y随机正态、对任何 X 因变量 Y 的标准差相等。直线 回归方程的一般形式为:ˆY a bX   , a 为截距, b 为回归系数,回归系数的估计采用 最小二乘法原则(Least Squares Method,使残差平方与最小)进行估计。

 2 、 决定系数(coefficient of determination):回归平方与与总平方与的比值,R 2 =SS 回 /SS 总 。R 2取值 0~1 之间无单位,其数值大小反映回归贡献的相对程度,即总变异中回归模型能够解释的百分比。

 3 、 秩相关的应用适用范围:(1)不服从双变量正态分布而不宜作 Pearson 相关分析;(2)总体分布型未知;(3)等级资料的相关分析。

 4 、 相关与回归的区别与联系区别 (1) 区别: ① 资料:回归分析资料要求 Y 为正态随机变量,X 为选定变量;相关分析资料 X、Y 服从双变量正态分布。

 ② 应用:回归分析就是由一个变量值推算另一个变量值(依存关系);相关分析只反映两个变量间的相互关系。

 ③ 回归系数 b 与原度量单位有关,而相关系数 r 无关。b 的绝对值越大,回归直线越陡,即 X变化 1 个单位时 Y 的平均变化越大;r 的绝对值越大,所有点越趋近于一条直线,两变量的关系越密切,相关度越高。

 (2) 联系: ① r 与 b 值可相互换算,YY XXl l b r  ; ② r 与 b 正负号一致; ③ r 与 b 的假设检验等价:对于同一资料b rt t  ,检验完全等价; ④ 回归可解释相关。相关系数的平方 r 2 (决定系数)就是回归平方与与总的离均差平方与之比(SS 回 /SS 总 )。

 5 、 应用直线回归时的注意事项 (1)作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。

 (2)在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。

 (3)建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。

 (4)直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。

 第 十章 章

 统计表与统计图

 1 、 统计表的基本要求 求 (1) 标题:概括表的主要内容(时间、地点、研究内容等),放在表的上方。表编号与标题间间隔一个汉字距离;如整个表指标统一,还应将指标的单位标在标题后面。

 (2) 标目:分别用横标目与纵标目说明每行与每列内容或数字的意义,标明指标的单位。通常描述的对象为横标目,内容(指标)为纵标目,从左向右读可以构成完整的一句话。

 (3) 线条:至少用 3 条线:顶线、底线与纵标目线。顶线与底线将表格与文章其她部分分隔开,纵标目线将标目的文字区与表格的数字区隔开,还可用横线将合计与两重纵标目隔开,其她竖线与斜线一概省去。顶线与底线线条粗细一般为 1、5 磅,其她线条一般为 0、5 磅。

 (4) 数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“…”表示,数值为 0 者记为“0”,不留空项。数字按小数点位数对齐,同一指标最好保留相同位数的小数位数。

 (5) 备注:表中数字区不要插入文字。必须说明者表“*”,在表下方以备注的形式说明。

 高级统计方法 第 十二章 章

 重复测量资料的方差分析 1 、 重复测量设计与随机区组设计的区别:(1)重复测量设计中“处理”就是在区组(受试者)间随机分配,区组内的各时间点就是固定的,不能随机分配;(2)重复测量设计区组内实验单位彼此不独立; 2 、 球对称(sphericity):所有两两时间点变量间差值对应的方差相等,即重复测量的误差的协方差经正交对比变换后与单位矩阵成比例。

 3 、 重复测量资料方差分析的资料条件: (1)正态性:处理因素的各水平样本个体间就是相互独立的随机样本,其总体均数服从正态分布(个体间独立,个体内不独立); (2)方差齐性:相互比较的各处理水平的总体方差相等,即具有方差齐同; (3)各时间点组成的协方差阵具有球形性特征。

 第 十五章 章

 多元线性回归分析 1 、 偏回归系数(partial regression coefficient):多元线性回归模型中自变量 X j 的系数  j ,表示在其她自变量保持不变时,X j 增加或减少一个单位就是 Y 的平均变化量。

 2、 、 复相关系数(multiple correlation coefficient):2R R  ,表示因变量 Y 与多个自变量的线性相关程度,也就是观察值 Y 与估计值 ˆ Y 之间的相关程度。若只有一个自变量, Rr 。

 3 、 标准化回归系数:对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系数,jj jYSb bS    ,用来比较各个自变量jX 对Y的影响强度,在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对 Y 的作用越大。

 4 、 多元线性回归模型(0 1 1 2 2ˆm mY X X X e           ) 应满足的条件:① Y 与X 1 ,X 2 ,…,X m 之间具有线性关系;② 各例观察值 Y i 相互独立;③ 残差 e 服从正态分布。

 5 、 哑变量(dummy variable):在多元线性回归模型中,当自变量为多分类变量(g 个水平)时,

 需要将原来的多分类变量转化为(g-1)个哑变量并进行编码,每个哑变量只代表两个级别或多个级别间的差异。

 应用哑变量时要注意:① 哑变量同时存在,其统计学意义就是相对而言的,不能采用常规的逐步回归进行变量选择;②可采用加与不加入哑变量的偏回归平方与 F 检验确定哑变量有无意义。

 6、 、 多重共线性(collinearity):某些自变量间存在较强的线性关系,使得一个或几个自变量可以由另外的自变量的线性关系表示,则该变量与另外的自变量间存在多重共线性。多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、t 检验不准确、估计值的正负符号与实际不符等。

 7 、 交互作用:当某一自变量对因变量的作用大小与另一自变量的取值有关,则这两个自变量有交互作用。就是否考虑交互作用主要靠专业知识判断。为了检验两个自变量就是否具有交互作用,普遍的做法就是在模型中加入它们的乘积项(作为交互项)。

 8 、 线性回归分析的 SAS 结果解释:

 (1)线性回归方程:ˆ2.99422 0.99733 Y x   ; (2)该线性回归模型的统计学检验结果:模型的方差分析统计量 F=6、91,P=0、0303<0、05,说明该线性回归模型具有统计学意义。

 (3)R-Square=0、46353 的意义:该线性回归模型可以解释因变量 Y 的总变异的 46、353%; (4)回归系数估计值 b=0、99733 的意义:表示 X 对 Y 影响的大小,X 每改变一个单位,Y 改变 0、99733 个单位;其假设检验结果合方差分析结果的联系:方差分析结果说明 X 与 Y 之间存在的线性关系,t 检验结果说明计算得到的回归系数 b 有统计学意义,在此问题中,二者就是等价的,均说明该回归模型具有统计学意义。

 (5)相关系数及其检验结果并解释该结果:r=0、68073,对 r 进行 t 检验得到 P=0、0303<0、05,则该相关系数具有统计学意义,说明 X 与 Y 之间具有中等强度的正相关关系。

 第 十六章 章

 Logistic 回归分析

 1 、 logistic 回归模型一般形式:0 1 1ln logit( ) exp( )1m mPP X XP         。将某事件的阳性与阴性结果概率之比去自然对数称为 logit 变换,记为 logit (P)。

 2 、 回归系数j 采用 最大似然估计(maximum likelihood estimate, MLE,使在一次抽样中获得现有样本的概率最大)得到表示自变量 X j 改变一个单位时 logit P 的改变量。多变量调整后的优势比 exp( )j jOR   ,表示扣除了其她自变量的影响后危险因素的作用。OR j =1,说明 X j 对疾病发生不起作用 OR j >1,说明 X j 就是一个危险因素;OR j <1,说明 X j 就是一个保护因素,OR j 的1   可信区间为:/2exp( )jj bb u S 。

 3 、 logistic 回归模型假设检验的方法: 似然比法(1 02(ln ln ) G L L   ,适合单个与多个自变量的假设检验)、Wald 检验(jjbbuS或22jjbbS     ,适合单个自变量的假设检验)与 计分检验(适合样本量较小的情况)。变量筛选的方法:前进法、后退法、逐步法。

 4 、 条件 logistic 回归:适用于 1:M 配对设计资料,条件似然函数估计的就是在 M+1 个观察对象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险因素作用的j ,表示匹配组效应的常数项0 被消去。

 5 、 有序 logistic 回归基于累积概率构建回归模型,g 个类别的因变量 Y 的有序 logistic 回归包括 g-1 个方程,这些方程的回归系数均相同,差别主要体现在各方程的常数项0 不同。在对因变量 Y 赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。

 6 、 多分类 logistic 回归就是二分类 logistic 回归的扩展,即选择一个参照类别,拟合剩余各类别相对于参照类别的 logistic 回归模型。

 第 十七章 章

 生存分析 1 、 生存分析的数据特点:(1)同时考虑生存时间与生存结局;(2)通常含有 删失数据(censoring,可能的原因:①研究截止但终点事件仍未出现;②失去联系或其她原因导致失访;③死于其她“事件”);(3)生存时间的分布通常不服从正态分布。

 2、 、 统计学分析方法:由于生存时间一般不呈正态分布,且需考虑就是否为删失值,所以生存分析有其独特的统计方法。

 (1) 非参数法: ① 生存率的估计采用 Kaplan-Meier 法、寿命表法(频数表资料); ② 两组或多组生存率的比较,常用log-rank 检验(时序法,权重 1i  , 对观察后期差别敏感 感)与 Breslow 检验(权重i in   ,in 为期初人数,随生存时间增大而逐渐减小,Breslow 检验给观察早期差别更大权重,故 对观察早期差别敏感)。

 (2) 半参数法:多因素生存分析常采用 Cox 比例风险模型( 前提条件:假定 风险比值 h(t)/h 0 (t)为 为固定值,即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法:①分类协变量每组的 K-M 生存曲线无交叉;②协变量与生存时间的交互项无统计学意义等。其参数估计方法为 最大似然法)。

 (3)参数法:指数分布法、Weibull 分布法等回归模型。

 3 、 多元线性回归、logistic 回归与 Cox 回归的相同点与不同点 (1) 相同点: ① 自变量可为连续变量与多分类变量,多分类变量需哑变量化,哑变量在模型中就是一个整体,必须同时“进”同时“出”; ② 自变量间存在较强相关关系时可能导致多重共线性问题; ③ 自变量间可能存在交互作用,模型中通常采用自变量的乘积作为交互项; ④ 均可采用逐步回归筛选变量; ⑤ 均可进行影响因素分析、混杂因素校正、预测分析等。

 (2) 不同点:

 第 十八、十九章 章

 判别分析与聚类分析 1 、 判别分析(discriminant analysis):根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的 判别函数与 判别准则,然后根据这个判别函数与判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。

 2 、 Fisher 判别准则:它使得类间点的距离最大,而类内点的距离最小,适合于两类的判别分析;Bayes 判别准则:它使得每一类中的每个样本都以最大的概率进入该类,适合于多类的判别分析。

 3 、 评估判别函数的判别效能:原始数据的分类要可靠准确;指标变量对判别函数的作用要显著;判别函数的回代错判率与事后概率错误率要小。

 4 、 聚类分析(Cluster Analysis):对于总体分类未知的一群事物依照“物以类聚”思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。

 5 、 聚类分析与判别分析的区别 与联系 (1) 区别: ① 聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类; ② 聚类分析事先不知道事物的类别,也不知道应分几类;而判别分析必须事先知道事物的类别,也知道应分几类; ③ 聚类分析不需要分类的历史资料,能直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。

 (2) 联系:先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别((identification ) 第 二十章 章

 主成分分析与因子分析 1 、 主成分的性质 (1)主成分互不相关; (2)主成分的贡献率与累积贡献率:贡献率越大,表明主成分综合原始指标信息的能力越强;累积贡献率越高,说明前 k 个主成分综合原始资料信息的比例越高; (3)主成分个数的选取:① 以累计贡献率确定:累积贡献率≥70%为宜;②以特征根值大小确定:特征根值≥1。

 (4)因子荷载:因子荷载反映主成分与原始指标间密切程度与作用方向; (5)样品的主成分得分:根据主成分表达式计算样品的主成分值,推断与评价样品的特性。

 2 、 因子模型的性质: (1)公共度:共性方差 反映全体原始指标 X i 对所有公因子的依赖程度; (2)因子贡献及因子贡献率: 的值越大,则 F j 对原始指标的影响越大; (3)因子荷载及因子荷载矩阵:因子荷载反映公因子与原始指标间密切程度与作用方向; 2 、 主成分分析与因子分析的区别与联系 (1) 联系: ① 都就是根据变量之间内部相关性来提取主要信息,获得新的变量(公因子变量与主成分变量),达到减少变量个数( 降维)的目的; ② 主成分分析模型两端同时乘以A,则有 X

 A F   ,即为无特殊因子的公因子模型; ③因子分析的结果(主成分解)即为主成分分析的结果,因子分析的主因子解也常常由主成分分析的结果作为 的初始值计算。

 (2) 区别: 主成分分析就是将 m 个原变量 提取 I (I ≤m) 个互不相关的主成分, 准确计算各主成分的得分,其分析重点在于 通过主成分综合原始变量的信息; 因子分析就是取 提取 I (I ≤m) 个支配原变量的共性因子与 1 个特殊因子,各 因子之间可以互不相关或相关,根据共性因子得分系数 估计因子得分,其分析重点就是 通过寻找共性因子解释原始变量之间的关系。

 第 二十一章 章

 典型相关分析 1 、 典型相关(Canonical Correlation Analysis):就是研究 两组变量之间相关性的一种统计分

 析方法。就是一种 降维技术。

 2、 、 典型相关分析基本思想:借助主成分分析的思想,分别计算得到两组变量的主成分,根据主成分综合原始变量信息的能力配对得到第 i 对典型相关变量(U i ,V i )。两个第一主成分间的相关程度最大,即构成了第一对典型相关变量(U 1 ,V 1 )。根据典型相关变量计算典型相关系数,更加全面得反映原来两组变量之间的整体相关性。

 3、 、 典型相关系数(canonical correlation coefficient):第 i 对典型相关变量间(U i ,V i )的相关系数称为第 i 典型相关系数,反映了两组变量中存在的多种相关信息中第 i 大的一种。

 医学研究的统计学设计

 1 、 统计学设计内容:研究对象(分组、设置对照、样本含量)、处理因素、观察指标、数据的质量控制与管理、统计分析方法。

 2 、 研究设计的三要素:受试对象、处理因素、实验效应。

 3 、 实验设计的基本原则:重复、对照、随机化 4 、 随机的三个含义: 分组随机-均衡性:每个研究对象有同等机会被分配到各处理组 抽样随机-代表性:总体中每个观察个体有同等机会被抽取 实验顺序随机:每个研究对象先后接受处理的机会相同 5 、 影响样本含量大小的因素: 样本含量的估计时,通常就是由犯 犯 I 类错误的概率   、能 检验效能 1- -   、 个体值间的离散度 程度 S、以及 容许误差 d 来确定样本含量。

 6 、 常用的随机抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。

 7 、 对照类型:、空白对照、实验对照、标准对照、相互对照、自身对照 与 诊断试验评价与 ROC 分析

 1 、 常用指标:正确百分率、灵敏度、特异度、Youden 指数、阳性似然比、阴性似然比、阳性预测值、阴性预测值。

 诊 断 结 果 (T) 金标准(D) 合

 计 病例(D + ) 对照(D - ) 阳 性(T + ) TP(真阳性) FP(假阳性) TP+FP 阴 性(T - ) FN(假阴性) TN(真阴性) FN+TN 合计 TP+FN FP+TN N 2 、 ① 灵敏度与特异度取值范围均在 0~1 之间,其值 不受患病率的影响;② Youden 指数的取值范围在0~1之间,其值越接近于1,诊断 准确性越好;③ 阳性似然比的取值范围为(0, ∞),其值越大 大,检测方法 证实疾病的能力越强;④ 阴 阴 性似然比的取值范围为(0, ∞),其值越 小,检测方法 排除疾病的能力越好;⑤ 当灵敏度与特异度为常数时, 增加患病率将 增加阳性预测值,而降低阴性预测值。

相关热词搜索: 统计学 知识点 完整