漯河网站开发,修改wordpress语言设置,工程建设施工企业质量管理规范,保障性住房建设投资中心网站上一篇文章主要介绍了重复测量方差分析的基本思想是什么、它能做什么、怎么做、结果怎么解释#xff0c;这几个问题。最后同时指出重复测量方差分析还是有一定局限#xff0c;起码不够灵活。所以本文在上一篇文章基础上继续介绍医学重复测量数据中第二种常用方法#xff1a;… 上一篇文章主要介绍了重复测量方差分析的基本思想是什么、它能做什么、怎么做、结果怎么解释这几个问题。最后同时指出重复测量方差分析还是有一定局限起码不够灵活。所以本文在上一篇文章基础上继续介绍医学重复测量数据中第二种常用方法广义估计方程(Generalized Estimated Equation, GEE)。同样本文也在原文基础上稍作修改有些地方加点通俗的注释以便感兴趣的读者更好理解。二、广义估计方程(一)广义估计方程的思想广义估计方程的计算过程很复杂但思想却并不难理解。该方法假定在多次测量之间存在一定的相关结构(广义估计方程中叫做作业相关矩阵)。对于重复测量数据而言最主要的问题就是存在各次测量之间的相关性从而不能用常规的线性模型等方法。所以广义估计方程思想很简单就是把这种相关进行校正一下然后得到校正后的参数估计值这样就比较可靠了。 (二)广义估计方程中的作业相关矩阵由于不同时间点观测之间的相关大小存在各种可能性因此作业相关矩阵也有多种常见的包括 (1)独立结构(independence structure)即不同时间点 上的测量值之间彼此独立无相关关系。这种结构因为数据完全独立实际上也无需考虑广义估计方程直接采用常规的广义线性模型即可。(2)等相关结构(exchangeable correlation structure)即 假定任意两次观测之间的相关性是相等的不随两个时间 点之间的间隔大小而改变。不管是第1次观测与第2次观测还是第3次观测与第5次观测相关系数都相等。(3)一阶相关结构(one‐dependent structure)表示某时间点的测量值只与其临近时间点的观测存在相关性而与其他时间点的观测无关。例如第2次观测只与第1次和第3次有相关而与第4次无关。 (4)自相关(autocorrelation)即相关大小与间隔次数有 关相邻两次观测之间相关较强间隔越远相关性越小。例如第 2次观测与第 1次和第 3次观测相关性较大与第4次观测的相关性较小。 (5)无结构相关(unstructured correlation)即假定不同 时间点观测值的相关系数各不相等不存在前面几种相关 结构的规律。 作业相关矩阵的选择是广义估计方程中很关键的一部分需要一定的统计学知识来判断。不少研究认为作业相关矩阵的选择对参数估计结果的影响不大。然而实际数据分析中指定不同的作业相关矩阵有时确实会产生不同的 参数估计值和标准误(尽管这种情况很少见)。尽管一般差别不大但笔者仍建议 尽量指定最为合适的作业相关矩阵以获得最可靠的估计结果。如何选择合适的作业相关矩阵建议结合以下两种方式综合考虑(1)根据不同时间点观测值的相关系数矩阵考虑。简单来说先计算各次相关系数大致观察一下相关系数情况然后进行判断。如果任意两次的相关系数差不多可考虑等相关如果相关系 数出现随时间间隔而规律性减小的趋势可考虑自相关如果无明显的规律可考虑无结构相关。理论上指定无结构相关最为稳妥可以满足任意情形的相关系数矩阵但它需要估计的参数也最多。例如对于 5次重复测量如果指定等相关只需要估计 1个参数即可(只有 1个相关系数)而无结构相关则需要估计任意两个时间点的相关系数即 10个参数估计参数过多容易导致统计学效能(power)的降 低。因此实际分析中需要综合考虑根据相关系数矩阵的 提示选择较为合理的作业相关矩阵。(2)结合QIC指标(quasi‐likelihood under the independence model criterion)选择。QIC类似于广义线性模型的拟合优度指标 AIC只是最大似然值换成了准似然值。对QIC不理解也无所谓关键知道其值越小表示选择的作业相关矩阵越合适。与AIC指标类似QIC 指标中也有对变量的惩罚项即 QIC 值不一定随着模型中 变量的增多而变小只有模型中含有意义的变量其值才会变小提示模型更优如果纳入无意义的变量其值反而会 升高提示模型变差。实际分析时可以分别指定不同的作业相关矩阵然后比较各自的QIC值选择其中较小者。 (三)广义估计方程的用途广义估计方程主要用于重复测量数据的分析这里的重复测量不仅包括临床试验中较为固定、时间点较少的情形也包括像生长发育监测、流行病学人群纵向观察等时间点较为灵活或时间点较多的情形。在临床试验的重复测量数据分析中广义估计方程也可以用于组间比较、时间点的比较、组间趋势变化的分析。在其他纵向观测数据中广义估计方程可根据研究目的进行灵活分析。 (四)广义估计方程的SAS软件实现我们仍然采用上一篇文章的数据作为例子。为了方便我们把上一篇文章的基本数据(表1)和图示(图1)放在下面免得大家来回翻。广义估计方程的操作需要先进行一定的探索确定作业相关矩阵(其实往往很多统计分析都是这样真正写在文章中的结果都是精华但其实可能前期我们已经做了非常多的工作但不可能把所有工作都写在文章里)。本例中我们分别指定了各种不同的作业相关矩阵结果均一致因此本例可任意指定一种作业相关矩 阵结果不受影响。简单起见我们指定作业相关矩阵为等相关。对例 1数据采用基于等相关作业相关矩阵的广义估计方程首先不加入时间与组别的交互项先分析时间与组别各自的主效应(主效应是基于所有人 (即不分组)的结果)。SAS程序如下data ex2 input id group time y cards…… proc gee dataex2class id time/paramreference reffirst model ytime grouprepeatedsubjectid/withintime typeexch corrw /*subject 指定个体变量重复测量数据中通常为个体的id编号within指定重复测量的变量通常是时间点变量type指定作业相关矩阵corrw指定输出作业相关矩阵*/run表 4 显示了组别与时间的主效应结果提示两组之 间 Y 值评分差异有统计学意义(P0.002)治疗后第 3周与 治疗前差异有统计学意义(P0.005)治疗后第 4周与治疗 前差异有统计学意义(P0.001)。主效应是基于所有人 (即不分组)的结果因此表 4 结果对应于上一篇文章重复测量方差分析表3 结果中的总体比较(尽管结果并不完全一致这很正常)。参数估计值显示了差异情况例如group 的参数估计值显 示组间差异为 7.8即试验组的均值(114.6)与对照组的均 值(106.8)相比高 7.8time 1 vs 0 的参数估计值显示组间差 异为 1.4提示第 1 周均值(108.9)比治疗前均值(107.5) 高 1.4。其余time 2 vs 0等的解释以此类推。如果分析中不加入时间与组别的交互项相当于假定两条线是平行的然而实际中这一假定并不一定满足。图1可以看出两条线可能不平行(虽然上一篇文章的重复测量方差分析并不认为两条线不平行但对于数据分析来说我们一开始并不知道都是通过简单图示探索先得到一定认识然后基于这种认识再深入分析)因此考虑在分析中纳入时间与组别的交互项以便观察两组的变化趋势是否有差异。加入交互项的SAS程序如下data ex2;input id group time y;cards; …… ;proc gee dataex2;class id time/paramreference reffirst;model ytime group time*group;/*这里加入了交互项以反映两条线是否平行*/repeated subjectid/withintime typeexch corrw;run;表5显示了加入组别与时间交互效应的结果。一旦加入交互效应组别与时间点反映的不再是主效应而是单独效应(这句话非常关键一定要牢牢记住)。因此如果想了解组别与时间点的主效应可以先不加入交互项。单独效应反映的不是所有人的估计结果而是某一亚组(如对照组的观测、第1周的观测等)的估计结果。下面这段结果的解释非常重要建议一定仔细看。对于想了解交互效应如何解释的朋友尤为重要。这一段不仅是对广义估计方程的解释也是对常见其它模型中存在分类变量交互项的解释。单独效应的结果与变量赋值有很大关系本例中试验组赋值为1对照组赋值为0时间点分别赋值为0~4。因此表5中group反映的不是所有人两组的差值而是治疗前这一时间点的两组差值(4.2)同样time 1 vs 0反映的也不是所有人在第1周与治疗前的差值而是对照组第1周与治疗前的差值(1.4)。 交互项的结果对应于重复测量方差分析表3结果中的分组比较。例如group*time(1 vs 0)的参数估计值为0它反映了第1周两组差值(4.2)与治疗前两组差值(4.2)的差值也可以说反映了试验组第1周-治疗前的值(1.4)与对照组第1周-治疗前的值(1.4)的差值(仔细体会一下这两种说法)两种说法均可取决于研究目的侧重说明什么。其他交互项的解释含义以此类推。(五)广义估计方程分析的注意事项(1)尽管广义估计方程需要考虑作业相关矩阵的设置但绝大多数情况下结果是一致的。建议实际分析中首先可指定不同的作业相关矩阵观察分析结果是否一致如果一致可以任选其一否则可根据相关矩阵和QIC综合考虑选择最合适的作业相关矩阵。(2)广义估计方程的结果比重复测量方差分析更接近模型的形式因此不少非统计学专业人员可能对结果的解读存在一定困难尤其是加入交互项的结果解读需要仔细体会否则很容易出现结果的解释错误。 (3)广义估计方程比重复测量方差分析在分析思路上更为灵活但这同时需要对统计学知识和软件操作的更高要求因为广义估计方程的结果与自变量赋值有很大关系。例如对时间点赋值0~4与赋值为1~5二者给的结果会有不同。这一点其实在所有的模型类都是如此分类资料的赋值很重要。(4)广义估计方程对缺失值比重复测量方差分析更为耐受。它是基于完全随机缺失的假设(关于随机缺失等概念参见以前文章下一篇文章也会再次介绍)因此完全随机缺失模式对广义估计方程的结果影响不大此时其参数估计值仍是稳定的但如果是随机缺失仍会影响广义估计方程的结果这种情况下可 考 虑 加 权 的 广 义 估 计 方 程(Weighted Generalized Estimating Equations)该法是基于随机缺失的假定但仅限于失访模式(即一个人在某个时间点缺失后后面的时间点均无数据)。