桥东网站建设,低价网站建设哪家便宜,看国外网站如何做科普,个人网站要有什么编者 在临床研究中#xff0c;数据缺失是不可避免的#xff0c;甚至没有缺失#xff0c;数据的真实性都会受到质疑。 那我们该如何应对缺失的数据#xff1f;放着不管#xff1f;还是重新开始?不妨试着对缺失值进行填补#xff0c;简单又高效。毕竟对于统计师来说#… 编者 在临床研究中数据缺失是不可避免的甚至没有缺失数据的真实性都会受到质疑。 那我们该如何应对缺失的数据放着不管还是重新开始?不妨试着对缺失值进行填补简单又高效。毕竟对于统计师来说对缺失值进行填补也是日常工作之一。 今天为大家带来一篇CHARLS数据库有关缺失值填补的文章复现包括全部的代码与处理好的数据一并提供给诸位 复现文章介绍 今天要介绍的文章是发表在《中国慢性病预防与控制》IF2.18题为“中国城市老年人身体活动与衰弱的相关性研究” 的研究论文。研究结果显示中高身体活动有助于降低城市老年人的衰弱风险应对城市老年人开展衰弱筛查并重视身体活动在降低衰弱风险中的作用积极引导城市老年人进行身体活动。 本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT数据等资料 1. 研究设计 PPopulation参与者CHARLS2018年城市样本中 60~95岁的老年人。 Eexposure暴露因素身体活动水平PA。1周身体活动量MET-min/周对应身体活动的代谢当量MET×每天活动时间min×1 周活动天数d低水平身体活动 MET 赋值为 3.3中水平身体活动赋值为4.0高水平身体活动赋值为 8.0将600 MET-min/周划分为低水平身体活动≥600 MET-min/周划分为中高水平身体活动。 Ooutcome结局是否衰弱FI。FI 的计算方法为存在健康缺陷的指标数目除以纳入总数范围为 0~1本研究将衰弱定义为 FI≥0.25。 2. 统计学方法 利用多重填补法对缺失数据进行填补疾病维度的使用前一期调查数据使用多因素非条件logistic回归和分层logistic回归对结果进行分析。 3. 文章数据介绍 研究涉及charls数据库的变量如下表所示本次复现所用到的变量也与文章保持一致。 4. 研究结果 4.1 基线特征 2623 名城市老年人年龄为 60~95 岁平均年龄为69.3±7.3岁男性1259 人48.00%女性 1 364 人52.00%。城市老年人的衰弱率为 26.92%。不同年龄、性别、民族、婚姻、教育、地域、居住状态、医疗保险拥有情况以及身体活动水平的城市老年人衰弱率差异均有统计学意义 P0.05见表 1。 4.2 城市老年人身体活动与衰弱的相关性分析 衰弱情况0无1衰弱为因变量身体活动水平作为自变量进行 logistic 回归分析控制混杂因素后相比低身体活动中高身体活动的城市老年人衰弱风险更低OR0.24395%CI0.181~0.312P0.05。其他控制变量中除居住状态和医疗保险外其余因素均与老年人衰弱的发生相关均有统计学意义P0.05。见表 2。 4.3 中高身体活动对不同特征城市老年人衰弱的影响 以衰弱0无1衰弱为因变量身体活动水平0低水平1中高水平为自变量按性别、受教育水平、婚姻状况和地域进行分层 logistic 回归分析。结果显示与低身体活动相比进行中高身体活动对于女性、受教育水平偏高、未婚以及居住在中西部地区的老年人衰弱风险降低的作用更大P0.05见表 3。 R语言复现 本次复现包括的统计学方法有 基线差异性分析缺失数据填补多因素logistic回归分层logistic回归 1.数据导入 首先导入我们从charls数据库中提取处理好的数据本次复现数据包括3816名研究对象原文章n2623样本量略有出入这里大家请多关注统计方法的运用。 2.基线差异性分析 本次复现基线表格用到了tableone包这里“myVars”汇总了基线表中的全部变量其中有部分变量为分类变量则需要通过“catVars”进行指定否则分类数据也将以定量数据进行展示。 这里tab2中未指定分组变量则仅展示各变量的数据分布此外“showAllLevels TRUE”表示展示分类变量所有分类因子的结果“nonnormal ”指定的定量数据将以偏态分布进行分析如果所有定量数据都是偏态分布可以简洁的用“nonnormal TRUE”来表示。 最后将基线表结果输出保存在工作空间里这里我们设置保存为csv格式 3. 缺失值情况 首先对我们所需要用到的研究因素进行批量因子化并查看缺失值的特征进行缺失值可视化。 以下是可视化的结果。 4.缺失值填补多因素logistic回归 利用mice包进行缺失值的填补m多重插补法的数量默认为 5。method指定数据中每一列的输入方法。1数值型数据适用 pmm2二分类数据适用 logreg3无序多类别数据适用 ployreg4有序多分类变量适用 polr。默认方法为 pmm 。maxit迭代次数一般为 50。 使用with函数对所有数据集进行分析在填补的数据集中计算身体活动和衰弱指标按照分组标准进行赋值并进行多因素logistic回归最后使用pool函数对结果进行汇总输出。 结果展示 5.分层logistic回归 将各组挑出组成新的数据集在各个数据集中进行分层logistic回归。 结果展示 后记 缺失值填补简单来说就是人为的地给我们没有观测到的变量赋予一个值并将这个值用于分析。这样做虽然听起来可能比较主观不太科学但实际上这也是我们不得不采取的措施。 试验中存在缺失值本来是一件遗憾的事情但是我们可以适当“调整”对缺失进行填补这难道不比重新开始更方便吗 相信看完了全文的读者对于缺失数据填补已经有了大致的了解如果想要了解更多不妨关注本公众号我们会带来更多缺失数据文章的复现敬请期待 本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT数据等资料 本公众提供各种科研服务了 一、课程培训2022年以来我们召集了一批富有经验的高校专业队伍着手举行短期统计课程培训班包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求不妨点击查看发文后退款2024-2025年科研统计课程介绍二、数据分析服务浙江中医药大学郑老师团队接单各项医学研究数据分析的服务提供高质量统计分析报告。有兴趣了解一下详情课题、论文、毕业数据分析 临床试验设计与分析 、公共数据库挖掘与统计