统计数据能讲述全部真相吗?康奈尔学者提出“ABCs”方法以减少偏差

有人常说统计数据不会说谎,但在涉及社会经济状况、种族、性别等类别变量的研究中,统计建模方式可能影响结论呈现。康奈尔大学农业与生命科学学院统计与数据科学副教授丹·科瓦尔(Dan Kowal)提出一种名为“ABCs”(abundance-based constraints,基于丰度的约束)的方法,旨在提升统计效能并减少偏差,以便更清晰地研究影响健康与生命结果的因素在不同人群中的差异。

科瓦尔在发表于《美国统计协会杂志》(Journal of the American Statistical Association)的论文《通过统计高效的类别修饰符促进异质效应估计》中介绍称,传统做法在统计模型中加入亚群体效应等复杂结构时,往往会改变简单模型下的总体效应估计,并可能导致标准误膨胀、引入群体偏差;而ABCs的设计目标之一,是在扩展模型以刻画异质性时不改变总体效应估计。

科瓦尔表示,这项研究起源于他在莱斯大学期间与环境流行病学家的合作,当时研究团队关注社会与环境压力因素如何影响人类健康,以及不利暴露如何在儿童健康与教育结果上叠加与累积。相关研究需要同时获得总体效应与特定群体(包括种族与社会经济群体)的结果,但在模型中显式纳入不同亚群体效应,可能使总体效应发生变化,并带来统计精度下降。

他指出,常见统计分析方法(包括广泛使用的参考组编码)通常需要将类别变量数值化,并通过设定“参考组”来进行比较,这在亚群体与参考组对照时可能引入偏差。在种族比较中,参考组常被设为白人,模型将其他群体与之对照,偏差风险由此产生。

在论文示例中,科瓦尔估计四年级学生阅读成绩如何随种族居住隔离(RI)以及母亲种族变化。他表示,采用标准统计方法时,模型输出可能将白人(参考组)的RI效应呈现为总体效应,从而使研究者误以为该效应较小。科瓦尔认为这种解读具有误导性,并称ABCs的结果显示,总体RI效应实际上“高度显著且为负”,同时黑人学生的RI效应“明显比平均水平更差”。

据介绍,ABCs提供了一种在不选择参考组的情况下同时估计总体效应与亚群体效应的方案。科瓦尔称,在该框架下,总体效应可被自然地理解为各亚群体效应按“亚群体丰度”加权后的平均值,因此解释更清晰,也不偏向任何单一群体。他同时表示,ABCs在统计效率方面的表现也是其研究中的重要发现。

科瓦尔强调,他希望借此提醒研究者关注线性回归等基础且广泛使用的方法在处理种族等变量时的潜在问题。他表示,线性回归对于理解效应如何随亚群体变化至关重要,但在处理此类类别变量时需要谨慎;ABCs正是在这一考虑下提出,目标是在保持总体视角的同时识别亚群体之间的重要差异。


分享:


发表评论

登录后才可评论。 去登录