更简单的统计测试是否能正确表征数据集
空间环境数据与常用统计分析之间不匹配的研究表明,在许多情况下,简单的统计就足够了。环境科学家和他们的统计学家同事面临着一个共同的困境:更简单的统计测试是否能正确表征数据集?是否值得努力推导出和应用可能更匹配但更难以解释的统计方法?在大多数情况下,阻力最小的路径会获胜,但选择简单的统计基础可能会对统计得出的研究结果的有效性产生轻微怀疑。
KAUST 研究员 Marc Genton 和他的博士生 Yuan Yan 开发了一个框架来准确测试数据和统计分析之间的不匹配可能有多不准确,结果令人惊讶。
“研究人员倾向于用简单的高斯模型拟合空间数据——围绕平均值的经典对称钟形曲线——即使数据可能具有不对称分布,特征与高斯分布不同,”严说。“我们在错误的高斯假设下研究了数据的‘非高斯性’对统计估计和预测的影响。”
高斯分布通常是直观的,平均值和与平均值的标准偏差意味着数据的一些窄或宽分布。它们被广泛应用和理解,无论是从从业者的角度还是从非技术用户的角度来看。但是,在许多情况下,特别是对于环境数据,数据的分布是有偏差的。例如,风速和降雨量不能小于零,但平均值较小但分布扩展到较高值的高斯分布可能会在下端有一个尾部延伸到负值——当然是错误的,但有多少?
空间统计分析中最重要的概念之一是数据在相隔一定距离时相互影响的强度,这由所谓的协方差函数给出。Genton 和 Yan 开始系统地研究应用高斯模型来估计非高斯数据的协方差函数的效果。
“我们开发了一种量身定制的模拟方案,以生成具有给定协方差结构的非高斯空间数据,”Genton 说。“我们通过模拟研究表明,当空间数据是非高斯数据时,协方差参数的高斯似然估计器仍然比非严重偏斜数据的替代加权最小二乘估计器表现更好。”
该发现表明,在许多情况下,简单的高斯模型实际上通常足以用于空间数据的参数估计,这为空间科学家选择统计方法提供了一些安慰。