异常值判定程序通常包括以下几个步骤:
异常值检测
图示法:通过箱盒图、散点图等图表直观展示数据,找出异常数据点。
描述分析:利用最大最小值、平均值、标准差等统计量进行初步判断。
正态分布分析:根据正态分布特性,数据落在均值±3个标准差之外被视为异常值。
频数分析:通过频数分布判断数据是否有异常值。
异常值判定
设定标准:根据业务需求和数据特性,人为设定异常值判定标准,如小于设定标准的数字、大于设定标准的数字、大于3个标准差等。
统计检验方法:
Grubbs检验:通过计算和查对临界值表来判定和剔除异常值。
Z-Score法:基于正态分布,将数据映射到标准正态分布中,以均值和标准差判断数据是否为异常值。
3-Sigma原则:数据落在均值±3个标准差之外的概率约为0.27%,超出此范围的数据点被认为是异常值。
异常值处理
设置为Null:将异常值标记为缺失,这是最简单的一种处理方式,适用于异常值较少的情况。
填补法:
填补平均值:用数据的平均值填补异常值位置。
填补众数:用数据的众数填补异常值位置。
填补中位数:用数据的中位数填补异常值位置。
填补随机数:用随机数填补异常值位置。
这些步骤和规则可以帮助我们系统地检测、判定和处理异常值,以确保数据的质量和分析的准确性。在实际应用中,可以根据具体的数据类型和分析需求选择合适的异常值检测方法和判定标准。