5.4. 使用偏移指标
您可以在 Red Hat OpenShift AI 中使用以下数据偏移指标:
- MeanShift
MeanShift 指标计算测试数据集中的数据值来自与培训数据集中相同的分布值(假设这些值通常分布式)。此指标测量两个数据集之间特定功能的方法的不同。
MeanShift 对于识别数据分发中的直接更改很有用,例如当整个发行版已转移到功能的左侧或右侧。
此指标返回"真实世界"数据所看到的发行版可能源自与引用数据相同的发行版。更接近的值是 0,很可能有显著的偏移量。
- FourierMMD
FourierMMD 指标提供了概率:测试数据集中的数据值已从培训数据集分发中偏离,假设计算的最大 Mean Discrepancy (MMD)值通常会被分发。此指标使用 Fourier 域中的 MMD 测量比较数据集的 empirical 发行版。
FourierMMD 有助于检测数据分布中的细微变化,这些变化可能被更简单的统计措施覆盖。
此指标返回可能性,"real world"数据所看到的分布已从引用数据中偏离。更接近的数值是 1,很可能存在显著的偏移量。
- KSTest
KSTest 指标计算每个列的两个 Kolmogorov-Smirnov 测试,以确定数据集是否从同一发行版衍生而来。此指标测量数据集的电子累积分发函数(CDF)之间的最大距离,而不假设任何特定的底层分布功能。
KSTest 有助于检测分布形式、位置和规模的变化。
此指标返回"真实世界"数据所看到的发行版可能源自与引用数据相同的发行版。更接近的值是 0,很可能有显著的偏移量。
- ApproxKSTest
ApproxKSTest 指标执行大约 Kolmogorov-Smirnov 测试,确保与确切的 KSTest 相比的最大错误为
6*epsilon。ApproxKSTest 有助于检测执行精确 KSTest 的大型数据集的更改。
此指标返回"真实世界"数据所看到的发行版可能源自与引用数据相同的发行版。更接近的值是 0,很可能有显著的偏移量。