5.4. 使用偏移指标


您可以在 Red Hat OpenShift AI 中使用以下数据偏移指标:

MeanShift

MeanShift 指标计算测试数据集中的数据值来自与培训数据集中相同的分布值(假设这些值通常分布式)。此指标测量两个数据集之间特定功能的方法的不同。

MeanShift 对于识别数据分发中的直接更改很有用,例如当整个发行版已转移到功能的左侧或右侧。

此指标返回"真实世界"数据所看到的发行版可能源自与引用数据相同的发行版。更接近的值是 0,很可能有显著的偏移量。

FourierMMD

FourierMMD 指标提供了概率:测试数据集中的数据值已从培训数据集分发中偏离,假设计算的最大 Mean Discrepancy (MMD)值通常会被分发。此指标使用 Fourier 域中的 MMD 测量比较数据集的 empirical 发行版。

FourierMMD 有助于检测数据分布中的细微变化,这些变化可能被更简单的统计措施覆盖。

此指标返回可能性,"real world"数据所看到的分布已从引用数据中偏离。更接近的数值是 1,很可能存在显著的偏移量。

KSTest

KSTest 指标计算每个列的两个 Kolmogorov-Smirnov 测试,以确定数据集是否从同一发行版衍生而来。此指标测量数据集的电子累积分发函数(CDF)之间的最大距离,而不假设任何特定的底层分布功能。

KSTest 有助于检测分布形式、位置和规模的变化。

此指标返回"真实世界"数据所看到的发行版可能源自与引用数据相同的发行版。更接近的值是 0,很可能有显著的偏移量。

ApproxKSTest

ApproxKSTest 指标执行大约 Kolmogorov-Smirnov 测试,确保与确切的 KSTest 相比的最大错误为 6*epsilon

ApproxKSTest 有助于检测执行精确 KSTest 的大型数据集的更改。

此指标返回"真实世界"数据所看到的发行版可能源自与引用数据相同的发行版。更接近的值是 0,很可能有显著的偏移量。

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat