一文读懂可解释机器学习简史，让你的模型再也不是「black box」

admin 2023-12-28 16:14:09 举报

模型组件分析是一个很好的工具，但它的缺点是与特定的模型相关，不能很好地与常用的模型选择方法相结合。通常通过机器学习搜索很多不同的ML模型进行交叉验证。

统计不确定性

许多IML方法，例如特征重要性的排列和组合，在没有量化解释的不确定性的情况下提供了解释。

模型本身及其解释是基于数据计算的，因此存在不确定性。目前，该研究试图量化解释的不确定性，如逐层分析特征重要性的相关性。

因果解释

理想情况下，模型应该反映其潜在现象的真实因果结构，以便进行因果解释。如果在科学中使用IML，因果解释通常是建模的目标。

然而，大多数统计学习程序只反映特征之间的相关性结构并分析数据生成过程，而不是其真正的内在结构。这样的因果结构也会使模型对攻击的抵御能力更强，作为决策的依据时会更有用。

一文读懂可解释机器学习简史，让你的模型再也不是「black box」

Zx。WNFcW.cn

比如今天的天气直接导致明天的天气，但我们可能只使用了“地面湿滑”的信息。在预报模型中使用“滑地”来表示明天的天气是非常有用的，因为它包含了今天的天气信息，但是由于ML模型中缺少今天的天气信息，所以不能因果解释。

Zx。WNFcW.cn

特征依赖

特征之间的相关性引入了归因和推断。例如，当特征相互关联并共享信息时，就很难区分特征的重要性和功能。

随机森林中的相关特征具有很高的重要性，许多基于敏感性分析的方法将取代特征。当被替换的特征对另一个特征有一定的依赖性时，关联就会被打破，获得的数据点会外推至分布之外的区域。