你的位置:庄闲和游戏官方网站 > 联系我们 > 庄闲和app R语言随机森林的模型解释(详细)

庄闲和app R语言随机森林的模型解释(详细)

时间:2026-01-14 03:04 点击:136 次

庄闲和app R语言随机森林的模型解释(详细)

图片

图片

图片

图片

图片

图片

图片

今天给大家介绍如何使用randomForestExplainer对随机森林模型的结果进行解释。

从名字就能看出来,randomForestExplainer是专门为randomForest包开发的模型解释R包,也是DrWhy.AI系列工具的一部分。

相比于其他的通用的模型解释R包,这个包有一些独特的功能,可以对随机森林模型进行非常详尽的解释。

安装
# 2选1install.packages("randomForestExplainer")devtools::install_github("ModelOriented/randomForestExplainer")
加载R包和数据

使用一个回归数据集进行演示。其中medv是结果变量(房价),其余是预测变量(13个预测变量)

library(randomForest)library(randomForestExplainer)data(Boston, package = "MASS")Boston$chas <- as.logical(Boston$chas)str(Boston)## 'data.frame':    506 obs. of  14 variables:##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...##  $ chas   : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...##  $ black  : num  397 397 393 395 397 ...##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
建立模型

建立随机森林模型:

添加localImp = TRUE表示需要计算每个预测变量对每个观测的预测结果的贡献。

set.seed(2017)forest <- randomForest(medv ~ ., data = Boston, localImp = TRUE)forest## ## Call:##  randomForest(formula = medv ~ ., data = Boston, localImp = TRUE) ##                Type of random forest: regression##                      Number of trees: 500## No. of variables tried at each split: 4## ##           Mean of squared residuals: 9.793518##                     % Var explained: 88.4
模型解释

下面会详细介绍这个R包的几个函数,通过从多个方面对这个结果进行解释。

最小深度分布

在决策树或者随机森林中,树的深度是一个重要的超参数,通常一个特征(变量)的深度越小,说明这个特征越重要(也不完全是这样哈)。

我们可以计算每个特征的深度分布,就可以大概了解这个特征的重要性。这个过程可以通过min_depth_distribution实现:

min_depth_frame <- min_depth_distribution(forest)head(min_depth_frame, n = 10)##    tree variable minimal_depth## 1     1      age             3## 2     1    black             5## 3     1     chas             9## 4     1     crim             2## 5     1      dis             4## 6     1    indus             3## 7     1    lstat             1## 8     1      nox             4## 9     1  ptratio             2## 10    1      rad             5

这个结果可以直接画出来,使用plot_min_depth_distribution即可可视化每个特征的最小深度的分布以及它的平均值:

plot_min_depth_distribution(min_depth_frame)

图片

{jz:field.toptypename/}

你直接把forest这个对象提供给plot_min_depth_distribution也是可以的,但是使用min_depth_frame的好处是,如果你要绘制多个最小深度的图,可以避免重复计算,这个计算过程还挺费时间的.

在计算平均最小深度时,plot_min_depth_distribution提供3种计算方法:

建站客服QQ:88888888mean_sample = "all_trees":没有用于分裂的变量的最小深度等于树的平均深度mean_sample = "top_trees":这个是默认设置.只使用其中一部分树进行计算mean_sample = "relevant_trees":忽略缺失值,只使用非缺失值计算平均最小深度

从上图来看dis这个变量的排名是高于indus的,因为平均深度小,但是从图中可以看出dis这个变量没有在深度为0时使用过,所以也有可能indus的排名应该靠前.

如果某个数据有许多缺失值,我们可以尝试使用mean_sample = "relevant_trees"来试试看结果会不会不同(对于我们这个数据结果一样)

plot_min_depth_distribution(min_depth_frame, mean_sample = "relevant_trees",                             k = 15)

图片

可以看到dis的排名还是高于indus的.

在查看这个最小深度分布图时,需要把平均值和分布综合来看,不能只看平局值.

变量重要性

直接计算变量重要性,这个过程也比较慢,但是会同时计算多种衡量变量重要性的指标:

{jz:field.toptypename/}
importance_frame <- measure_importance(forest)importance_frame##    variable mean_min_depth no_of_nodes mse_increase node_purity_increase## 1       age        3.21800        9070    4.2510362            1126.8328## 2     black        3.51400        8015    1.7101238             779.6626## 3      chas        6.45162         736    0.7706690             223.7377## 4      crim        2.55400        9388    8.2946300            2245.7347## 5       dis        2.54200        9210    7.3374224            2458.3168## 6     indus        3.43000        4239    5.6495909            2372.2088## 7     lstat        1.28600       11129   63.2892439           12394.3668## 8       nox        2.45400        6248   10.4210162            2814.5932## 9   ptratio        2.58800        4595    7.3896667            2665.5869## 10      rad        4.99746        2666    1.4400123             357.2610## 11       rm        1.42600       11514   33.9459827           12558.5167## 12      tax        3.31400        4420    4.8688001            1519.1153## 13       zn        5.85152        1633    0.7628575             332.5409##    no_of_trees times_a_root       p_value## 1          500            2 4.469233e-242## 2          500            1  7.699206e-95## 3          403            0  1.000000e+00## 4          500           20 1.774755e-298## 5          500            1 3.014263e-266## 6          500           63  1.000000e+00## 7          500          132  0.000000e+00## 8          500           40  9.508719e-01## 9          500           56  1.000000e+00## 10         499            3  1.000000e+00## 11         500          143  0.000000e+00## 12         500           33  1.000000e+00## 13         488            6  1.000000e+00

第一列是变量名字,后面是变量重要性的衡量指标,对于回归和分类显示的变量重要性是不一样的,我们这里是回归:

mean_min_depth:平均最小深度no_of_nodes:使用该变量进行分裂的总的节点的个数mse_increase:变量顺序被打乱后,均方误差的平局增加量node_purity_increase:使用某个变量分裂后,节点纯度的增加量,通过平方和的减少来衡量no_of_trees:使用该变量进行分裂的总的树的个数times_a_root:使用该变量作为根节点进行分裂的树的个数p_value:单侧二项分布检验的p值

如果是分类问题,会显示以下几列:

accuracy_decrease:当变量顺序被打乱后,平均预测准确率下降了多少gini_decrease:使用某个变量分裂后,基尼系数的平均减少量

可以看到结果中也是有mean_min_depth的,所以measure_importance也允许你使用不同的方法计算这个结果.

可以实现多个重要性指标可视化,就是同时可视化两个变量重要性指标.

比如同时展示mean_min_depth和times_a_root两个指标,同时把点的大小映射给no_of_nodes,其实是相当于展示了3个指标:

plot_multi_way_importance(importance_frame, size_measure = "no_of_nodes")

图片

也可以通过x_measure/y_measure指定不同的指标:

plot_multi_way_importance(importance_frame,                           x_measure = "mse_increase",                           y_measure = "node_purity_increase",                           size_measure = "p_value",                           no_of_labels = 5)## Warning: Using alpha for a discrete variable is not advised.

图片

还可以直接借助ggpairs比较多个变量重要性指标的关系,其实就是计算相关系数并进行可视化:

plot_importance_ggpairs(importance_frame)

图片

由于是借助了GGally包中的ggpairs这个函数,所以可以更改图形的分布形式,就可以用来展示不同指标的排名:

plot_importance_rankings(importance_frame)

图片

交互作用解释

在根据变量重要性指标选择好我们的变量之后,还可以探索下它们之间的交互作用。

比如我们先根据mean_min_depth和no_of_trees选择前5个最重要的变量:

(vars <- important_variables(importance_frame, k = 5,                              measures = c("mean_min_depth", "no_of_trees")))## [1] "lstat" "rm"    "nox"   "dis"   "crim"

然后探索交互作用(很慢):

interactions_frame <- min_depth_interactions(forest, vars)head(interactions_frame[order(interactions_frame$occurrences,                               decreasing = TRUE), ])##    variable root_variable mean_min_depth occurrences interaction## 33    lstat         lstat       1.279749         479 lstat:lstat## 8     black         lstat       2.464367         477 lstat:black## 53       rm         lstat       1.431866         475    lstat:rm## 3       age         lstat       2.178071         473   lstat:age## 18     crim         lstat       1.848217         473  lstat:crim## 23      dis         lstat       1.735482         473   lstat:dis##    uncond_mean_min_depth## 33                 1.286## 8                  3.514## 53                 1.426## 3                  3.218## 18                 2.554## 23                 2.542

这个结果给出了每个变量和其他变量交互作用的最小深度等信息,庄闲和游戏appoccurrences是交互作用出现的次数。

结果可视化:

plot_min_depth_interactions(interactions_frame)

图片

这个结果横坐标是变量间的交互作用,是按照交互作用出现次数递减排序的,最前面的是lstat:lstat,同时它的mean_min_depth也是最小的。

下面我们选择lstat:rm(你选择自己需要的)继续探索这个交互作用对预测结果的影响:

plot_predict_interaction(forest, Boston, "rm", "lstat")

图片

从图中可以看出,rm越大,lstat越小,房价越高。

生成报告

用一行代码可以生成一个详细的模型解释报告,里面包含所有结果,还有一些解释,非常方便:

explain_forest(forest, interactions = TRUE, data = Boston)
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。
服务热线
官方网站:hbghbeauty.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:2852320325
邮箱:hbghbeauty.com @qq.com
地址:武汉东湖新技术开发区光谷大道国际企业中心
关注公众号
庄闲游戏手机App

Copyright © 1998-2026 庄闲和游戏官方网站™版权所有

hbghbeauty.com 备案号 备案号: 沪ICP备2024083968号-11

技术支持:®庄闲游戏 RSS地图 HTML地图