AI说人“画” | 惊!可以用“随机森林”治疗选择恐惧症

摘要: 用一颗“决策树”,种出一片森林

12-11 05:22 首页 大数据文摘

大数据文摘力荐!原创小视频【AI说人“画”】系列。用轻松的手绘方式,讲清楚一些有趣的AI概念。

我们有号称所有聪明人中最酷的那个小姐姐!用灵魂手绘和欢脱语言,来和你聊聊最枯燥的理论!请收看5分钟中文小视频节目▼


hello大家好,我是Vicky,今天我们来聊聊“随机森林”~

某一天,小红想看个电影,但是她不确定自己会不会喜欢这个片子,于是她问她的朋友小明意见,小明先是一脸懵,但是因为小红长得好看所以决定....帮帮她吧

因为小明对她的口味也不是很了解,所以他先给了小红一些电影和电视剧,看看小红是不是喜欢 ——这些就是被标记的“训练数据集”。

比如,她喜不喜欢看《使徒行者》,喜不喜欢看《法证先锋》等等。随后,小红也反馈一些信息,比如她问,《使徒行者》是不是林峰演的? 《法证先锋》是不是警匪剧呀?

她先问的就是在她看来信息量最大的问题 (最大化每个问题的信息增益)综合这些问题之后给出一个“喜欢”或者“不喜欢”的答案。

此时,小明就是小红的决策树

但是就算小明再聪明,小明也只是一个人,也是太主观,所以说有可能过拟合。 于是,小红又问了小绿、小黄和小兰,请他们一起投票决定小红是否喜欢某部电影,这时,小红就建立了一个集成分类器,这种情况叫“森林”。

对,是“森林”

但是小红她不想问所有朋友一样的问题,她想给自己的模型增加点儿多样性,以免大家给她相同的答案。

所以她给小黄、小蓝和小绿各自的信息都是不一样的。毕竟她就是因为不清楚自己的喜好 才问大家的——她告诉小蓝她喜欢《爱情公寓》,可是原因可能有很多种,因为演员或者单纯觉得剧情好玩……所以她的朋友们肯定不能仅仅根据她喜欢《爱情公寓》这个事儿来给她建议。

她告诉小绿她喜欢《霸王别姬》,因为她既喜欢张国荣,又喜欢剧情,总之就是真爱。所以这时候,权重就应该多一点

总而言之,就是不能让小红的朋友们得到与小明相同的数据,而是给他们稍加扰动的版本。(你给每个朋友一个原始训练数据bootstrap抽样后的版本)。

再拿网易云音乐的推荐举例。

                                              = =怎么还是小红

我特别喜欢粤语歌,尤其是古巨基和张敬轩和侧田的,我也想要一些类型相近的但是不限于他们三个的歌儿。所以,我就不收藏他们,但是多赞一些他们的歌,这样呢,当网易云音乐给我推荐到不是他们三的歌的时候,我再点开相似推荐,就可以有越来越多的相近类型,但是不拘泥于几个歌手的歌了~(??)

利用刚才说的这种集成方法,小红希望她的每个朋友都有些特别的建议——小蓝认为她真心更喜欢《爱情公寓》,小绿认为她喜欢王宝强的电影,小黄认为她什么都不喜欢看,就是逗他们玩……

这样很多的误差都成功被抹掉了。因此,小红的朋友现在形成了一个她电影偏好的装袋(bootstrap aggregated)森林

然而还有一个问题:比如小红喜欢看古惑仔,可能真不是因为她喜欢郑伊健,也许由于是喜欢陈小春或者是其他原因她自己也不知道。

所以,她并不想要她的朋友们都基于一部电影中有没有郑伊健而给出建议。于是当每个朋友问她问题的时候,问的问题是从全部问题里随机选取的子集,当在建立决策树时,在节点选择分裂属性时加入一些随机性,

也就是说随机选择某些属性,或者在随机选择的子集里面选择属性。这个例子里面就是说,小红的朋友不能问某个电影里面有没有郑伊健这个问题,因此咱们之前给数据层面注入了随机性,现在在模型层面也注入了随机性~

好了,现在小红的所有朋友们就形成了一个随机森林。

所以“随机森林”就是样本抽样(行抽样)+ 特征抽样(列抽样)的树的集合。 

小红终于满意了

注:本来呢这期做的是《人的审美从何而来》,也就是上次大家的投票结果。不过今天收到一些反馈说是很多童鞋想要一些“AI说人画”的模型算法视频,所以临时改的这个,准备得比较仓促~(嗯,看出来了哈哈哈哈哈……小编被痛扁ing)

谢谢大家 么么哒~


内容策划及主播:凉亮

监制:Sophie,魏子敏

后期:郭丽(终结者字幕)

文案:韩蕊



优质课程推荐《人工智能的数学基础》

往期学员评价(by 张铮)


《人工智能的数学基础》这门课值得AI新人学习。

之前看李航的《统计学习方法》一直看不懂。上了这门课才知道以“凸优化-SVM”为一轴,以“梯度下降-矩阵”为一轴,内容相互交叉。学习课程之后,再看机器学习基础书籍就没有太多压力了。 真实体会。





志愿者介绍





回复志愿者”加入我们


往期精彩文章


点击图片阅读

AI说人“画” | 模型?搞出“面相”的老祖宗早已看穿了一切



首页 - 大数据文摘 的更多文章: