www.xf2800.com

AI产物司理必懂算法:决策树

更新时间:2019-04-14   浏览次数:

  案例:假设现正在我们想预测的是,女性到底想要嫁什么样的人?我们现正在手里具有一些未婚男性的数据,此中包罗了收入、房产、样貌、学历等字段。

  接下来领会下决策树算法的演进汗青,这此中就包含了支流的几种决策树算法,趁便我们也能够领会一下这几种决策树的不同。

  决策树也是一种监视进修的分类算法,要求输入标注好类此外锻炼样本集,每个锻炼样本由若干个用于分类的特征来暗示。决策树算法的锻炼目标正在于建立决策树,但愿可以或许获得一颗能够将锻炼样本按其类别进行划分的决策树。

  操纵决策树的思惟,起首我们要考虑的是,上述哪些前提正在女性选择男友时最主要的考量目标?好了,假设我就比力正在意收入、比力正在意物质好了,那么我建立的决策树该当是什么样的呢?来张图大师就大白了。

  人人都是产物司理(是以产物司理、运营为焦点的进修、交换、分享平台,集、培训、社群为一体,全方位办事产物人和运营人,成立8年举办正在线+期,线+场,产物司理大会、运营大会20+场,笼盖北上广深杭成都等15个城市,外行业有较高的影响力和出名度。平台堆积了浩繁BAT美团京东滴滴360小米网易等出名互联网公司产物总监和运营总监,他们正在这里取你一路成长。

  Breiman.L.I等人正在1984年提出了CART算法,即分类回归树算法。CART算法用基尼指数(Gini Index)取代了消息熵,用二叉树做为模子布局,所以不是间接通过属性值进行数据划分,该算法要正在所有属性中找出最佳的二元划分。CART算法通过递归操做不竭地对决策属性进行划分,同时操纵验证数据对示范型进行优化。

  我们来出个题尝尝,某男,风流倜傥、风姿潇洒,可是没有房产,收入不固定、学历本科,那么到底要不要嫁呢?

  时隔半月,已近年关。AI产物司理必懂算法的第三篇终究来了,今天想和大师聊的是决策树,闲言少叙,切入正题。

  决策树(Decision Tree)是一种以树形数据布局来展现决策法则和分类成果的模子,它是将看似无序、芜杂的已知实例,通过某种手艺手段将它们成能够预测未知实例的树状模子。

  提醒:正在建立决策树时,每次都要选择区分度最高的特征,利用其特征值对数据进行划分,每次耗损一个特征,不竭迭代,曲到所有特征均被利用为止。

  剪枝的目标:决策树是充实考虑了所有的数据点而生成的复杂树,有可能呈现过拟合的环境,决策树越复杂,过拟合的程度会越高。考虑极端的环境,若是我们令所有的叶子节点都只含有一个数据点,那么我们可以或许所有的锻炼数据都能精确分类,可是很有可能获得高的预测误差,缘由是将锻炼数据中所有的噪声数据都”精确划分”了,强化了噪声数据的感化。剪枝修剪前后分类误差相差不大的子树,可以或许降低决策树的复杂度,降低过拟合呈现的概率。

  后续,正在1996年Mehta.M等人提出了C4.5算法的改良算法SLIQ算法,该算法采用属性表、分类表、类曲方图的策略来处理内存溢出的问题。

  J.R.Quinlan针对ID3算法的不脚设想了C4.5算法,引入消息增益率的概念。它降服了ID3算法无法处置属性缺失和持续属性的问题,而且引入了优化决策树的剪枝方式,使算法更高效,合用性更强。

  释义:这张图想表达的意义就是说,我们从如下几个方面去判断,能否要嫁?起首,看其收入能否达到1w元,未达标的不嫁,从曾经及格的人群中继续挑选,能否有房产,没有的不可,以此类推,我们将所有的主要目标都过滤一遍当前,就建立出一个完整的决策树了,正在此之后,有任何男青年放正在这儿,我们都能通过决策树,轻松预测出,此人能否可嫁?

  同样引见一下消息增益率:正在决策树分类问题中,即就是决策树正在进行属性选择划分前和划分后的消息差值。

  消息熵是一种消息的怀抱体例,暗示消息的紊乱程度,也就是说:消息越有序,消息熵越低。举个列子:火柴有序放正在火柴盒里,熵值很低,相反,熵值很高。它的公式如下:

  决策树的生成对应模子的局部选择,决策树的剪枝对应于模子的全局选择。决策树的生成只考虑局部最优,决策树的剪枝则考虑全局最优。

  CART顶用于选择变量的不纯性怀抱是Gini指数,总体内包含的类别越芜杂,GINI指数就越大(跟熵的概念很类似)。

  J.R.Quinlan正在20世纪80年代提出了ID3算法,该算法奠基了日后决策树算法成长的根本。ID3采用喷鼻浓的消息熵来计较特征的区分度。选择熵削减程度最大的特征来划分数据,也就是“最大消息熵增益”准绳。它的焦点思惟是以消息增益做为属性拔取的根据。

  图中的收入、房产、学历等都属于特征,每一个特征都是一个判断的节点,那些不成再向下延长的就是叶子节点。可再分的称之为分支节点。

  先上定义,决策树(Decision Tree),又称判断树,它是一种以树形数据布局来展现决策法则和分类成果的模子,做为一种归纳进修算法,其沉点是将看似无序、芜杂的已知实例,通过某种手艺手段将它们成能够预测未知实例的树状模子,每一条从根结点(对最终分类成果贡献最大的属性)到叶子结点(最终分类成果)的径都代表一条决策的法则。

  相关链接: