问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

特征选择的Filter过滤法

发布网友 发布时间:2022-11-22 19:47

我来回答

1个回答

热心网友 时间:2024-11-05 05:55

  1.1 当数据预处理完成之后,接下来就是特征工程部分,特征工程包括了特征的提取,特征创造,特征选择。

        特征提取(feature extraction):从文字、图像、声音等其他非结构化数据只能怪提取新信息作为特征,比如说从淘宝的商品名称中提取产品类别,产品颜色,是否是网上产品等。

        特征创造(feature creation):把现有的特征进行组合,或是相互计算得到新的特征。比如说我们有一列特征是速度,一列特征距离,通过两特征相除,创造新特征:通过距离所花的时间。

        特征选择(feature selection):从所有的特征中选择出有意义的,对模型有帮助的特征,避免将所有特征都导入模型中去训练。

下面只讲特征选择,特征选择有四种方法:过滤法,嵌入法,包装法,和降维算法。

    1.2 Filter过滤法

        过滤法通常用作预处理的步骤,特征选择完全独立于任何的机器学习算法,它是根据各种统计检验中的分数以及相关性的各项指标来选择特征的。

    1.3 VarianceThreshold

        VarianceThreshold是通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用,所以 无论接下来的特征工程要做什么,都要优先消除方差为0的特征 。VarianceThreshold重要参数threshold,表示方差的阈值,表示舍弃所有方差小于threshold的特征,不填默认为0,即删除所有记录都相同的特征。

可以看见,已经删除了方差为0的特征,但是依然剩390多个特征,明显还需要进一步的特征选择,如果我们知道我们需要多少个特征,方差也可以帮助我们将特征选择一步到位。比如说,我们希望留下一半的特征,那可以设定一个让特征总数减半的方差阈值,只要找到特征方差的中位数,再将这个中位数作为参数threshold的值输入就好了

    使用的方差阈值是特征方差的中位数,因此属于阈值比较大,过滤掉的特征比较多的情况。我们可以观察到,如果在过滤掉一半特征之后,模型的精确度上升了。这说明被我们过滤掉的特征在当前随机模式(random_state = 0)下大部分是噪音。那我们就可以保留这个去掉了一半特征的数据,来为之后的特征选择做准备。当然,如果过滤之后模型的效果反而变差了,我们就可以认为,被我们过滤掉的特征中有很多都有有效特征,那我们就放弃过滤,使用其他手段来进行特征选择。

1.4 方差过滤对模型的影响

    最近邻算法KNN,单棵决策树,支持向量机SVM,神经网络,回归算法,都需要遍历特征或升维来进行运算,所以它们本身的运算量就很大,需要的时间就很长,因此方差过滤这样的特征选择对他们来说就尤为重要。但对于不需要遍历特征的算法,比如随机森林,它随机选取特征进行分枝,本身运算就非常快速,因此特征选择对它来说效果平平。这其实很容易理解,无论过滤法如何降低特征的数量,随机森林也只会选取固定数量的特征来建模;而最近邻算法就不同了,特征越少,距离计算的维度就越少,模型明显会随着特征的减少变得轻量。因此,过滤法的主要对象是:需要遍历特征或升维的算法,而过滤法的主要目的是:在维持算法表现的前提下,帮助算法降低计算成本。

1.5 过滤法对随机森林无效,却对树模型有效?

     从算法原理上来说,传统决策树需要遍历所有特征,计算不纯度后进行分枝,而随机森林却是随机选择特征进行计算和分枝,因此随机森林的运算更快,过滤法对随机森林无用,对决策树却有用。在sklearn中,决策树和随机森林都是随机选择特征进行分枝,但决策树在建模过程中随机抽取的特征数目却远远超过随机森林当中每棵树随机抽取的特征数目(比如说对于这个400维的数据,随机森林每棵树只会抽取10~20个特征,而决策树可能会抽取100~200个特征),因此,过滤法对随机森林无用,却对决策树有用也因此,在sklearn中,随机森林中的每棵树都比单独的一棵决策树简单得多,高维数据下的随机森林的计算比决策树快很多。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
书包放在教室一晚上没事吗 格力空调三滴水的模式 将不快乐藏于心的伤感签名 人生如梦我失眠 缓刑期间犯罪还可以判缓吗 缓刑期间再有形势案件还可以判缓吗?对方不追久了赔了钱了, 缓刑期间又犯新罪还可以缓吗 由于老板拖欠工资并且把工资算错 我把货款留给自己用 然后走人去外省... 如果老板欠我工资,我拿了他的货款算不算职务侵占 职务侵占3万元货款已全数退回,会怎样量刑? 荞麦皮枕头多久换一次 荞麦枕头多久更换最合适 包钢股份2015年报什么时候公布栏 通过碑文,你认为菲律宾政府和人民对麦哲伦有怎样的历史评价?你认为应 ... 从均安坐几号车到佛山市中医院在耶个站下车? 佛山站到佛山均安交通中心怎么走 从顺德均安坐公交车到佛山岭南天地怎样坐? 从佛山城巴总站到均安交通中心怎么坐公交车,最快需要 从佛山顺德大良均安怎么到佛山禅城区同济路简村东街一巷4号 禅城下午五点还有到均安的公交车吗 顺德均安镇菱溪工业区到禅城区坐几号车 请问均安到禅城的公车大概多久才到站,大概多少钱 谢谢 均安去禅城区江湾三路2号怎么坐车? 喝了沙蚬虾干冬瓜汤可以吃复方氨酚肾素片吗? 虾煲冬瓜汤有什么功效 扁担草撤下多久才发芽 哪种水草的花好看,而且不生虫子 有一种类似翠云草的水草叫什么名字? 怎么鉴定千足金真假 京东极速版没了吗 太阳能监控可以自己插卡吗 圣诞节吃的食物 过滤器Filter 米3被偷了,还能找回来吗 米3手机丢了怎么办 海滨栈道交通方便吗 大梅沙海滨栈道怎么走 在河源出发去深圳盐田的海滨栈道 不知道怎么坐车 有没有小伙伴能告诉... 从广州到深圳东部海滨栈道盐田食街怎么坐车 想去深圳海滨栈道玩,在广州... 大梅沙到中英街的海滨栈道怎么玩? 预配音是什么 手机天气预报配音箫曲是什么曲名? 惠州龙展机电有限公司怎么样? 听说高得机电服务的不错,那里能买到呢? 青岛高德机电有限公司怎么样? 如何设置网页地址栏前面的标志favicon图标 如何在浏览器地址栏前添加自定义的小图标? 百度首页地址前的那个红色小图标有什么特殊含义吗? 火狐浏览器地址栏前面三个图标 我能不能把自己的收货人姓名设成自己的淘宝昵称吗? 学信网学历备案表维护要多久 前置学历维护是什么?_?