问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

大数据分析到底需要多少种工具?

发布网友 发布时间:2022-04-23 13:59

我来回答

1个回答

热心网友 时间:2023-10-07 12:52

大数据分析到底需要多少种工具?
摘要

JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现Random Forest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出大数据分析应该采取的策略。

1.分类方法大比武

大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。

机器学习

图1 机器学习分类体系

最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,机器学习顶级期刊)杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法(分类学习算法)在UCI 121个数据集上进行了“大比武”(UCI是机器学习公用数据集,每个数据集的规模都不大)。结果发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名,但两者差异不大。在84.3%的数据上、Random Forest压倒了其它90%的方法。也就是说,在大多数情况下,只用Random Forest 或 SVM事情就搞定了。

2.几点经验总结

大数据分析到底需要多少种机器学习的方法呢?围绕着这个问题,我们看一下机器学习领域多年得出的一些经验规律。

大数据分析性能的好坏,也就是说机器学习预测的准确率,与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。

一般地,Ensemble方法包括Random Forest和AdaBoost、SVM、Logistic Regression 分类准确率最高。

没有一种方法可以“包打天下”。Random Forest、SVM等方法一般性能最好,但不是在什么条件下性能都最好。

不同的方法,当数据规模小的时候,性能往往有较大差异,但当数据规模增大时,性能都会逐渐提升且差异逐渐减小。也就是说,在大数据条件下,什么方法都能work的不错。参见图2中Blaco & Brill的实验结果。

对于简单问题,Random Forest、SVM等方法基本可行,但是对于复杂问题,比如语音识别、图像识别,最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习,是今后研究的重点。

在实际应用中,要提高分类的准确率,选择特征比选择算法更重要。好的特征会带来更好的分类结果,而好的特征的提取需要对问题的深入理解。

大数据

图2 不同机器学习方法在数据集增大时的学习曲线。

3.应采取的大数据分析策略

建立大数据分析平台时,选择实现若干种有代表性的方法即可。当然,不仅要考虑预测的准确率,还有考虑学习效率、开发成本、模型可读性等其他因素。大数据分析平台固然重要,同时需要有一批能够深入理解应用问题,自如使用分析工具的工程师和分析人员。
只有善工利器,大数据分析才能真正发挥威力。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
找专业防水队做完还漏水怎么维权 法院会受理房屋漏水造成的纠纷吗? 巴西龟最长活多久,家养!!! 养胃的药最好的是什么啊 婴儿积食发烧不愿吃药怎么办 板门穴位在哪个部位 手机设置放偷看的方法? 凝结水回收器生产厂家? 个人账户养老金预测公式:现有5万元,缴费20年,能领多少钱? 临沂比较有名的男装品牌 如何用UCI中标准库里的数据集做回归,如何去取自变量和因变量 如何使用Java Weka开源项目,实现J48决策树、支持向量机算法,在10个UCI数据集上对这两个算法进行性能? 怎么使用UCI数据集?我要做的题目是基于规范化的谱聚类算法,规范化的拉普拉斯矩阵适用于哪些研究? 从UCI上下载的数据集(.data文件)用记事本打开怎么不换行 做聚类研究通常用哪些UCI数据集除了Iris,wine之外? 大数据分析工具详尽介绍&数据分析算法 matlab怎么引用uci数据集 UCI数据集怎么下载?谢谢 uci数据库的例子 什么是UCI标准数据集? UCI数据集怎么用? 煮青菜加什么能保持青菜不变色? 如何炒菜不变色炒绿色蔬菜很容易变色,如何做才能不变 如何让蔬菜保鲜且不变色? 炒菜炖菜怎么保持蔬菜不变色? 绿叶菜焯水时放入什么不变色? 荠菜用什么方式处理会不变色? 炒什么菜放一段时间之后不会变色? 中午自己带饭去公司,有什么容易做又不容易变色变味的蔬菜或素菜推荐吗?谢谢! 想要炒出的青菜颜色翠绿不变色,都有哪些窍门? 要实验apriori算法 用UCI里面的哪些案例 测试神经网络该用UCI中的哪些数据 matlab怎样将UCI数据库中的数据可视化,比如wine,有人知道吗 UCI数据集里的forestfires 用weka怎么分析? uci里最经典、认可度高的时序数据机是哪些, 我在做关联规则算法,请问在哪里可以找到试验用的数据? 数据挖掘数据集怎么找 用QQ号可以注册吗 用qq号怎么注册2018 现在还可以用qq申请吗?或者说怎么不用手机号码注册?? 用QQ号能申请吗 现在能用QQ号注册微信吗 2018qq还可以注册微信吗 现在微信还能用qq号注册么 微信商业版收款手续费 西冷牛排要怎么腌制才比较多汁鲜嫩? 微信商业码有手续费 西冷牛扒的腌制方法??? 手机vivo5多少钱 现在市场上vivo x5手机价格多少??