问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

大数据中的Spark指的是什么?

发布网友 发布时间:2022-04-22 06:43

我来回答

4个回答

热心网友 时间:2022-06-16 17:40

Spark是一种通用的大数据计算框架,和传统的大数据技术MapRece有本质区别。前者是基于内存并行计算的框架,而maprece侧重磁盘计算。Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架,用于构建大型的、低延迟的数据分析应用程序。
Spark同样支持离线计算和实时计算两种模式。Spark离线计算速度要比Maprece快10-100倍。而实时计算方面,则依赖于SparkStreaming的批处理能力,吞吐量大。不过相比Storm,SparkStreaming并不能做到真正的实时。
Spark使用强大的函数式语言Scala开发,方便简单。同时,它还提供了对Python、Java和R语言的支持。
作为大数据计算框架MapRece的继任者,Spark具备以下优势特性。
1,高效性
不同于MapRece将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapRece 快100倍。
2,易用性
不同于MapRece仅支持Map和Rece两种编程算子,Spark提供了超过80种不同的Transformation和Action算子,如map,rece,filter,groupByKey,sortByKey,foreach等,并且采用函数式编程风格,实现相同的功能需要的代码量极大缩小。
3,通用性
Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。
4,兼容性
Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且Spark可以读取多种数据源,如HDFS、HBase、MySQL等。

热心网友 时间:2022-06-16 17:40

谢谢邀请!
spark最初是由伯克利大学的amplab于2009年提交的一个项目,现在已经是Apache软件基金会最活跃的项目,对于spark,apache给出的官方定义是:spark是一个快速和通用的大数据处理引擎。可以理解为一个分布式大数据处理框架,spark是基于Rdd(弹性分布式数据集),立足于内存计算,在“one stack to rule them all” 的思想引导下 ,打造了一个可以流式处理(spark streaming),机器学习(mllib),实时查询(spark sql),图计算(graphx)等各种大数据处理,无缝连接的一栈式计算平台,由于spark在性能和扩展上快速,易用,通用的特点,使之成为一个一体化,多元化的大数据计算平台。
spark的一栈式优势
1 快速处理,比hadoop快100倍,因为spark是基于内存计算,而hadoop是基于磁盘计算
2易用性,spark支持多种语言
3 通用性强,可以流式处理,及时查询,图计算,机器学习
4 可以和hadoop数据集成,运行在yarn上,统一进行资源管理调度
5 活跃和壮大的社区
以上是关于spark的简单定义,希望我的回答可以采纳,谢谢

热心网友 时间:2022-06-16 17:41

以计算PI为例子
进入spark的安装目录
单机local模式提交任务
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples*.jar
yarn-client模式执行计算程序
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client examples/jars/spark-examples*.jar
Standalone模式计算
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://masterIp:7077 examples/jars/spark-examples*.jar
转载于:https://my.oschina.net/u/3264690/blog/1528169

热心网友 时间:2022-06-16 17:42

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapRece的通用并行框架,Spark,拥有Hadoop MapRece所具有的优点;但不同于MapRece的是--Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapRece的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
变形金刚08动画怎么样 变形金刚08动画的问题 变形金刚08动画日语版剧情介绍 高分!换显卡nvidia控制面板被我卸了,重新安装显卡驱动后没了nvidia控... 我的nvidia控制面板被卸载了 怎么找回啊 卸载后 这个画面看着很奇怪_百 ... 李卓彬工作简历 林少明工作简历 广东工业职业技术学院怎么样 郑德涛任职简历 唐新桂个人简历 如何在程序内提交spark任务 python spark的任务jar包怎么处理 怎样成为Spark高手 spark怎么用shell提交任务 spark中怎样提交任务到import pysparkk 如何使用spark将程序提交任务到yarn-Spark-about云 如何使用spark将程序提交任务到yarn-Spark-about云... 电脑卡死鼠标不动 电脑运行时,鼠标突然不动就死机了,这是什么原因呢? 苹果手机在哪可以清除缓存? 小米恢复出厂设置密码是多少 一般手机恢复出厂设置密码是多少 VIVOX9.手机恢复出厂设置中的还原出厂设置密码是什... 一般手机恢复出厂设置的密码是多少? 手机恢复出厂设置的初始密码吗是多少? 手机恢复出厂设置的密码是多少呀 vivo智能手机重置密码是多少 步步高手机的恢复出厂设置的密码是多少 手机恢复出厂设置密码是多少? 一般手机恢复出厂设计的密码是什么 如何通过Spark的Shell操作SparkContext实例过程 IT技术人员转行大数据应该考虑哪些问题 ambari 安装的spark 怎么使用Standalone方式提交任务 spark 通过远程submit提交任务后怎么获取数据 大数据行业挺火的,苦X已工作工科硕士如何转行大数据 在spark集群上可以同时运行多个提交的应用程序吗 求助,spark 提交任务到集群报错 如何在代码中通过API监控Hadoop,Spark任务的进度... 北京银行中午上班吗? 建设银行北京石景山支行营业时间 北京银行石景山网点 Win10正版激活的,换电脑了,我该怎么办 我想问一下,我购买了win10专业版,然后我换了一台... 激活 win10 换电脑后怎么办 win10硬盘换到其他电脑直接开机了 win10更换电脑,不需要重新做系统?可以把旧硬盘直... 我购买的是正版win10我换电脑以后还需要重新购买wi... win10系统下怎样将此电脑更改成我的电脑 升级的正版win10换电脑 win10更换硬件要重新系统吗?