发布网友 发布时间:2022-04-29 22:52
共1个回答
热心网友 时间:2022-04-14 06:45
科普SparkSpark何使用Spark 一.Spark基于算布式计算(简单) 二.Spark与MapRece同 三.Spark比Hadoop灵 四.Spark局限 5.情况适合使用Spark 图" class="ikqb_img_alink"> Spark SparkUC Berkeley AMP lab所源类Hadoop MapRece通用并行计算框架Spark基于map rece算实现布式计算拥Hadoop MapRece所具优点;同于MapReceJob间输结保存内存再需要读写HDFSSpark能更适用于数据挖掘与机器习等需要迭代map rece算其架构图所示: 图" class="ikqb_img_alink"> Spark与Hadoop比 Spark间数据放内存于迭代运算效率更高 Spark更适合于迭代运算比较MLDM运算Spark面RDD抽象概念 Spark比Hadoop更通用 Spark提供数据集操作类型种像Hadoop提供MapRece两种操作比map, filter, flatMap, sample, groupByKey, receByKey, union, join, cogroup, mapValues, sort,partionBy等种操作类型Spark些操作称Transformations同提供Count, collect, rece, lookup, save等种actions操作 些种数据集操作类型给给发层应用用户提供便各处理节点间通信模型再像Hadoop唯Data Shuffle种模式用户命名物化控制间结存储、区等说编程模型比Hadoop更灵 由于RDD特性Spark适用种异步细粒度更新状态应用例web服务存储或者增量web爬虫索引于种增量修改应用模型适合 容错性 布式数据集计算通checkpoint实现容错checkpoint两种式checkpoint datalogging the updates用户控制采用哪种式实现容错 用性 Spark通提供丰富Scala, JavaPython API及交互式Shell提高用性 Spark与Hadoop结合 Spark直接HDFS进行数据读写同支持Spark on YARNSpark与MapRece运行于同集群共享存储资源与计算数据仓库Shark实现借用Hive几乎与Hive完全兼容 Spark适用场景 Spark基于内存迭代计算框架适用于需要操作特定数据集应用场合需要反复操作数越所需读取数据量越受益越数据量计算密集度较场合受益相较(数据库架构否考虑使用Spark重要素) 由于RDD特性Spark适用种异步细粒度更新状态应用例web服务存储或者增量web爬虫索引于种增量修改应用模型适合总说Spark适用面比较广泛且比较通用 运行模式 本模式 Standalone模式 Mesoes模式 yarn模式 Spark态系统 Shark ( Hive on Spark): Shark基本Spark框架基础提供HiveH iveQL命令接口程度保持Hive兼容性Shark使用HiveAPI实现query Parsing Logic Plan generationPhysicalPlan execution阶段用Spark代替Hadoop MapRece通配置Shark参数Shark自内存缓存特定RDD实现数据重用进加快特定数据集检索同Shark通UDF用户自定义函数实现特定数据析习算使SQL数据查询运算析能结合起化RDD重复使用 Spark streaming: 构建Spark处理Stream数据框架基本原理Stream数据间片断(几秒)类似batch批量处理式处理部数据Spark Streaming构建Spark面Spark低延迟执行引擎(一00ms+)用于实计算另面相比基于Record其处理框架(Storm)RDD数据集更容易做高效容错处理外批量处理式使同兼容批量实数据处理逻辑算便些需要历史数据实数据联合析特定应用场合 Bagel: Pregel on Spark用Spark进行图计算非用项目Bagel自带例实现GooglePageRank算 End