Hadoop的应用领域有哪些
发布网友
发布时间:2022-04-25 20:57
我来回答
共1个回答
热心网友
时间:2022-04-14 06:38
Hadoop本身是一个生态圈. 整个生态圈里包含了底层的分布式存储HDFS, 计算框架Maprece, 集群调度管理工具Zookeeper,集群资源管理工具YARN, 分布式数据库HBASE等等. 我拿淘宝的店铺淘生意举一个例子吧, 可能不是那么准确:
比如一个店铺一天有10万的访客量, 你想分析的诸如这些访客来自哪里,性别,年龄,访问过什么商品,买过什么商品等等都会在访问网站的时候留下相关的痕迹文件(简称日志),比如这些文件一天就有1TB,那么你怎么存大文件?一个客户可能对应的特性就有上万条,你怎么在数据库里存大表,又怎么分析用户特性?这些都依赖于Hadoop的框架.
现在假设你有一个10台机器的集群:
HDFS:可以将你每天生成的1TB文件拆分存储在这个集群内. Zookeeper可以监控你的文件系统以及其他主从框架的服务是否正常在线. YARN则可在集群内协调你的CPU/内存资源,当有任务的时候可以合理分配资源进行计算,Maprece则是执行分析计算的基本框架,HBASE则可以将你分析后的数据保存在整个分布式集群内. 以供其它应用来进行进一步的分析展示. 其它的Spark/Storm/HIVE/Impala/cassandra 等等在这就不说了.
总之,涉及超大数据进行存储分析等领域,都是以Hadoop为基本框架的,至少底层都是HDFS 纯手打,忘采纳.