问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

怎样搭建平台

发布网友 发布时间:2022-04-19 18:59

我来回答

2个回答

热心网友 时间:2022-05-06 09:15

亲身参与,作为主力完成了一个信息大数据分析平台。中间经历了很多问题,算是有些经验,因而作答。
整体而言,大数据平台从平台部署和数据分析过程可分为如下几步:
1、linux系统安装
一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。例如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。

2、分布式计算平台/组件安装
目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
先说下使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。2)开源组件一般免费,学习和维护相对方便。3)开源组件一般会持续更新,提供必要的更新服务『当然还需要手动做更新操作』。4)因为代码开源,若出bug可自由对源码作修改维护。
再简略讲讲各组件的功能。分布式集群的资源管理器一般用Yarn,『全名是Yet Another Resource Negotiator』。常用的分布式数据数据『仓』库有Hive、Hbase。Hive可以用SQL查询『但效率略低』,Hbase可以快速『近实时』读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务,Yarn和Hbase需要它的支持。Impala是对hive的一个补充,可以实现高效的SQL查询。ElasticSearch是一个分布式的搜索引擎。针对分析,目前最火的是Spark『此处忽略其他,如基础的MapRece 和 Flink』。Spark在core上面有ML lib,Spark Streaming、Spark QL和GraphX等库,可以满足几乎所有常见数据分析需求。
值得一提的是,上面提到的组件,如何将其有机结合起来,完成某个任务,不是一个简单的工作,可能会非常耗时。

3、数据导入
前面提到,数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive,也可将数据导入到Hbase』。

4、数据分析
数据分析一般包括两个阶段:数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。

5、结果可视化及输出API
可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。在这里,要基于大数据平台做展示,会需要用到ElasticSearch和Hbase。Hbase提供快速『ms级别』的行查找。 ElasticSearch可以实现列索引,提供快速列查找。
平台搭建主要问题:
1、稳定性 Stability
理论上来说,稳定性是分布式系统最大的优势,因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上,配置不合适,也可能成为最大的问题。 曾经遇到的一个问题是Hbase经常挂掉,主要原因是采购的硬盘质量较差。硬盘损坏有时会到导致Hbase同步出现问题,因而导致Hbase服务停止。由于硬盘质量较差,隔三差五会出现服务停止现象,耗费大量时间。结论:大数据平台相对于超算确实廉价,但是配置还是必须高于家用电脑的。

2、可扩展性 Scalability
如何快速扩展已有大数据平台,在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中,有时需要增减机器来满足新的需求。如何在保留原有功能的情况下,快速扩充平台是实际应用中的常见问题。

上述是自己项目实践的总结。整个平台搭建过程耗时耗力,非一两个人可以完成。一个小团队要真正做到这些也需要耗费很长时间。

目前国内和国际上已有多家公司提供大数据平台搭建服务,国外有名的公司有Cloudera,Hortonworks,MapR等,国内也有华为、明略数据、星环等。另外有些公司如明略数据等还提供一体化的解决方案,寻求这些公司合作对 于入门级的大数据企业或没有大数据分析能力的企业来说是最好的解决途径。

对于一些本身体量较小或者目前数据量积累较少的公司,个人认为没有必要搭建这一套系统,暂时先租用AWS和阿里云就够了。对于数据量大,但数据分析需求较简单的公司,可以直接买Tableau,Splunk,HP Vertica,或者IBM DB2等软件或服务即可。

以上是我从事大数据以来的一些认识。管见所及,可能有所疏漏,欢迎补充。

热心网友 时间:2022-05-06 10:33

一个人做事情需要有平台,但有了平台,也并不意味着这个人就一定能够把事情做好,做成功,也有的把事情做坏了,做砸了,最后不但没能让自己赢得骄傲和荣光,反而让自己灰溜溜的,从此抬不起头来,严重的甚至把自己的性命都搭了进去。能否把这个平台利用好,并在这个平台上演出一幕壮美的人生大戏,一方面要看自身的能力,另一方面,还要看自身的品格。 一个人的平台有的是别人给的,有的是自己争取的。不管怎样,有了平台,务必珍惜。很多人开始时拥有的平台并不高,并不大,但他珍惜,竭尽所能在这个平台上把自己人生和事业的戏演好,因而,他不断赢得了更大和更高的平台,从而,使自己的人生和事业一步步走向巅峰。 应该说,一个人平台的大小和高低对一个人才能的发挥有一定影响,但生活中,也并不是一定要有大平台才能干出大事业,在小平台上有时也一样可以做出有影响的事。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
大同四区和市区的区别 大同云冈属于哪里 大同市云冈区建成区范围都有哪些 it wasn't long before i found a job.---before是什么意思 It wasn't long before a man from It wasn't long before和It won't be long before有什么区别吗? it wasn't long before和it won't be long before有什么不同?_百度知 ... 微信怎么查和一个好友的红包记录 马龙巴黎奥运会夺冠了吗 明天是中国的情人节??? 线上培训平台要怎么搭建? 如何建设企业内部培训体系 和女孩子聊天的话题 上网和女孩子(中学生)聊天都能聊些什么?沉默时... 跟女生聊天怎么找话题?举个例子 和喜欢的女生聊天话题(初中女生)请多推荐几个话... 跟初次见面的女生聊什么话题比较好? 和初中女生聊天可以聊些什么话题? 初中女孩子大都喜欢哪些聊天话题? 跟女生聊天的时候,什么话题最好? 跟女生聊天的话题? 初中,喜欢一个女生,怎么上去跟她聊天? 和好久不见的女同学聊天我是对她有意思的,该聊下... 和女生聊天的30个话题 13岁左右的女生一般喜欢聊什么,和她聊天该聊什么... 怎么和初中同班的女生聊天 怎么和初中女生聊天 微信 跟初中女生谈什么话题比较好? 怎样和初中女生聊天找话题 我决定彻底把你忘记是什么歌 如何搭建人才培训平台 如何建立内部学习机制 如何建立企业内部培训体系呢? 如何搭建虚拟学习平台 我是一名HR部门培训专员,最近公司需要建设一个网... 如何做好一个在线学习平台 如何搭建在线学习平台 学Python有前途吗?学Python能做什么? 红米手机有wifi但是连接不上怎么办? 小米路由器突然连不上了,怎么办 小米路由器连不上网怎么办? 红米手机连接不上wifi是什么原因? 小米路由器断电后再通电连不上网? 为什么小米路由器挪了位置就连不上网了? 小米路由器mini2.4g连不上网是怎么回事 小米路由器断电后连不上网了? 小米路由器r1c出始设置后无线网无密码连不上 小米路由器连不上wifi 小米wifi放大器连接不上路由器 家里小米路由器连不上电视能连手机怎么办