发布网友 发布时间:2022-04-22 21:55
共1个回答
热心网友 时间:2023-06-22 11:46
在我看来,一个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能。hadoop、spark、storm无论哪一个,单独不可能完成上面的所有功能。hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置疑是分布式文件系统的解决方案,解决存储问题;hadoopmaprece、hive、sparkapplication、sparkSQL解决的是离线计算和即席查询的问题;sparkstreaming解决的是实时计算问题;另外,还需要HBase或者Redis等NOSQL技术来解决实时查询的问题;除了这些,大数据平台中必不可少的需要任务调度系统和数据交换工具;任务调度系统解决所有大数据平台中的任务调度与监控;数据交换工具解决其他数据源与HDFS之间的数据传输,比如:数据库到HDFS、HDFS到数据库等等。关于大数据平台的架构技术文章,可搜索"lxw的大数据田地",里面有很多。追问能告诉我选哪一个吗?我不是专业的 这方面不是很明白