学大数据,需要学什么课程吗?兄弟请具体点。

发布网友发布时间：2022-04-23 04:58

共8个回答

懂视网时间：2022-04-09 17:35

"account": "001", "accountName": "旺财宝", "subaccount": "001", "subaccountName": "caller001", "timestamp": 1474625187000, "eventType": "phone", "eventTags": [ { "name": "incoming", "value": 1 }, { "name": "missed", "value": 1 }, { "name": "edited", "value": 1 } ] }

最终通过Storm,在Mysql中汇聚成如下格式

account	account_name	subaccount	subaccount_name	event_type	event_tag	start_time	end_time	count
001	旺财宝			phone	incoming	2016/9/23 18:00:00	2016/9/23 18:59:59	53
001	旺财宝			phone	missed	2016/9/23 18:00:00	2016/9/23 18:59:59	53

通过web包装sql语句来作各个业务场景的查询:如某账号一段时间内某事件发生的次数，所有账号一段时间的各个事件发生的次数，或者某事件高发的时间段等等。

之前考虑了最终结果存到哪里：有这样几个待选，Redis，HBase，MongoDB，Mysql。经过估算发现一年的数据量可能不到一千万，在这个数量级，Mysql可以横着走了。

基于storm,kafka,mysql的实时统计系统

标签：上传 sql nbsp caller 估算 timestamp com sql语句统计

热心网友时间：2022-04-09 14:43

IT时代逐渐开始向大数据DT时代迈进，很多企业和个人纷纷开始向大数据靠拢，希望在岗起步的道路上能占有一个属于自己的数据空间，迎接以后更激烈的竞争环境。企业向大数据靠拢的方法就是招揽一些大数据方面的人才，而个人向大数据靠拢的方式就是去学习大数据。想学习大数据的人越来越多，但是，大数据到底学的课程是什么呢？大数据学习的知识点都有哪些呢？下面给大家好好普及一下，这样学起来才会有的放矢。

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据。基础

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

好说完基础了，再说说还需要学习哪些大数据技术，可以按我写的顺序学下去。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapRece、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapRece处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

热心网友时间：2022-04-09 16:01

我是刚在光环学完
大数据开发课程包括：
一、JAVASE开发：掌握Java流程控制和数组、面向对象、集合框架、异常和泛型和注解、IO流、并发编程等知识。
二、JavaEE开发：掌握数据库MySQL和SQL、Maven、Git/SVN、MyBatis/Hibernate、Spring、SSM整合。
三、Linux精讲：掌握VMWare虚拟机安装和使用、Linux文件系统、Linux文本编辑命令Vim、Linux网络管理等。
四、JavaSE增强：掌握Java编程语言中集合、反射、并发编程、网络编程、设计模式、数据结构和算法等高阶常用。
五、Hadoop生态体系：掌握Common和RPC、HDFS分布式文件系统、MapRece分布式编程模型、YARN资源调度系统等。
六、Storm实时流式处理：能够熟练使用Flume分布式数据采集工具、Kafka分布式消息系统、Storm分布式流式计算引擎等。
七、Scala编程语言：掌握Scala编程语言基础语法、Scala面向对象、Scala函数式编程、Scala的并发编程和Spark的RPC。
八：Spark生态体系：掌握数据库MySQL和SQL、Maven、Git/SVN、MyBatis/Hibernate、Spring、SSM整合。
九、ElasticSearch搜索引擎：能够掌握ElasticSearch核心概念、安装部署、查询和分析、存储机制等能力。
十、Flink精讲：熟练Flink简介、Flink架构和集群安装、Flink应用案例、Flink原理分析。
十一、机器学习：熟练模型评估与选择，熟练使用机器学习各种算法，掌握机器学习与大数据的结合。
十二、超大集群调优：能够熟练进行版本调优、压缩调优、文件调优、参数调优等八大集群调优。

热心网友时间：2022-04-09 17:36

Scala最难入门,Python 比较容易上手,如果编程经验不多可以从Python 上手.
Java 是目前最流行的编程语言,如果想就业面广一些,可以考虑Java
可以来这边看看比较下，有好处

热心网友时间：2022-04-09 19:27

大数据主要是要学习数据分析方法以及商业投资模式。追问不看我问的？瞎比答。

追答课程就是《大数据处理技术（基于Hadoop）》

热心网友时间：2022-04-09 21:35

大数据学习框架

第1阶段Java
第2阶段JavaEE核心
第3阶段Hadoop生态体系
第4阶段大数据spark生态体系

大数据具体学习课程

热心网友时间：2022-04-10 00:00

难点还是数据分析、数据建模、机器学习
计算机方面：
JAVA
Hadoop、Storm计算框架
linux操作系统
各种Nosql数据库
各种消息中间件、缓存
R语言

热心网友时间：2022-04-10 02:41

大数据开发工程师课程体系——Java部分。
第一阶段：静态网页基础

1、学习Web标准化网页制作，必备的HTML标记和属性
2、学习HTML表格、表单的设计与制作
3、学习CSS、丰富HTML网页的样式
4、通过CSS布局和定位的学习、让HTML页面布局更加美观
5、复习所有知识、完成项目布置
第二阶段：JavaSE+JavaWeb

1、掌握JAVASE基础语法
2、掌握JAVASE面向对象使用
3、掌握JAVASEAPI常见操作类使用并灵活应用
4、熟练掌握MYSQL数据库的基本操作，SQL语句
5、熟练使用JDBC完成数据库的数据操作
6、掌握线程，网络编程，反射基本原理以及使用
7、项目实战 + 扩充知识：人事管理系统
第三阶段：前端UI框架

1、JAVASCRIPT
2、掌握Jquery基本操作和使用
3、掌握注解基本概念和使用
4、掌握版本控制工具使用
5、掌握easyui基本使用
6、项目实战+扩充知识：项目案例实战
POI基本使用和通过注解封装Excel、druid连接池数据库监听,日志Log4j/Slf4j
第四阶段：企业级开发框架

1、熟练掌握spring、spring mvc、mybatis/
2、熟悉struts2
3、熟悉Shiro、redis等
4、项目实战：内容管理系统系统、项目管理平台流程引擎activity，爬虫技术nutch,lucene，webService CXF、Tomcat集群热备 MySQL读写分离
以上Java课程共计384课时，合计48天！

大数据开发工程师课程体系——大数据部分
第五阶段：大数据前传

大数据前篇、大数据课程体系、计划介绍、大数据环境准备&搭建
第六阶段：CentOS课程体系
CentOS介绍与安装部署、CentOS常用管理命令解析、CentOS常用Shell编程命令、CentOS阶段作业与实战训练

第七阶段：Maven课程体系

Maven初识:安装部署基础概念、Maven精讲:依赖聚合与继承、Maven私服:搭建管理与应用、Maven应用:案列分析、Maven阶段作业与实战训练
第八阶段：HDFS课程体系

Hdfs入门:为什么要HDFS与概念、Hdfs深入剖析:内部结构与读写原理、Hdfs深入剖析:故障读写容错与备份机制、HdfsHA高可用与Federation联邦、Hdfs访问API接口详解、HDFS实战训练、HDFS阶段作业与实战训练
第九阶段：MapRece课程体系

MapRece深入剖析:执行过程详解、MapRece深入剖析:MR原理解析、MapRece深入剖析:分片混洗详解、MapRece编程基础、MapRece编程进阶、MapRec阶段作业与实战训练
第十阶段：Yarn课程体系
Yarn原理介绍:框架组件流程调度
第十一阶段：Hbase课程体系

Yarn原理介绍:框架组件流程调度、HBase入门:模型坐标结构访问场景、HBase深入剖析:合并*数据定位、Hbase访问Shell接口、Hbase访问API接口、HbaseRowkey设计、Hbase实战训练
第十二阶段：MongoDB课程体系

MongoDB精讲:原理概念模型场景、MongoDB精讲:安全与用户管理、MongoDB实战训练、MongoDB阶段作业与实战训练
第十三阶段：Redis课程体系

Redis快速入门、Redis配置解析、Redis持久化RDB与AOF、Redis操作解析、Redis分页与排序、Redis阶段作业与实战训练
第十四阶段：Scala课程体系

Scala入门:介绍环境搭建第1个Scala程序、Scala流程控制、异常处理、Scala数据类型、运算符、Scala函数基础、Scala常规函数、Scala集合类、Scala类、Scala对象、Scala特征、Scala模式匹配、Scala阶段作业与实战训练
第十五阶段：Kafka课程体系

Kafka初窥门径:主题分区读写原理分布式、Kafka生产&消费API、Kafka阶段作业与实战训练
第十六阶段：Spark课程体系

Spark快速入门、Spark编程模型、Spark深入剖析、Spark深入剖析、SparkSQL简介、SparkSQL程序开发光速入门、SparkSQL程序开发数据源、SparkSQL程序开DataFrame、SparkSQL程序开发DataSet、SparkSQL程序开发数据类型、SparkStreaming入门、SparkStreaming程序开发如何开始、SparkStreaming程序开发DStream的输入源、SparkStreaming程序开发Dstream的操作、SparkStreaming程序开发程序开发--性能优化、SparkStreaming程序开发容错容灾、SparkMllib
解析与实战、SparkGraphX 解析与实战
第十七阶段：Hive课程提体系

体系结构机制场景、HiveDDL操作、HiveDML操作、HiveDQL操作、Hive阶段作业与实战训练
第十八阶段：企业级项目实战

1、基于美团网的大型离线电商数据分析平台
2、移动基站信号监测大数据
3、大规模设备运维大数据分析挖掘平台
4、基于互联网海量数据的舆情大数据平台项目
大数据部分共计学习656课时，合计82天！
0基础学员估计学习1040课时，150天！