发布网友 发布时间:2022-04-23 07:50
共1个回答
热心网友 时间:2022-06-17 22:42
摘要1、我们的数据从哪里来?互联网行业:网站、app、微信小程序、系统(交易系统。。)传统行业:电信,人们的上网、打电话、发短信等等数据数据源:网站、app、微信小程序都要往我们的后台去发送请求,获取数据,执行业务逻辑;app获取要展现的商品数据;发送请求到后台进行交易和结账网站/app会发送请求到后台服务器,通常会由Nginx接收请求,并进行转发2、后台服务器比如Tomcat、Jetty;但是,其实在面向大量用户,高并发(每秒访问量过万)的情况下,通常都不会直接是用Tomcat来接收请求。这种时候,通常,都是用Nginx来接收请求,并且后端接入Tomcat集群/Jetty集群,来进行高并发访问下的负载均衡。比如说,Nginx,或者是Tomcat,你进行适当配置之后,所有请求的数据都会作为log存储起来;接收请求的后台系统(J2EE、PHP、Ruby On Rails),也可以按照你的规范,每接收一个请求,或者每执行一个业务逻辑,就往日志文件里面打一条log。到这里为止,我们的后台每天就至少可以产生一份日志文件,这个是没有疑问了3、日志文件(通常由我们预先设定的特殊的格式)通常每天一份。此时呢,由于可能有多份日志文件,因为有多个web服务器。再者,不同的业务数据放在不同的日志文件中,所以会存在很多种日志文件一个日志转移的工具,比如自己用linux的crontab定时调度一个shell脚本/python脚本;或者自己用java开发一个后台服务,用quartz这样的框架进行定时调度。这个工具,负责将当天的所有日志的数据,都给采集起来,进行合并和处理等操作;然后作为一份日志文件,给转移到flume agent正在监控的目录中。4、Flumeflume,按照我们上节课所讲的;flume agent启动起来以后,可以实时的监控linux系统上面的某一个目录,看其中是否有新的文件进来。只要发现有新的日志文件进来,那么flume就会走后续的channel和sink。通常来说,sink都会配置为HDFS。flume负责将每天的一份log文件,传输到HDFS上5、HDFSHadoop Distributed File System。Hadoop分布式文件系统。用来存储每天的log数据。为什么用hadoop进行存储呢。因为Had咨询记录 · 回答于2021-12-07离线操作数据库的流程有哪些1、我们的数据从哪里来?互联网行业:网站、app、微信小程序、系统(交易系统。。)传统行业:电信,人们的上网、打电话、发短信等等数据数据源:网站、app、微信小程序都要往我们的后台去发送请求,获取数据,执行业务逻辑;app获取要展现的商品数据;发送请求到后台进行交易和结账网站/app会发送请求到后台服务器,通常会由Nginx接收请求,并进行转发2、后台服务器比如Tomcat、Jetty;但是,其实在面向大量用户,高并发(每秒访问量过万)的情况下,通常都不会直接是用Tomcat来接收请求。这种时候,通常,都是用Nginx来接收请求,并且后端接入Tomcat集群/Jetty集群,来进行高并发访问下的负载均衡。比如说,Nginx,或者是Tomcat,你进行适当配置之后,所有请求的数据都会作为log存储起来;接收请求的后台系统(J2EE、PHP、Ruby On Rails),也可以按照你的规范,每接收一个请求,或者每执行一个业务逻辑,就往日志文件里面打一条log。到这里为止,我们的后台每天就至少可以产生一份日志文件,这个是没有疑问了3、日志文件(通常由我们预先设定的特殊的格式)通常每天一份。此时呢,由于可能有多份日志文件,因为有多个web服务器。再者,不同的业务数据放在不同的日志文件中,所以会存在很多种日志文件一个日志转移的工具,比如自己用linux的crontab定时调度一个shell脚本/python脚本;或者自己用java开发一个后台服务,用quartz这样的框架进行定时调度。这个工具,负责将当天的所有日志的数据,都给采集起来,进行合并和处理等操作;然后作为一份日志文件,给转移到flume agent正在监控的目录中。4、Flumeflume,按照我们上节课所讲的;flume agent启动起来以后,可以实时的监控linux系统上面的某一个目录,看其中是否有新的文件进来。只要发现有新的日志文件进来,那么flume就会走后续的channel和sink。通常来说,sink都会配置为HDFS。flume负责将每天的一份log文件,传输到HDFS上5、HDFSHadoop Distributed File System。Hadoop分布式文件系统。用来存储每天的log数据。为什么用hadoop进行存储呢。因为Had