发布网友 发布时间:2022-04-21 01:01
共1个回答
热心网友 时间:2022-06-16 23:47
采集数据参数种类是:Web数据(包括网页、视频、音频、动画、图片等)、日志数据、数据库数据、其它数据。
1、web数据采集:网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。
网络会从一个或若干初始网页的 URL 开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足设置的停止条件为止。
2、系统日志采集:系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。
3、数据库采集:传统企业会使用传统的关系型数据库 MySQL 和 Oracle 等来存储数据。
4、其他数据:感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。
数据源数据同步种类是:
1、直接数据源同步:是指直接的连接业务数据库,通过规范的接口(如JDBC)去读取目标数据库的数据。这种方式比较容易实现,但是如果业务量比较大的数据源,可能会对性能有所影响。
2、生成数据文件同步:是指从数据源系统现生成数据文件,然后通过文件系统同步到目标数据库里。
3、数据库日志同步:是指基于源数据库的日志文件进行同步。现在大多数数据库都支持生成数据日志文件,并且支持用数据日志文件来恢复数据。因此可以使用这个数据日志文件来进行增量同步。