如何用excel从网页爬取信息
发布网友
发布时间:2022-04-22 14:23
我来回答
共2个回答
热心网友
时间:2023-04-25 16:15
数据菜单获取外部数据
自网站
输入网站的地址
导入
属性设置刷新时间
热心网友
时间:2023-04-25 16:16
这还是比较简单的,直接用Excel+VBA就能做。
点击翻页并不会改变url,F12查看网络,可以知道页面数据的刷新是通过xhr post请求获取的。这种情况直接用ie对象抓取就好。
第一步:控制ie打开网站,控制ie自动点击全部公告。等待页面刷新完成;
第二步:获取页面中所有的标的名称对应的子页面链接,把这些子页面url存放到数据容器中,字典、集合、数组都行,或者直接放到Excel单元格里;
第三步:控制ie翻页,重复第二步;
第四步:翻到最后一页后,抓取完所有子页面url后,开始for循环子页面url,一个个页面去抓取信息。
第五步:分析你要的数据。至于你说的要抓取的信息,应该是一个表格,由于每个页面表格形式都不一样,有些子页面甚至都没有表格,你要想清楚你要什么数据,拿到数据后要怎么排布。想好了都是有办法可以做的,比如说我控制ie直接定位到table元素,把整个表格搞到Excel里,也是可以的,总之办法很多。