发布网友 发布时间:2022-04-19 15:25
共1个回答
热心网友 时间:2022-06-04 02:40
展开3全部即采集的时候鼠标移动到页面的内容上时,是可以进行单独的抓取,类似这种的我们就可以按照需求,进行文章内容的抓取了;
遇到这类型的网页内容采集,我们可以先把整个文章的HTML抓取下来;
再使用提取数据步骤里的格式化数据里面的正则工具将你要的文章内容提取出来。
1.第一步将整个文章的HTML抓取下来;
2.点击红色方框的按钮,进入数据格式化处理的页面;
3.选择格式化数据;
4.点击添加步骤,再选择“正则表达式匹配”进行数据的格式化处理
5.点击红色方框,使用八爪鱼自带的正则工具
6.这里我将文章的标题从HTML提取出来
(1)将html中标题内容前后的标签,分别复制到右边的开始和结束中;
(2)勾选开始和结束;
(3)点击生成,工具会生成一个正则表达式;
(4)点击匹配,在左边的匹配结果,就会显示出现文章的标题了;
(5)点击应用
7.点击确认
8.再次点击确定
9.标题通过正则工具给从HTML中分离出来了。
相同的方法,我们就重复上面的操作就可以将文章中需要的内容给分段提取出来。
一般网页都是第一种情况居多,都是有分段的,字段都可以进行单独的提取。
希望可以帮到你,有什么不明白的可以继续提问。