问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

八爪鱼如何将正文分行抓取

发布网友 发布时间:2022-04-19 15:25

我来回答

1个回答

热心网友 时间:2022-06-04 02:40

展开3全部

八爪鱼是可以进行分段提取的,有两种情况,具体设置步骤如下:

一、第一种情况:页面中的文章内容是有格式的,字段是在不同的标签里的(如下图);

即采集的时候鼠标移动到页面的内容上时,是可以进行单独的抓取,类似这种的我们就可以按照需求,进行文章内容的抓取了;

二、第二种情况是文章的内容是包含在一个标签里面的(如下图):

遇到这类型的网页内容采集,我们可以先把整个文章的HTML抓取下来;

再使用提取数据步骤里的格式化数据里面的正则工具将你要的文章内容提取出来。

1.第一步将整个文章的HTML抓取下来;


2.点击红色方框的按钮,进入数据格式化处理的页面;


3.选择格式化数据;


4.点击添加步骤,再选择“正则表达式匹配”进行数据的格式化处理


5.点击红色方框,使用八爪鱼自带的正则工具


6.这里我将文章的标题从HTML提取出来

(1)将html中标题内容前后的标签,分别复制到右边的开始和结束中;

(2)勾选开始和结束;

(3)点击生成,工具会生成一个正则表达式;

(4)点击匹配,在左边的匹配结果,就会显示出现文章的标题了;

(5)点击应用

7.点击确认




8.再次点击确定

9.标题通过正则工具给从HTML中分离出来了。


相同的方法,我们就重复上面的操作就可以将文章中需要的内容给分段提取出来。

一般网页都是第一种情况居多,都是有分段的,字段都可以进行单独的提取。

希望可以帮到你,有什么不明白的可以继续提问。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
说课包括哪些方面 说课内容包括()。 如何在手机百度上删除对话记录? 结核病是什么样的疾病? 曹丕17岁得了肺痨,明知自己命不长久,还要强争王位,是不是很自私呢?_百... 古代小说常出现的病名 急求一篇"生活小窍门"(500字)的作文 至今最有什么小妙招 健康的戒烟方法 笔记本电池锁死是什么原因引起的? 章鱼的资料 八爪鱼最简单的吃法 八爪鱼怎么做最好吃简单的吃法 八爪鱼怎么吃才好吃 有关章鱼的知识 八爪鱼营养价值 sea-al10是什么型号? 华为nxt一al10是什么型号 怎么带刚出生的婴儿视频 新生儿要怎样护理? 新生儿月子如何护理? 新生儿到底该如何喂养和护理? 新生儿喂奶正确姿势与方法视频 刚出生的孩子该怎么照顾? 刚出生的婴儿,都有哪些护理小技巧呢? 刚出生的婴儿如何照顾 新生儿护理 新生儿应怎样护理 刚出生婴儿的护理方法是什么? 新生儿怎么护理? 新生儿如何护理? 章鱼,乌贼,墨鱼,八爪鱼有什么区别?或者是不是一种... 八爪鱼抄什么好吃 有关的章鱼简介 如何一篇章鱼的说明文(700)字,急需! 八爪鱼采集器怎么采集一个网址的文章 八爪鱼采集的文章如何发布到DEDE网站 八爪鱼采集器如何将采集到的图片和文字内容发布到... 八爪鱼采集器采集网页多个链接求指点 谢谢 火车头,八爪鱼三者各有什么优劣 谁知道八爪鱼采集器设置了循环翻页采集怎么才采集... 关于八爪鱼采集器采集分页的问题 铁观音制作方法 铁观音的加工工艺及流程 铁观音茶家常做法,正宗铁观音茶怎么做 华为的P系列和mate系列和荣耀系列有什么区别,性能... 传统铁观音制作方法 华为P系列的手机有什么特色之处呢? 安溪铁观音茶叶如何制作的?有哪些工艺? 华为p系列是什么?有什么特色功能吗? 铁观音茶叶的制作方法