如何用xpath直接爬取网页
发布网友
发布时间:2022-04-29 00:51
我来回答
共1个回答
热心网友
时间:2022-04-21 18:20
1. 利用Selenium IDE
我们可以通过firefox添加插件Selenium IDE并开启。当点击红色的录制按钮后,我们对网页进行操作后,该工具会录制所有的行为并转化为selenium命令,当然也就包含有了locator。
方法优点:简单、方便
方法不足:对于一些复杂点的行为可能会漏掉,因此也就无法捕获相应的locator;此外locator是自动获取的,可能不是很直观,另外无法得到统一样式的locator。
2. 利用Firebug
同样firefox的插件中可以添加firebug。在Tools->Web Developer->Firebug中打开Firebug,于是能够看到页面的下半部分有显示Firebug窗口,可以查看HTML,CSS等。因为了解的粗浅,所以只能说说知道的几点简单功能。
如果我们需要查看页面某个元素的locator,可以鼠标右击,选择Inspect Element with Firebug, 于是就到了元素对应的html源码位置。这样我们根据这部分源码来写locator。
但是,往往对于一些element如button等,右击后没有反应时,我们可以考虑选择它们旁边的元素进行,到源码后再通过查找其兄弟元素源码或者上一层来找到相应源码。这里主要根据是当我们鼠标放在以某tag为根节点的源码的上时,上面的页面对应的界面元素会有相应标记。
方法缺点:写出的locator可能并不是页面的唯一,这样selenium运行就难以识别