如何用xpath直接爬取网页

发布网友发布时间：2022-04-29 00:51

共1个回答

热心网友时间：2022-04-21 18:20

1. 利用Selenium IDE
我们可以通过firefox添加插件Selenium IDE并开启。当点击红色的录制按钮后，我们对网页进行操作后，该工具会录制所有的行为并转化为selenium命令，当然也就包含有了locator。
方法优点：简单、方便
方法不足：对于一些复杂点的行为可能会漏掉，因此也就无法捕获相应的locator；此外locator是自动获取的，可能不是很直观，另外无法得到统一样式的locator。

2. 利用Firebug
同样firefox的插件中可以添加firebug。在Tools->Web Developer->Firebug中打开Firebug，于是能够看到页面的下半部分有显示Firebug窗口，可以查看HTML，CSS等。因为了解的粗浅，所以只能说说知道的几点简单功能。
如果我们需要查看页面某个元素的locator，可以鼠标右击，选择Inspect Element with Firebug, 于是就到了元素对应的html源码位置。这样我们根据这部分源码来写locator。
但是，往往对于一些element如button等，右击后没有反应时，我们可以考虑选择它们旁边的元素进行，到源码后再通过查找其兄弟元素源码或者上一层来找到相应源码。这里主要根据是当我们鼠标放在以某tag为根节点的源码的上时，上面的页面对应的界面元素会有相应标记。
方法缺点：写出的locator可能并不是页面的唯一，这样selenium运行就难以识别