python 用 beautifulsoup 获得的东西

发布网友发布时间：2022-04-30 05:50

共1个回答

热心网友时间：2022-04-18 14:37

一、你取到的跟浏览器不一样，这一般是因为内容是js生成或者js以ajax取到然后更新进去的。
想要自己写代码解决恐怕你要自己分析一下网页所带的js的功能了，或者想偷懒的话用webbrowser之类的模块通过浏览器来取得内容。
二、要取div的id属性用BeautifulSoup即可达到目的，要是装了PyQuery的就更简单，下面给个BeautifulSoup的例子：
from bs4 import BeautifulSoup
sp = BeautifulSoup('<div id="z"></div>')
assert(sp.div['id'],'z')
print sp.div['id']追问Beautifulsoup那个部分我还会用一点，现在关键就是取到的网页
里面本来就没有内容，我要怎么取出那部分呢？用的是python写的，ch = pycurl.Curl()，再用setopt之类处理。js生成或者js以ajax取到然后更新进去的。我要怎么弄呢？感激不尽！

追答pycurl是不会执行js的，要手写恐怕你要耐必的读读的你取的这个页面的js文件了。
或者可以偷偷小懒用firebug,IE（9+）调试工具看看有哪些ajax操作，然后对着js文件猜一猜，运气好应该可以省不少时间。

python 用 beautifulsoup 获得 的东西

python 用 beautifulsoup 获得的东西