问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python爬虫一般用哪个模块

发布网友 发布时间:2022-04-27 06:47

我来回答

2个回答

懂视网 时间:2022-04-29 17:01

python 爬虫常用模块:

Python标准库——urllib模块

功能:打开URL和http协议之类

注:python 3.x中urllib库和urilib2库合并成了urllib库。 其中urllib2.urlopen()变成了urllib.request.urlopen(),urllib2.Request()变成了urllib.request.Request()

urllib请求返回网页

urllib.request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

urllib.requset.urlioen可以打开HTTP(主要)、HTTPS、FTP、协议的URL

ca 身份验证

data 以post方式提交URL时使用

url 提交网络地址(全程 前端需协议名 后端需端口 http:/192.168.1.1:80)

timeout 超时时间设置

函数返回对象有三个额外的方法

geturl() 返回response的url信息

常用与url重定向info()返回response的基本信息

getcode()返回response的状态代码

示例:

#coding:utf-8
import urllib.request
import time
import platform


#清屏函数(无关紧要 可以不写)
def clear():
 print(u"内容过多 3秒后清屏")
 time.sleep(3)
 OS = platform.system()
 if (OS == u'Windows'):
 os.system('cls')
 else:
 os.system('clear')
#访问函数
def linkbaidu():
 url = 'http://www.baidu.com'
 try:
 response = urllib.request.urlopen(url,timeout=3)
 except urllib.URLError:
 print(u'网络地址错误')
 exit()
 with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp:
 response = urllib.request.urlopen(url,timeout=3)
 fp.write(response.read())
 print(u'获取url信息,response.geturl()
:%s'%response.getrul())
 print(u'获取返回代码,response.getcode()
:%s' % response.getcode())
 print(u'获取返回信息,response.info()
:%s' % response.info())
 print(u"获取的网页信息经存与baidu.txt")


if __name__ =='main':
 linkbaidu()

Python标准库–logging模块

logging模块能够代替print函数的功能,将标准输出到日志文件保存起来,利用loggin模块可以部分替代debug

re模块

正则表达式

sys模块

系统相关模块

sys.argv(返回一个列表,包含所有的命令行)

sys.exit(退出程序)

Scrapy框架

urllib和re配合使用已经太落后,现在主流的是Scrapy框架

更多Python相关技术文章,请访问Python教程栏目进行学习!

热心网友 时间:2022-04-29 14:09

XPath 是一门在 XML 文档中查找信息的语言。python的爬虫框架scrapy不是用正则匹配来查找字符串,而是用xpath。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
如何查被录取到的专业 怎样查被录取的专业 录取后怎样查询录取的专业 录取专业怎么查 已被录取怎么查专业 ghs网络语什么意思_ghs网络语意思出处含义介绍 纸箱企业管理软件 ghs什么意思网络(ghs什么意思网络用语) 《喜羊羊与灰太狼》大结局 0与任何数相加都得原数吗? 谷歌浏览器直接提取的xpath,在python中为什么无法提取相应内容_百度... 声波测试数据处理主要内容是。 Python使用xpath爬取数据返回空列表,求解答 python爬虫 xpath多标签怎么写 用labview如何去实现采集振动的信号收集呢?帮帮忙,谢谢!我想要数据采集程序!如何去分析共振信号呢? python etree xpath问题 测量方法与数据处理 小白刚学习python爬取,运行解析没有问题,但解析.xpath运行出来没有... python爬虫中的xpath 中strong该怎么写 Python中scrapy爬虫,如何爬取ul标签下的多个并列的li标签中的内容,xpath... 请问谁知道振动分析啊? python xpath 是哪个模块 如何利用模态分析来解决振动问题 python爬虫怎么用xpath 变速器上采集到的振动信号如何用matlab进行分析处理? python xpath语法问题? 振动测量有几种主要方法? 大额支付系统运行时间调整为5*21+12小时,具体指的是哪个时间段? 武术使我奋斗向前作文 python爬虫怎样使用xpath 梦见分了一个大房子,说是在墓地上建的 人在国外手机没有开通国际长途微信也没有,但是有wif怎么开通国际长途? 梦见分到两套房子,一套在东,一套在西,都是新的,如何解。 拨打国际长途用什么网络电话好啊? 梦见分到一栋破旧大房子,房子很大,在市区,一楼是门头房,大概4层,很气派像官邸。但是旧了,有的窗 国际IP长途业务..... 我们公司要和很多国家很联系 直接用手机拨打国际长途也很贵 有没有什么好的办法 在哪里可以下载一个软件用无线网络打国际长途? 用无线网怎么打电话 梦见分给我的房子是灵堂好吗 国内打给国外的中国手机要怎么打? 无线网络打国际长途电话会扣钱吗? 天翼手机应如何拨打国际长途电话? 怎么用无线网打长途电话 用wifi电话打电话多少钱一分钟?打国际长途多少钱一分钟?扣 不扣本机号码的费用 阿里通网络电话怎么用 油页岩属于什么能源,可再生吗? 油页岩有什么用途 油页岩开发利用现状 油页岩的主要用途 页岩油概念股有哪些