问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python爬虫的工作步骤

发布网友 发布时间:2022-04-20 06:03

我来回答

1个回答

热心网友 时间:2022-04-06 06:40

当前处于一个大数据的时代,一般网站数据来源有二:网站用户自身产生的数据和网站从其他来源获取的数据,今天要分享的是如何从其他网站获取你想要的数据。

目前最适合用于写爬虫的语言是python,python中最受欢迎的爬虫框架是scrapy,本文围绕scrapy来展开讲解爬虫是怎么工作的。

1.如下图所示,爬虫从编写的spider文件中的start_urls开始,这个列表中的url就是爬虫抓取的第一个网页,它的返回值是该url对应网页的源代码,我们可以用默认的parse(self,response)函数去打印或解析这个源代码

2.我们获取到源代码之后,就可以从网页源代码中找到我们想要的信息或需要进一步访问的url,提取信息这一步,scrapy中集成了xpath,正则(re),功能十分强大,提取到信息之后会通过yield进入到中间件当中。

中间件包括爬虫中间件和下载中间件,爬虫中间件主要用于设置处理爬虫文件中的代码块,下载中间件主要用于判断爬虫进入网页前后的爬取状态,在此中间件中,你可以根据爬虫的返回状态去做进一步判断。

最后我们将yield过来的item,即就是我们想要的数据会在pipeline.py文件中进行处理,存入数据库,写入本地文件,都可以在这里进行,另外,为了减少代码冗余,建议所有与设置参数有关的参数,都写在settings.py中去
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
哪些网站可以找到更好的ppt配图? 有哪些“免费”的ppt模板,图片素材的网站? 推荐点梁汉文的好歌 梁汉文好听的经典歌 哲理词句大全精选278句 微信名字最好听527个 面试没过可以再争取话术 面试后被拒绝了如何重新争取 面试复试没通过还能争取吗 3d定制女仆2电脑配置这个配置能玩3D定制女仆2么不行的话需要换什么 华为p20怎么设置动态锁屏 写落日余晖的古诗句 关于黄昏的诗歌(自己写的) 谁有关于悲伤和黄昏的诗句或散文?急需!!!!! 形容落日黄昏的古诗词有哪些? 描写傍晚的诗句有哪些 关于黄昏的诗句,情景是在树林里 寻找有关于黄昏的现代诗歌,古诗词等 关于黄昏的古诗词 描写黄昏的古诗句 如何培养小学生自主阅读能力研究计划 描写黄昏的诗句。 作文内容是开学两周的感受.还有以后要怎么做的打 黄昏的诗词 浅谈如何提高小学语文集体备课的有效性 关于黄昏落日的古诗句 急需小学三年级语文教学计划 小学德育工作计划 黄昏 诗句 描写黄昏的诗句古诗 描写黄昏落日的诗句 用python爬虫的基本步骤 爬虫怎么学 python爬虫抓取数据的步骤 爬虫怎么爬数据 Python中怎么用爬虫爬 想知道网购手表,哪里去较好? python 爬虫自学要多久 在哪里(网购)可以买到正品天梭手表? 学python爬虫需要从头开始学吗 Python网络爬虫学习建议,初学者需要哪些准备 精通Python网络爬虫之网络爬虫学习路线 学习爬虫到什么地步才能接单? 如何一步一步学习到网络爬虫技术? 保定市锂航锂电池组装有限公司怎么样? 开个锂电池组装店需要多少钱真的靠谱吗 锂电池组装厂? 锂电池生产厂家有哪些? 好的生产锂电池生产设备的厂家有哪些 微信电话本怎么录制语音留言提示音? 魅蓝5电话留言录音功能怎么打开