问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python爬虫框架哪个好用?

发布网友 发布时间:2022-04-23 22:05

我来回答

6个回答

热心网友 时间:2022-05-10 06:00

爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。

PySpider

PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是:

抓取、更新调度多站点的特定的页面

需要对页面进行结构化信息提取

灵活可扩展,稳定可监控

pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫

通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性

通过web化的脚本编写、调试环境。web展现调度状态

抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展

pyspider的架构主要分为 scheler(调度器), fetcher(抓取器), processor(脚本执行):

各个组件间使用消息队列连接,除了scheler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheler 负责整体的调度控制

任务由 scheler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheler),形成闭环。

每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回*制解析动作。

热心网友 时间:2022-05-10 07:18

说实话感觉大同小异。各有优缺点吧~

常见python爬虫框架
1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。
2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等
3)Portia:可视化爬取网页内容
4)newspaper:提取新闻、文章以及内容分析
5)python-goose:java写的文章提取工具
6)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。
7)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。
8)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
9)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

资料来源:网页链接

希望我的回答对你有帮助~

热心网友 时间:2022-05-10 08:52

爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。

热心网友 时间:2022-05-10 10:44

Python爬虫常用框架有:
grab:网络爬虫框架;
scrapy:网络爬虫框架,不支持Python3;
pyspider:一个强大的爬虫系统;
cola:一个分布式爬虫框架;
portia:基于Scrapy的可视化爬虫;
restkit:Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象。
demiurge:基于PyQuery的爬虫微框架。

热心网友 时间:2022-05-10 12:52

Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。

Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。

热心网友 时间:2022-05-10 15:16

用讯代理爬虫,我自己的事可以无限切换IP
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
瑞安皇都大厦几个电梯 办签证和护照的具体步骤和一共的费用!我需要详细一点的答案. 办护照流程 办护照的流程是什么 哪位推荐几部韩剧啊!!要像豪杰春香,魔女幼熙这样的,剧情要感人,最好是... 小阴唇内应该是光滑的吗,阴道口痒为什么 阴道口有像草莓样正常吗 任氏族谱字辈:世秉忠贞 永达明玉起 国正天元律迎祖大继昌 河南夏氏家谱辈分我是永城市酂城镇夏氏夏世界具家谱记载洪武二年始祖良... 夏侯姓字辈排行 夏氏辈行,我爷爷明字辈,我父亲应字辈,我是崇字辈,后面是什么辈? 弧长公式的公式介绍 如何使用python爬取数据并进行可视化显示 扇形弧长公式,兀rl是怎么推导的? 弧度制下的弧长公式是什么??? 弧长的计算公式是什么? 关于扇形面积 圆锥侧面积 弧长 计算公式及推导公式 弧度制公式 请用简洁的语言介绍北京2008年奥运会会徽 刚出土的土人参保存 弧度制公式 有关扇形弧长及面积公式? 推导公式? 2008年北京奥运会会徽的介绍 弧长计算公式的公式 2008年奥运会的标志由什么组成 高等数学,弧长为什么是这个公式?怎么推导出来的? 2008年北京奥运会会徽的四层含义 2008 北京奥运会的标志及含义 圆弧的弧长公式和面积公式是什么? 弧度制 :θ=l/r公式的推导 2008北京奥运会申奥标志 弧度制下的弧长公式和角度制下的弧长公式 弧度制与角度制的换算公式是什么? 土人参采栽后怎么治做收藏 如何利用角度制中扇形弧长公式证明弧度制中的扇形弧长公式 利用弧度制证明扇形面积公式S=1/2lr,其中l是扇形的弧长r是圆的半径 python做可视化数据分析,究竟怎么样? Python爬取贝壳找房平台深圳地区的租房数据并做简单分析和可视化? 安卓智能手机有什么可以直接下载mp4格式的软件? 手机视频软件缓存的视频有哪个软件缓存的是mp4格式的 手机播放软件下载的是mp4格式电影 用什么手机应用下载的视频是mp4格式的(请多说几个) 小四轮用的直感式水温传感器和水温表的构造和原理是什么? 汽车水温表的工作原理? 求汽车水温表的工作原理? 汽车水温表如何看才是正确的,它的工作原理? 水温表直感和电感的区别 汽车水温传感器工作原理。 直感水温表铜丝里面是什么? 水温传感器工作原理是什么?种类有几种? 水温表工作原理, 汽车电子数显水温表由哪些部分组成,各元器件的名称以及工作原理和一些制作要求等。请帮帮忙!