问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

假期必看全网最全Ph爬虫库

发布网友 发布时间:2023-07-24 03:49

我来回答

1个回答

热心网友 时间:2024-07-29 04:57

最全Python爬虫库

Python爬虫库推荐

通用:

1.urllib-网络库(stdlib) 。

2.requests-网络库。

3.grab-网络库(基于py curl) 。

4.py curl-网络库(绑定libcurl) 。

5.urllib 3-Python HTTP库, 安全连接池、支持文件post

、可用性高。

6.httplib 2-网络库。

7.Robo Browser-一个简单的、极具Python风格的

Python库, 无需独立的浏览器即可浏览网页。

8.Mechanical Soup一一个与网站自动交互Python库。

9.mechanize-有状态、可编程的Web浏览库。

10.socket-底层网络接口(stdlib) 。

11.Uni rest for Python-Uni rest是一套可用于多种语言的

轻量级的HTTP库。

12.hyper-Python的HTTP/2客户端。

13.Py Socks-Socks iPy更新并积极维护的版本, 包括错误

修复和一些其他的特征。作为socket模块的直接替换。

网络爬虫框架

1.功能齐全的爬虫

·grab-网络爬虫框架(基于py curl/multi cur) 。

·scrap y-网络爬虫框架(基于twisted) , 不支持

Python 3。

mpy spider-一个强大的爬虫系统。

·cola-一个分布式爬虫框架。

2.其他

·portia-基于Scrap y的可视化爬虫。

*rest kit-Python的HTTP资源工具包。它可以让你轻松地

访问HTTP资源, 并围绕它建立的对象。

·demiurge-基于Py Query的爬虫微框架。

HTML/XML解析器

1.通用

·lxml-C语言编写高效HTML/XML处理库。支持XPath。

·css select-解析DOM树和CSS选择器。

py query-解析DOM树和j Query选择器。

Beautiful Soup-低效HTML/XML处理库, 纯Python实

现。

·html5lib-根据WHATWG规范生成HTML/XML文档的

DOM。该规范被用在现在所有的浏览器上。

·feedparser-解析RSS/ATOM feeds。

·Markup Safe-为XML/HTML/XHTML提供了安全转义的

字符串。

·xml to dict-一个可以让你在处理XML时感觉像在处理

JSON一样的Python模块。

·xhtml 2pdf-将HTML/CSS转换为PDF。

·untangle-轻松实现将XML文件转换为Python对象。

HTML/XML解析器

1.通用

·lxml-C语言编写高效HTML/XML处理库。支持XPath。

·css select-解析DOM树和CSS选择器。

·py query-解析DOM树和j Query选择器。

·Beautiful Soup-低效HTML/XML处理库, 纯Python实

现。

·html5lib-根据WHATWG规范生成HTML/XML文档的

DOM。该规范被用在现在所有的浏览器上。

·feedparser-解析RSS/ATOM feeds。

·Markup Safe-为XML/HTML/XHTML提供了安全转义的

字符串。

·xml to dict-一个可以让你在处理XML时感觉像在处理

JSON一样的Python模块。

·xhtml 2pdf-将HTML/CSS转换为PDF。

·untangle-轻松实现将XML文件转换为Python对象。

文本处理

用于解析和操作简单文本的库。

1.通用

2.diff lib-(Python标准库) 帮助进行差异化比较。

3.Levenshtein-快速计算Levenshtein距离和字符串相似度。

4.fuzzy wuzzy-模糊字符串匹配。

5.esm re-正则表达式加速器。

6.ft fy-自动整理Unicode文本, 减少碎片化。

自然语言处理

处理人类语言问题的库。

·NL TK-编写Python程序来处理人类语言数据的最好平台。

·Pattern-Python的网络挖掘模块。他有自然语言处理工具

,机器学习以及其它。

·Text Blob-为深入自然语言处理任务提供了一致的API。是

基于NL TK以及Pattern的巨人之肩上发展的。

·jie ba-中文分词工具。

·Snow NLP-中文文本处理库。

·los o-另一个中文分词库。

浏览器自动化与仿真

·selenium-自动化真正的浏览器(Chrome浏览器, 火狐浏

览器, Opera浏览器, IE浏览器) 。

·Ghost.py-对PyQt的webkit的封装(需要PyQT) 。

·Spy nner-对PyQt的webkit的封装(需要PyQT) 。

·Splinter-通用API浏览器模拟器(selenium web驱动,

Django客户端, Zope) 。

多重处理

·threading-Python标准库的线程运行。对于I/O密集型任

务很有效。对于CPU绑定的任务没用, 因为python GIL。

multiprocessing-标准的Python库运行多进程。

·celery-基于分布式消息传递的异步任务队列/作业队列。

·concurrent-futures-concurrent-futures模块为调

用异步执行提供了一个高层次的接口。

异步

异步网络编程库

·async io-(在Python 3.4+版本以上的Python标准库

)异步/O,时间循环,协同程序和任务。

·Twisted-基于事件驱动的网络引擎框架。

·Tornado-一个网络框架和异步网络库。

·pulsar-Python事件驱动的并发框架。

·diesel-Python的基于绿色事件的I/O框架。

g event-一个使用green let的基于协程的Python网络库

·event let-有WSGI支持的异步框架。

·Tomorrow-异步代码的奇妙的修饰语法。

队列

·celery-基于分布式消息传递的异步任务队列/作业队列。

·huey-小型多线程任务队列。

·mrq-Mr.Queue-使用red is&G event的Python分

布式工作任务队列。

·RQ-基于Red is的轻量级任务队列管理器。

·simple q-一个简单的, 可无限扩展, 基于Amazon SQS

的队列。

·python-gear man-Gear man的Python API。

云计算

·pic loud-云端执行Python代码。

·dominoup.com-云端执行R, Python和matlab代码

网页内容提取

提取网页内容的库。

·HTML页面的文本和元数据

·newspaper-用Python进行新闻提取、文章提取和内容策

展。

·html2 text-将HTML转为Markdown格式文本。

·python-goose-HTML内容/文章提取器。

·lassie-人性化的网页内容检索工具

Web Socket

用于Web Socket的库。

·Crossbar-开源的应用消息传递路由器(Python实现的用

于Autobahn的Web Socket和WAMP) 。

·Autobahn Python-提供了Web Socket协议和WAMP

协议的Python实现并且开源。

·Web Socket-for-Python-Python 2和3以及PyPy的

Web Socket客户端和服务器库。




假期必看全网最全Ph爬虫库

1.urllib-网络库(stdlib) 。2.requests-网络库。3.grab-网络库(基于py curl) 。4.py curl-网络库(绑定libcurl) 。5.urllib 3-Python HTTP库, 安全连接池、支持文件post 、可用性高。6.httplib 2-网络库。7.Robo Browser-一个简单的、极具Python风格的 Python库, 无需独立的浏览器即可浏览网...

假期必看全网最全Ph爬虫库

3.grab-网络库(基于py curl) 。 4.py curl-网络库(绑定libcurl) 。 5.urllib 3-Python HTTP库, 安全连接池、支持文件post 、可用性高。 6.httplib 2-网络库。 7.Robo Browser-一个简单的、极具Python风格的 Python库, 无需独立的浏览器即可浏览网页。 8.Mechanical Soup一一个与网站自动交互Python库。

假期必看 假期必看的书 假期必看书单 小学生假期必看电影 中学生假期必看电影 爬虫爬取数据 假期应该看的书 假期适合看什么书 python为什么叫爬虫
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
我国运输费的税率是多少? 关于2023中秋节祝福语句 27岁,我又从零开始了 英姿飒爽:女画家王睿的油画艺术 彭水县乌江画廊旅游有限责任公司是国企吗? 介电常数大小 专线物流公司哪家出价靠谱的? 对抗青春痘的十大的秘决 哪种减肥方法好?揭秘六种减肥方法的真面目 垃圾分类桶有几种颜色 长咀村属于哪个省哪个市 王家崴子村位于哪个省 你好!我的环子已经上了12年了,如果不更换有什么危害吗? 电网停电怎么样关逆变器? 北京崇文区光明楼华普超市工商银行叫什么支行? 工商银行百荣世贸支行 属于什么支行 2023考研会不会扎堆农学 你们了解慈禧多少呢? 镇西社区属于哪个省哪个市 西郊机场普通人能坐吗 本溪县农牧场属于哪里 本溪县南甸子镇太子河年平均流量多大 腰椎狭窄怎么治【腰椎狭窄】 女朋友说你知道我的穿衣风格如何回复? 东西与人气质符合怎么形容? 碱厂村邮编是多少 2021口腔执业助理医师每日一练-组织病理学(2021.3.19) 2021口腔执业助理医师每日一练-组织病理学(4-19) USB转RS232接口线为什么只有三条线? 自强小芳是啥电视剧 exo 谁是懵懵?为什么叫懵懵? 光伏逆变器停用先拉交流还是直接 请帮帮我这韩语不太会的 把下面这些翻成韩文 感激不尽啊!!!><_百度... 傅则奕遇辞是哪部小说 大学劳动课挂了严重么 赵家堡村车牌号是多少 银行校园招聘有猫腻吗 大理下关客运站到盈江 要几个小时,多少的路费? 天育918种种大洼地行吗? 请问,江西省吉安市井冈山市具体的哪些地方有联通4G信号网络覆盖... 辽吉1988玉米种子适合什么地种植是旱地还是洼地 鱼丁茄子褒,要怎么做才好吃呢? 胃癌患者术后食山药薏仁粥可助恢复 胃癌手术后能吃山药炖鸭子吗 怎么申请残疾人证书 我想请问哈昆明到巍山有没有直达的汽车,没有的话,要怎么样才能到?谢谢... 水路改造后检测事项避免房屋漏水就看它 任天堂账号可以查询主机吗 房屋漏水麻烦多专家教你专业的水路检测方法 劳动通论能重做吗