怎样用python爬新浪微博大V所有数据

发布网友发布时间：2022-04-21 03:04

共1个回答

热心网友时间：2023-11-04 21:00

先上结论，通过公开的api如果想爬到某大v的所有数据，需要满足以下两个条件：
1、在你的爬虫开始运行时，该大v的所有微博发布量没有超过回溯查询的上限，新浪是2000，*是3200。
2、爬虫程序必须不间断运行。
新浪微博的api基本完全照搬*，其中接口的参数特性与底层的NoSQL密不可分，建议先看点Nosql数据库的设计理念有助于更好的理解api设计。
一般来说，如果决定爬某个大v，第一步先试获取该用户的基本信息，中间会包含一条最新的status，记下其中的id号作为基准，命名为baseId。
接口中最重要的两个参数：
since_id：返回ID比since_id大的微博（即比since_id时间晚的微博），默认为0。
max_id：返回ID小于或等于max_id的微博，默认为0。
出于各种原因，获取statuses的接口，固定为按id降序排列（scan_index_forward=false），即最新的statuses返回在前。假设该微博第一天上线，就一个用户，发了一百条，id是1到100。而你在该用户发了第50条的时候开始运行的爬虫，即baseId=50。
假设按每次获取10条历史数据递归，先将max_id设为baseId，获取该用户id为41－50的微博，再将max_id设为41重复循环，直到返回微博数量为1或0。这步没有问题。
获取用户最新的statuses就有些蛋疼了，since_id＝50，同样获取10条数据，返回的并不是id值为51－60的数据，而是100-91的数据。简单说就是你没法从since_id逐步更新到用户当前status，而是得一口气从用户当前status更新到上次爬虫运行时得到的最后一条status。假设你的爬虫一个月才运行一次，该用户在这期间发了2300条微博，根据*你只能更新2000条，这其中最老的300条在你的系统内就会出现“断档”。
最后一条，以上只针对公开的api，stackoverflow上*
API可以申请权限突破数量*和更改排序机制，微博也应该有类似机制。