python爬取的数据如何去重?说一下具体的算法依据
发布网友
发布时间:2022-04-30 23:19
我来回答
共1个回答
热心网友
时间:2022-04-18 04:07
要具体问题具体分析的。看你要抓取什么数据。
最好能找到一个能够作为重复性区分的字段值。比如百度知道的所有提问,每个问题都有一个对应的id,楼主这个问题对应的id就是181730605611341844。那在爬取的过程中,可以将所有已经爬取的问题id保存在一个set()中,如果即将爬取的问题id已经存在了,那就跳过,反之则继续。
不知道楼主用的是什么数据库,在数据库设计中,也可以添加一些约束条件作为约束,保证数据的唯一性。