怎么用Python读取本地网站的内容
发布网友
发布时间:2022-04-23 03:34
我来回答
共1个回答
热心网友
时间:2022-04-18 03:26
思路如下:
使用urllib2库,打开页面,获取页面内容,再用正则表达式提取需要的数据就可以了。
下面给你个示例代码供参考,从百度贴吧抓取帖子内容,并保存在文件中。
# -*- coding:utf-8 -*-
import urllib2
import re
url='
page=urllib2.urlopen(url).read().decode('gbk')
none_re=re.compile('<a href=.*?>|</a>|<img.*?>')
br_re=re.compile('<br>')
title_re=re.compile('<h1 class="core_title_txt " title="(.*?)"')
content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')
title=re.search(title_re,page)
title=title.group(1).replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')
content=re.findall(content_re,page)
with open('%s.txt'%title,'w') as f:
for i in content:
i=re.sub(none_re, '', i)
i=re.sub(br_re, '\n', i)
f.write(i.encode('utf-8').strip()+'\n')