问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

怎么用Python读取本地网站的内容

发布网友 发布时间:2022-04-23 03:34

我来回答

1个回答

热心网友 时间:2022-04-18 03:26

思路如下:

使用urllib2库,打开页面,获取页面内容,再用正则表达式提取需要的数据就可以了。

下面给你个示例代码供参考,从百度贴吧抓取帖子内容,并保存在文件中。


# -*- coding:utf-8 -*-
import urllib2
import re
url='

page=urllib2.urlopen(url).read().decode('gbk')
none_re=re.compile('<a href=.*?>|</a>|<img.*?>')
br_re=re.compile('<br>')
title_re=re.compile('<h1 class="core_title_txt  " title="(.*?)"')
content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')
title=re.search(title_re,page)
title=title.group(1).replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')  
content=re.findall(content_re,page)
with open('%s.txt'%title,'w') as f:
    for i in content:
        i=re.sub(none_re, '', i)
        i=re.sub(br_re, '\n', i)        
        f.write(i.encode('utf-8').strip()+'\n')

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
让你一见倾心的句子说说(一见倾心的古风句子) 让人一见倾心的干净句子干净优雅打动人心 唯美走心的心动短句(一眼心动的惊艳句子) 税款缴纳税款缴纳的手法 交国税怎么交 最新微博早晨唯美早安晚安生活正能量心语语录带图片 特别优美的晚安句子(非常精致的晚安心语) 晚安的文案 微博晚安心语一句话 怕咬手指头了,这六个字共有多少画 怕失眠三个字共有几画 Python 制作网页打不开 直接跳到打开或者保存文件 如何使用Python加载网站所有页面 如何使用python打开IE并打开一个URL python 读取网页内容 python 如何把打开的网页记录下来 Python打开网页并另存为静态html怎么实现 python(x,y)如何打开编程页面? 用python做的网页需要客户端装解释器才能打开吗? 怎样利用python打开一个网页并实现自动登录 python打开网站链接返回字符串 python如何操作已经在浏览器中打开的网页 想用python编写一个脚本,登录网页,在网页里做一系列操作,应该怎样实现... 使用python是否能打开网页 python打开网页 电信数字电视IPTV如何接无线路由器 iptv高清机顶盒可以连接路由器吗? 电信IPTV机顶盒怎样连接无线路由器? 电信网络电视(iptv)和一个无线路由器,怎么安装啊? 电信IPTV如何与路由器连接? 电信机顶盒接路由器如何设置? 浏览器怎么运行 python 网站 如何让QQ的提示音更改? 其字可以组什么词 其字可以组啥词 其字能组什么词 其可以组什么词语 其还可以组什么词 其他的其可以组什么词 其可以组什么词最好带拼音? 其组词有哪些 “其”字可以组什么词? 其的四字词语 其中的“其”还可以组什么词语? 其字能组什么四字词语 其能组什么字 我想找一下其中的其还可以组什么词语 其可以组哪些成语 “分”的多音字可以组什么词语? 分的分可以组什么词 分可以组什么词