问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

Python爬取笔趣阁小说返回的网页内容中没有小说内容?

发布网友 发布时间:2022-04-24 18:27

我来回答

6个回答

热心网友 时间:2022-05-10 17:33

思路:
一、分析网页,网址架构
二、码代码并测试
三、下载并用手机打开观察结果
一、分析网页,网址架构
先随便点击首页上的一篇小说,土豆的--元尊,发现在首页上面有如下一些信息: 作者,状态,最新章节,最后更新时间,简介,以及下面就是每一章的章节名,点击章节名就可以跳转到具体的章节。
然后我们按F12,进入开发者模式,在作者上面点击右键--“检查”,可以发现这些信息都是比较正常地显示。
再看章节名称,发现所有的章节都在<div id="list"> 下面的 dd 里面,整整齐齐地排列好了,看到这种情形,就像点个赞,爬起来舒服。
分析完首页,点击章节名称,跳转到具体内容,发现所有的正文都在 <div id="content"> 下面,巴适的很
那么现在思路就是,先进入小说首页,爬取小说相关信息,然后遍历章节,获取章节的链接,之后就是进入具体章节,下载小说内容。
OK,开始码代码。
二、码代码并测试
导入一些基本的模块:
import requests
from bs4 import BeautifulSoup
import random
2.先构建第一个函数,用于打开网页链接并获取内容。
使用的是requests 包的request.get ,获取内容之后用‘utf-8’ 进行转码。
这里我之前有个误区就是,以为所有的网站都是用 'utf-8' 进行转码的,但是实际上有些是用'gbk' 转码的,如果随便写,就会报错。
百度之后,只要在console 下面输入 ‘document.charset’ 就可以获取网站的编码方式。

热心网友 时间:2022-05-10 18:51

因为这里是动态加载的内容,而你用普通的方法爬取的网页只能爬渠道静态的内容。

所以你需要模仿真正的浏览器,而不是仅仅请求这个页面的内容。

详细内容可以在网上搜索以下,毕竟这里我也没法给你详细解说。

加油!

python 天下第一

热心网友 时间:2022-05-10 20:26

from urllib import request
import re

#构造请求信息,
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}

i = 2693152
j = 1
#2693854
while i <= 2693172:
print(f'正在下载第{j}章……')
url =f'http://www.yingsx.com/6_6366/{i}.html'
req = request.Request(url,headers=header)
html = request.urlopen(req).read().decode('utf-8')

pat1 =re.compile(r'<h1>(.*?)</h1>',re.I) #匹配章节
pat2 =re.compile(r'<div id="content">(.*?)<br />',re.I) #匹配正文开头
pat3 = re.compile(r' (.*?)<br />') #匹配正文中间的文字
pat4 = re.compile(r' (.*?)</div>') #匹配正文结尾

chapter = pat1.findall(html)
content_top = pat2.findall(html)
content_center = pat3.findall(html)
content_bottom = pat4.findall(html)

#把章节和内容,合并到一个列表
chapter = list(chapter[0] + '\n')
content_bottom = list(content_bottom[0] + '\n')
content = chapter + content_top +content_center +content_bottom

with open(f'E:/其他/飞升之后.txt','a') as f:
f.writelines(content)

i += 1
j += 1
print('已完成下载,请查收!')

热心网友 时间:2022-05-10 22:17

我试了一下,用iter_content方法直接保存到文件可以。
file = open('xiaoshuo.txt','wb')
for line in res.iter_content():
file.write(line)
file.close()

你用的是pycharm吧,pycharm要配置一下,你直接用cmd试试可不可以

热心网友 时间:2022-05-11 00:25

把网页下载本地,再从本地打开就能显示了

热心网友 时间:2022-05-11 02:50

我也是遇到了这个情况,你解决了嘛
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
招投标技术负责人是什么证 欧美的经典的线稿漫画 推荐几款欧美漫画,跪求!!! 十大DC漫画推荐 DC漫画必看经典盘点 dc好看的漫画有哪些 十大欧美漫画推荐 欧洲经典漫画盘点 欧洲好看的漫画有哪些 欧美有哪些经典的漫画作品? 十大美国漫画推荐 美国漫画经典作品 美国著名的漫画有哪些 音悦台mini客户端为什么不能记住账号自动登录呢,,,每次都要重新输~郁... 请问 音悦台 和 百度 怎样解绑手机? 如何注册音悦台账号 英国伦敦的奥运会办的咋这么糟糕啊 喝一瓶醋会降低血压吗 为什么这么糟糕心情。。 醋喝多了会有什么害处 再生障碍性贫血用达那唑治疗效果好吗 他说原谅喜欢的这么糟糕我应该怎么回答他? 喝一瓶醋 怎么样 什么是特发性血小板减少性紫癜的治疗? 为什么感觉这么糟糕 大量喝醋会有什么后果 听人说,达那唑胶囊治疗血小板减少很有疗效,那应该怎么用药?谢谢 生活怎么这么累、这么糟糕,孩子,家庭矛盾,钱,保险费用,真的一切都是钱闹的吗?怎么这么糟糕 喝了一瓶老陈醋会有什么反应 达那唑对肝脏损害大吗?以前得过甲肝,现在总胆红素直接,间接胆红素 为什么这么糟糕? 每天喝一瓶醋会怎样 请问服用达那唑胶囊有什么副作用吗? 糟糕的意思 超高分急急急:喝大量的醋有什么危害? 为什么我总那么倒霉,那么糟糕,无论感情或自身都是磕磕碰碰。怎么办... 达那唑和强的松 为什么国产动漫这么糟糕 请问大家,喝醋有什么好处?醋喝多了会怎样? 达那唑胶囊治疗血小板减少多长时间起效 西班牙的事情为什么总是那么糟糕 python中网络爬虫怎么爬小说 急求!!!95分以上的郑姓女孩名字 心态很糟糕,怎么办? 牛年郑姓的女孩的名字 达那唑是雄激素还是雌激素?回答简单明了点 谢谢 喝醋有啥子好处啊 Python使用beautifulsoup如何爬取小说正文全部内容? 求编程大佬 Python 爬虫 在这么糟糕的情况下英文 喝醋会有哪些神奇的功效呢? 跪求用Python网络爬虫爬取书籍目录的代码(例如爬取Python神经网络编程... 郑姓女孩洋气的名字 这些名字超不错 python爬虫时怎么找小说id 游戏策划需要些什么基础?需要了解一些什么? 求大师取名郑姓100分女孩名字