问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

PHP怎样抓取网页代码中动态显示的数据

发布网友 发布时间:2022-04-06 02:03

我来回答

3个回答

懂视网 时间:2022-04-06 06:24

推荐:《PHP视频教程》

PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QLQueryList;
//进入网页
$jar = new GuzzleHttpCookieCookieJar;
$client = new GuzzleHttpClient(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
 'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
 echo '网站状态不正常';die;
}
echo $ql->getBody();

6b0d42b0ac5af250f8026e0f3ff8423.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

$ql = $client->request('GET', 'https://www.baidu.com', [
 'cookies' => $jar,
 'headers' => [
 'Accept-Encoding' => 'gzip, deflate, br',
 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
 'Accept-Language' => 'zh-CN,zh;q=0.9,en;q=0.8',
 'Cache-Control' => 'no-cache',
 'Connection' => 'keep-alive',
 'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

我测试了下,网站打开了。

8e377d524c553551086d93d9f40c90b.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QLQueryList;
use QLExtChrome;
$ql = QueryList::getInstance();
// 注册插件,默认注册的方法名为: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
 $page->goto('https://www.baidu.com');
 // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动
 sleep(3);
 //输入关键词
 $wd = '简庆旺博客';
 $page->type("input[id='kw']",$wd);
 sleep(1);
 //点击搜索
 $page->click("input[type='submit']");
 //等待搜索结果
 sleep(3);
 //获取结果
 $html = $page->content();
 //用jquery选择器抽取结果
 $rules = array(
 'title'=>['#content_left h3 a','text'],//标题
 'url'=>['#content_left h3 a','href'],//跳转网址
 'description'=>['div .c-abstract','text'],//描述
 );
 $ql = QueryList::html($html);
 $rt = $ql->rules($rules)->query()->getData();
 //如果有需要,可以把$rt入库,以及做其他操作
 sleep(10);
 $browser->close();
 // 返回值一定要是页面的HTML内容
 return $html;
},[
 'headless' => false, // 启动可视化Chrome浏览器,方便调试
 'devtools' => false, // 打开浏览器的开发者工具
])->find('title')->text();

$rt是我的结果集合,打印下,如下

b8484929df81399679d8932930690fd.png

57c970e6dcf42d1a286ea23682e0591.png

热心网友 时间:2022-04-06 03:32

PHP Simple HTML DOM或者phpQuery可以直接取得某些div中的内容,里面有几个例子专门针对于网页抓取,调整好抓取频次,舍去已经存在的数据,你可以参考下
http://www.tocus.com.cn/?send=article_show&id=57&class=2

热心网友 时间:2022-04-06 04:50

你是想抓别人网页上ajax动态载入的数据吧?

1、要找到它的ajax载入的URL地址

2、利用PHP的file_get_contents($url)函数读取那个url地址。

3、对抓取到的内容进行分析或正则过滤。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
在公交车上实施扒窃,会受到怎样的处罚? 交通违法行为识别 公交车扒窃会如何处罚? 郑州鱼缸清洗找哪家公司做得比较好? 郑州有没有专业维修鱼缸,清洗鱼缸的? ...的鱼缸,放在办公室养些鱼水草之类的。郑州哪里有卖这样的鱼缸。_百... 我们公司想要定做个观赏鱼缸,不知道郑州哪家公司最专业? 谁知道郑州生态鱼缸定做哪家做的效果最好? 联想电脑启用无线功能的功能键? 笔记本电脑怎么连接网笔记本电脑怎样连接无线网 用php代码获取百度搜索后页面里面的10个链接 php怎么抓取其它网站数据 php如何抓取网页中的数据 如何使用php模拟获取百度搜索结果并和百度 PHP正则表达式获得中间的中文文字 在PHP中,匹配中文utf8的正则表达式 php用正则表达式判断中文数字 php 正则表达式匹配 取得中文,如:中心东路 ;取得坐标,如 -2639.848633,-2544.598145 求php正则匹配 中文和数字和英文和一些符号 的表达式 PHP正则匹配出汉字 php 正则匹配 两端中文之间内容 PHP正则表达式验证是否含有中文 php 求用正则匹配中文以及标点符号 php匹配中文的正则怎么写? PHP的正则表达式中使用中文(并匹配中文)的问题,原串为UTF8 PHP正则匹配中文 PHP preg_match 函数怎么匹配中文? php正则怎么匹配中文冒号 PHP正则提取中文部分内容,怎么实现呀? php怎么将中文利用正则表达式匹配出来 如何利用php抓取网站动态产生的数据 PHP获取网站中的信息并存入数据库 php怎么实现相关内容检索啊? php抓取网页指定的内容 PHP实现数据结构几个自定义PHP函数 php数据分析 php 抓取后怎么得到里面的具体数据 php中想要抓取网页中某一段的数据的代码 PHP二分查找算法的实现方法示例 更新ios14.2需要多少流量 苹果14系统占多少内存 安装ios14需要多少内存 64g要不要升级ios14 16g的6sp更新ios14还有多少容量? 32g更新ios14是剩下多少g 苹果15.2系统需要多少流量? ios系统每次更新一次要占用多少内存? 更新升级iOS10.3需要占用多大内存? 苹果客服人工在线咨询苹果四代耳机能连上手机(苹果7,14系统),但是没弹窗是为什么_问一问 i14蓝牙耳机为什么没有弹窗?