目录
环境依赖puppeteer离线安装Chromium跳过安装chromium获取需要下载的chromium版本号下载对应版本的chromium解压spatie/browsershot使用总结最近遇到一个问题,需要爬取js渲染后的网页内容,因此研究了下相关实现方式。主要借助puppeteer
实现,它是一个Node库,要想在PHP中使用,还借助了spatie/browsershot
。
环境依赖
puppeteer
Puppeteer是一个Node
库,我是直接在php项目下使用npm安装这个库,然后借助spatie/browsershot
来调用它。读者也可以新建一个node项目安装这个库,然后对外暴漏一个端口通过接口的方式传递url返回html内容的方式实现。
npm i puppeteer --save
离线安装Chromium
安装puppeteer
时会下载Chromium
,因为众所周知的原因可能会下载不下来,因此下面提供了离线下载的方式。
跳过安装chromium
如果已经运行上一步的命令并且正在下载Chromium
了,那可以直接Ctrl+C
停止任务。如果还没运行,就使用下面的命令安装。
npm i puppeteer --ignore-scripts
获取需要下载的chromium版本号
打开/node_modules/puppeteer/package.json
搜索chromium_revision
对应的版本号
"puppeteer": { "chromium_revision": "756035", "firefox_revision": "latest"}
下载对应版本的chromium
用上面的版本号替换掉下方花括号里的字符,比如我本地是
win x64
,下载地址就是https://commondatastorage.googleapis.com/chromium-browser-snapshots/Win_x64/756035/chrome-win.zip
mac版下载地址:https://commondatastorage.googleapis.com/chromium-browser-snapshots/Mac/{chromium版本}/chrome-mac.zipwindows 64位版本下载地址:https://commondatastorage.googleapis.com/chromium-browser-snapshots/Win_x64/{chromium版本}/chrome-win.zipwindows 32位版本下载地址:https://commondatastorage.googleapis.com/chromium-browser-snapshots/Win/{chromium版本}/chrome-win.zipLinux X86版本下载地址:https://commondatastorage.googleapis.com/chromium-browser-snapshots/Linux/{chromium版本}/chrome-linux.zipLinux X64版本下载地址:https://commondatastorage.googleapis.com/chromium-browser-snapshots/Linux_x64/{chromium版本}/chrome-linux.zip
解压
将下载下来的chromium
安装包解压到puppeteer
中的.local_chromium/win64-{chromium版本号}/
目录下。以我的为例就是/node_modules/puppeteer/.local_chromium/win64-756035/chrome-win/
。搞定~
spatie/browsershot
browsershot 是一个composer
包,以前还用过的spatie/laravel-permission,都是同一团队制作的
composer require spatie/browsershot
使用
其实困难的部分就是找到合适的工具以及安装工具,真正使用反而很简单。下面列了一个很简单的例子,更多方法还是去看官方文档吧。
<?phpuse Spatie\Browsershot\Browsershot;class Spider{ /** * 获取html内容 * @param $url * @return string */ public static function getBodyHtml($url) { return Browsershot::url($url)->bodyHtml(); }}