TP5框架使用QueryList采集框架爬小說操作示例
本文實(shí)例講述了TP5框架使用QueryList采集框架爬小說操作。分享給大家供大家參考,具體如下:
最近想寫一個(gè)小說網(wǎng)站,就去搜資料,搜出來TP5可以使用QueryList采集框架去爬小說,這里我來給大家詳解如何用QueryList去爬小說。
#首先應(yīng)該下載TP5框架,然后在extend里面建立一個(gè)文件夾命名為QL,再去官網(wǎng)下載QueryList,然后把phpQuery.php 和 QueryList.php 兩個(gè)文件放在QL文件夾下,如圖:
##在QueryList.php里面加上命名空間:
namespace QL; require ‘phpQuery.php'; use phpQuery,Exception,ReflectionClass; use Monolog\Logger; use Monolog\Handler\StreamHandler; use Iterator,Countable,ArrayAccess;//使用phpQuuery接口
#準(zhǔn)備工作做好了下來開始采集小說(我們這里以https://www.17k.com/這個(gè)網(wǎng)站的免費(fèi)小說為例)
##先找到你要采集的小說的目錄頁(yè)面的url作為采集url
##再在url前面加上 view-source: 查看他的源碼,找到包含所有章節(jié)url的class屬性,寫好采集規(guī)則,執(zhí)行語句進(jìn)行采集
##采集他的章節(jié)名和每一章節(jié)的url,因?yàn)閡rl采集下來沒有域名,需要用正則表達(dá)式加上https://www.17k.com 然后采用for循環(huán)去一個(gè)一個(gè)采集每一章節(jié)的內(nèi)容
##最后再將采集到的章節(jié)名與章節(jié)內(nèi)容存入數(shù)據(jù)庫(kù)
直接上代碼:
<?php namespace app\index\Controller; use think\Controller; use QL\QueryList; class Xiaoshuo extends Controller { public function index() { //采集目標(biāo) //$url = 'https://www.17k.com/list/3032846.html?offset='; $url = 'https://www.17k.com/list/3041226.html?offset='; //采集規(guī)則 $rules = array( 'title'=>array('.ellipsis','text'),//獲取書每個(gè)章節(jié)名 'link'=>array('.Volume a','href','-.folding -copy -a'),//獲取每個(gè)章節(jié)鏈接 ); //開始采集 $data = QueryList::Query($url,$rules)->data; //var_dump($data); //求數(shù)組長(zhǎng)度 $j = count($data); if($data) { for($i=0;$i<=$j-1;$i++) { $values = ['title'=>$data[$i]['title'],'link'=>$data[$i+1]['link']]; $_POST['url']=$data[$i+1]['link']; if (!preg_match("/^(http|ftp):/", $_POST['url']))//給鏈接加上域名頭 { $url1 = 'https://www.17k.com'.$_POST['url']; } $rules1 = array( 'novel'=>array('.p','text','-li -a'), ); $data1 = QueryList::Query($url1,$rules1)->data; //var_dump($data1); $values1 = ['title'=>$data[$i]['title'],'novel'=>$data1[0]['novel']];//將章節(jié)名、內(nèi)容插入數(shù)據(jù)庫(kù) $data2 = \think\Db::name('novel6')->insert($values1); } } } }
我們來打印一下他的章節(jié)名和章節(jié)內(nèi)容:
注:1.class屬性一定要找對(duì)
2.采集下來 $data 的第一個(gè)數(shù)組的link不是第一章的url,下一個(gè)才是第一章的,所以
更多關(guān)于thinkPHP相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《ThinkPHP入門教程》、《thinkPHP模板操作技巧總結(jié)》、《ThinkPHP常用方法總結(jié)》、《codeigniter入門教程》、《CI(CodeIgniter)框架進(jìn)階教程》、《Zend FrameWork框架入門教程》及《PHP模板技術(shù)總結(jié)》。
希望本文所述對(duì)大家基于ThinkPHP框架的PHP程序設(shè)計(jì)有所幫助。
- 基于ThinkPHP5框架使用QueryList爬取并存入mysql數(shù)據(jù)庫(kù)操作示例
- php使用QueryList輕松采集js動(dòng)態(tài)渲染頁(yè)面方法
- thinkphp 抓取網(wǎng)站的內(nèi)容并且保存到本地的實(shí)例詳解
- jquery+thinkphp實(shí)現(xiàn)跨域抓取數(shù)據(jù)的方法
- thinkphp5 URL和路由的功能詳解與實(shí)例
- ThinkPHP5查詢數(shù)據(jù)及處理結(jié)果的方法小結(jié)
- TP5(thinkPHP5)框架基于ajax與后臺(tái)數(shù)據(jù)交互操作簡(jiǎn)單示例
- thinkphp5.1 文件引入路徑問題及注意事項(xiàng)
- thinkPHP5(TP5)實(shí)現(xiàn)改寫跳轉(zhuǎn)提示頁(yè)面的方法
- tp5(thinkPHP5)框架數(shù)據(jù)庫(kù)Db增刪改查常見操作總結(jié)
- thinkphp5 加載靜態(tài)資源路徑與常量的方法
- tp5(thinkPHP5)框架實(shí)現(xiàn)多數(shù)據(jù)庫(kù)查詢的方法
相關(guān)文章
PHP實(shí)現(xiàn)手機(jī)歸屬地查詢API接口實(shí)現(xiàn)代碼
主要使用curl實(shí)現(xiàn),需要開啟php對(duì)curl的支持2012-08-08分享下頁(yè)面關(guān)鍵字抓取components.arrow.com站點(diǎn)代碼
這篇文章主要介紹了分享下頁(yè)面關(guān)鍵字抓取components.arrow.com站點(diǎn)代碼的相關(guān)資料,需要的朋友可以參考下2014-01-01php 使用mpdf實(shí)現(xiàn)指定字段配置字體樣式的方法
前兩天在做一個(gè)pdf導(dǎo)出功能,使用的插件是kartik-v/yii2-mpdf,此插件使用的是mpdf。接下來通過本文給大家介紹php 使用mpdf實(shí)現(xiàn)指定字段配置字體樣式的方法,需要的朋友可以參考下2019-07-07Thinkphp5框架實(shí)現(xiàn)獲取數(shù)據(jù)庫(kù)數(shù)據(jù)到視圖的方法
這篇文章主要介紹了Thinkphp5框架實(shí)現(xiàn)獲取數(shù)據(jù)庫(kù)數(shù)據(jù)到視圖的方法,涉及thinkPHP5數(shù)據(jù)庫(kù)配置、讀取、模型操作及視圖調(diào)用相關(guān)操作技巧,需要的朋友可以參考下2019-08-08