欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

TP5框架使用QueryList采集框架爬小說(shuō)操作示例

 更新時(shí)間:2020年03月26日 10:07:47   作者:人間四月天  
這篇文章主要介紹了TP5框架使用QueryList采集框架爬小說(shuō)操作,結(jié)合實(shí)例形式分析了TP5結(jié)合QueryList采集框架爬17k小說(shuō)的相關(guān)原理、步驟與實(shí)現(xiàn)技巧,需要的朋友可以參考下

本文實(shí)例講述了TP5框架使用QueryList采集框架爬小說(shuō)操作。分享給大家供大家參考,具體如下:

最近想寫一個(gè)小說(shuō)網(wǎng)站,就去搜資料,搜出來(lái)TP5可以使用QueryList采集框架去爬小說(shuō),這里我來(lái)給大家詳解如何用QueryList去爬小說(shuō)。
#首先應(yīng)該下載TP5框架,然后在extend里面建立一個(gè)文件夾命名為QL,再去官網(wǎng)下載QueryList,然后把phpQuery.php 和 QueryList.php 兩個(gè)文件放在QL文件夾下,如圖:
在這里插入圖片描述
##在QueryList.php里面加上命名空間:

namespace QL;
require ‘phpQuery.php';

use phpQuery,Exception,ReflectionClass;
use Monolog\Logger;
use Monolog\Handler\StreamHandler;
use Iterator,Countable,ArrayAccess;//使用phpQuuery接口

#準(zhǔn)備工作做好了下來(lái)開(kāi)始采集小說(shuō)(我們這里以https://www.17k.com/這個(gè)網(wǎng)站的免費(fèi)小說(shuō)為例)

##先找到你要采集的小說(shuō)的目錄頁(yè)面的url作為采集url

##再在url前面加上 view-source: 查看他的源碼,找到包含所有章節(jié)url的class屬性,寫好采集規(guī)則,執(zhí)行語(yǔ)句進(jìn)行采集

##采集他的章節(jié)名和每一章節(jié)的url,因?yàn)閡rl采集下來(lái)沒(méi)有域名,需要用正則表達(dá)式加上https://www.17k.com 然后采用for循環(huán)去一個(gè)一個(gè)采集每一章節(jié)的內(nèi)容

##最后再將采集到的章節(jié)名與章節(jié)內(nèi)容存入數(shù)據(jù)庫(kù)

直接上代碼:

<?php
namespace app\index\Controller;
use think\Controller;
use QL\QueryList;
 
class Xiaoshuo extends Controller
{
  public function index()
  {
    //采集目標(biāo)
    //$url = 'https://www.17k.com/list/3032846.html?offset=';
     $url = 'https://www.17k.com/list/3041226.html?offset=';
    //采集規(guī)則
    $rules = array(
          'title'=>array('.ellipsis','text'),//獲取書每個(gè)章節(jié)名
          'link'=>array('.Volume a','href','-.folding -copy -a'),//獲取每個(gè)章節(jié)鏈接
        );
    //開(kāi)始采集
    $data = QueryList::Query($url,$rules)->data;
    //var_dump($data);
    //求數(shù)組長(zhǎng)度
     $j = count($data);
    if($data)
    {
      for($i=0;$i<=$j-1;$i++)
      {
       $values = ['title'=>$data[$i]['title'],'link'=>$data[$i+1]['link']];
       $_POST['url']=$data[$i+1]['link'];
       if (!preg_match("/^(http|ftp):/", $_POST['url']))//給鏈接加上域名頭
        {
         $url1 = 'https://www.17k.com'.$_POST['url'];
        }
       $rules1 = array(
          'novel'=>array('.p','text','-li -a'),
          );
       $data1 = QueryList::Query($url1,$rules1)->data;
       //var_dump($data1);
       $values1 = ['title'=>$data[$i]['title'],'novel'=>$data1[0]['novel']];//將章節(jié)名、內(nèi)容插入數(shù)據(jù)庫(kù)
       $data2 = \think\Db::name('novel6')->insert($values1); 
      }
    }
    
  }
}

我們來(lái)打印一下他的章節(jié)名和章節(jié)內(nèi)容:
在這里插入圖片描述在這里插入圖片描述注:1.class屬性一定要找對(duì)
2.采集下來(lái) $data 的第一個(gè)數(shù)組的link不是第一章的url,下一個(gè)才是第一章的,所以 data[ data[" role="presentation" style="position: relative;">data[i+1][‘link'] 是他第i章的url

更多關(guān)于thinkPHP相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《ThinkPHP入門教程》、《thinkPHP模板操作技巧總結(jié)》、《ThinkPHP常用方法總結(jié)》、《codeigniter入門教程》、《CI(CodeIgniter)框架進(jìn)階教程》、《Zend FrameWork框架入門教程》及《PHP模板技術(shù)總結(jié)》。

希望本文所述對(duì)大家基于ThinkPHP框架的PHP程序設(shè)計(jì)有所幫助。

相關(guān)文章

最新評(píng)論