PHP實(shí)現(xiàn)小偷程序?qū)嵗?/h1>
更新時(shí)間:2016年10月31日 11:17:50 作者:ruxingli
本篇文章主要介紹了PHP實(shí)現(xiàn)小偷程序?qū)嵗?,?shí)現(xiàn)了抓取網(wǎng)頁(yè)咨詢和商品信息的功能,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下。
為什么使用“小偷程序”?
遠(yuǎn)程抓取文章資訊或商品信息是很多企業(yè)要求程序員實(shí)現(xiàn)的功能,也就是俗說的小偷程序。其最主要的優(yōu)點(diǎn)是:解決了公司網(wǎng)編繁重的工作,大大提高了效率。只需要一運(yùn)行就能快速的抓取別人網(wǎng)站的信息。
“小偷程序”在哪里運(yùn)行?
“小偷程序” 應(yīng)該在 Windows 下的 DOS或 Linux 下通過 PHP 命令運(yùn)行為最佳,因?yàn)?,網(wǎng)頁(yè)運(yùn)行會(huì)超時(shí)。
比如圖(Windows 下 DOS 為例):

“小偷程序”的實(shí)現(xiàn)
這里主要通過一個(gè)實(shí)例來(lái)講解,我們來(lái)抓取下“華強(qiáng)電子網(wǎng)”的資訊信息,請(qǐng)先看觀察這個(gè)鏈接 http://www.hqew.com/info-c10.html,當(dāng)您打開這個(gè)頁(yè)面的時(shí)候發(fā)現(xiàn)這個(gè)頁(yè)面會(huì)發(fā)現(xiàn)一些現(xiàn)象:
1、資訊列表有 500 頁(yè)(2012-01-03);
2、每頁(yè)的 url 鏈接都有規(guī)律,比如:第1頁(yè)為http://www.hqew.com/info-c10-1.html;第2頁(yè)為http://www.hqew.com/info-c10-2.html;……第500頁(yè)為http://www.hqew.com/info-c10-500.html;
3、由第二點(diǎn)就可以知道,“華強(qiáng)電子網(wǎng)” 的資訊是偽靜態(tài)或者是生成的靜態(tài)頁(yè)面
其實(shí),基本上大部分的網(wǎng)站都有這樣的規(guī)律,比如:中關(guān)村在線、慧聰網(wǎng)、新浪、淘寶……。
這樣,我們可以通過這樣的思路來(lái)實(shí)現(xiàn)頁(yè)面內(nèi)容的抓?。?br />
1、先獲取文章列表頁(yè)內(nèi)容;
2、根據(jù)文章列表頁(yè)內(nèi)容循環(huán)獲取文章的 url 地址;
3、根據(jù)文章的 url 地址獲取文章的詳細(xì)內(nèi)容
這里,我們主要抓取資訊頁(yè)里面的:標(biāo)題(title)、發(fā)布如期(date)、作者(author)、來(lái)源(source)、內(nèi)容(content)
“華強(qiáng)電子網(wǎng)”資訊抓取
首先,先建數(shù)據(jù)表結(jié)構(gòu),如下所示:
CREATE TABLE `article`.`article` (
`id` MEDIUMINT( 8 ) UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY ,
`title` VARCHAR( 255 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`date` VARCHAR( 50 ) NOT NULL ,
`author` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`source` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`content` TEXT NOT NULL
) ENGINE = MYISAM CHARACTER SET utf8 COLLATE utf8_general_ci;
抓取程序:
<?php
/**
* 抓取“華強(qiáng)電子網(wǎng)”資訊程序
* author Lee.
* Last modify $Date: 2012-1-3 15:39:35 $
*/
header('Content-Type:text/html;Charset=utf-8');
$mysqli = new mysqli('localhost', 'root', '1715544', 'article'); # 數(shù)據(jù)庫(kù)連接,請(qǐng)手動(dòng)修改您自己的數(shù)據(jù)庫(kù)信息
$mysqli->set_charset('UTF8'); # 設(shè)置數(shù)據(jù)庫(kù)編碼
function data($url) {
global $mysqli;
$result = file_get_contents($url); # $result 獲取 url 鏈接內(nèi)容(注意:這里是文章列表鏈接)
$pattern = '/<li><span class="box_r">.+<\/span><a href="([^"]+)" title=".+" >.+<\/a><\/li>/Usi'; # 取得文章 url 的匹配正則
preg_match_all($pattern, $result, $arr); # 把文章列表 url 分配給數(shù)組$arr(二維數(shù)組)
foreach ($arr[1] as $val) {
$val = 'http://www.hqew.com' . $val; # 真實(shí)文章 url 地址
$re = file_get_contents($val); # $re 為文章 url 的內(nèi)容
$pa = '/<div id="article">\s+<h1>(.+)<\/h1>\s+<p id="article\_extinfo">\s+發(fā)布:\s+(.+)\s+\|\s+作者:\s+(.+)\s+\|\s+來(lái)源:\s+(.*?)\s+<span style="display:none" >.+<div id="article_body">\s*(.+)\s+<\/div>\s+<\/div><!--article end-->/Usi'; # 取得文章內(nèi)容的正則
preg_match_all($pa, $re, $array); # 把取到的內(nèi)容分配到數(shù)組 $array
$content = trim($array[5][0]);
$con = array(
'title'=>mysqlString($array[1][0]),
'date'=>mysqlString($array[2][0]),
'author'=>mysqlString(stripAuthorTag($array[3][0])),
'source'=>mysqlString($array[4][0]),
'content'=>mysqlString(stripContentTag($content))
);
$sql = "INSERT INTO article(title,date,author,source,content) VALUES ('{$con['title']}','{$con['date']}','{$con['author']}','{$con['source']}','{$con['content']}')";
$row = $mysqli->query($sql); # 添加到數(shù)據(jù)庫(kù)
if ($row) {
echo 'add success!';
} else {
echo 'add failed!';
}
}
}
/**
* stripOfficeTag($v) 對(duì)文章內(nèi)容進(jìn)行過濾,比如:去掉文章中的鏈接,過濾掉沒用的 HTML 標(biāo)簽……
* @param string $v
* @return string
*/
function stripContentTag($v){
$v = str_replace('<p> </p>', '', $v);
$v = str_replace('<p />', '', $v);
$v = preg_replace('/<a href=".+" target="\_blank"><strong>(.+)<\/strong><\/a>/Usi', '\1', $v);
$v = preg_replace('%(<span\s*[^>]*>(.*)</span>)%Usi', '\2', $v);
$v = preg_replace('%(\s+class="Mso[^"]+")%si', '', $v);
$v = preg_replace('%( style="[^"]*mso[^>]*)%si', '', $v);
$v = preg_replace('/<b><\/b>/', '', $v);
return $v;
}
/**
* stripTitleTag($title) 對(duì)文章標(biāo)題進(jìn)行過濾
* @param string $v
* @return string
*/
function stripAuthorTag($v) {
$v = preg_replace('/<a href=".+" target="\_blank">(.+)<\/a>/Usi', '\1', $v);
return $v;
}
/**
* mysqlString($str) 過濾數(shù)據(jù)
* @param string $str
* @return string
*/
function mysqlString($str) {
return addslashes(trim($str));
}
/**
* init($min, $max) 入口程序方法,從 $min 頁(yè)開始取,到 $max 頁(yè)結(jié)束
* @param int $min 從 1 開始
* @param int $max
* @return string 返回 URL 地址
*/
function init($min=1, $max) {
for ($i=$min; $i<=$max; $i++) {
data("http://www.hqew.com/info-c10-{$i}.html");
}
}
init(1, 500); // 程序入口,從第一頁(yè)開始抓,抓取500頁(yè)
?>
通過上面的程序,就可以實(shí)現(xiàn)抓取華強(qiáng)電子網(wǎng)的資訊信息。
入口方法 init($min, $max) 如果想抓取 1-500 頁(yè)面內(nèi)容,那么 init(1, 500) 即可!這樣,用不了多長(zhǎng)時(shí)間,華強(qiáng)電子網(wǎng)的資訊就會(huì)全部抓取到數(shù)據(jù)庫(kù)里面了。^_^
執(zhí)行界面:

數(shù)據(jù)庫(kù):

您可能感興趣的文章:- php數(shù)組函數(shù)序列之a(chǎn)rray_pop() - 刪除數(shù)組中的最后一個(gè)元素
- php array_pop()數(shù)組函數(shù)將數(shù)組最后一個(gè)單元彈出(出棧)
- PHP遞歸獲取目錄內(nèi)所有文件的實(shí)現(xiàn)方法
- PHP之十六個(gè)魔術(shù)方法詳細(xì)介紹
- php 實(shí)現(xiàn)一個(gè)字符串加密解密的函數(shù)實(shí)例代碼
- PHP用戶驗(yàn)證和標(biāo)簽推薦的簡(jiǎn)單使用
- 利用php做服務(wù)器和web前端的界面進(jìn)行交互
- php將服務(wù)端的文件讀出來(lái)顯示在web頁(yè)面實(shí)例
- PHP仿微信發(fā)紅包領(lǐng)紅包效果
- PHPCMS忘記后臺(tái)密碼的解決辦法
- php array_pop 刪除數(shù)組最后一個(gè)元素實(shí)例
相關(guān)文章
-
PHP獲取頁(yè)面執(zhí)行時(shí)間的方法(推薦)
這篇文章主要介紹了PHP獲取頁(yè)面執(zhí)行時(shí)間的方法(推薦)的相關(guān)資料,需要的朋友可以參考下 2016-12-12
-
分享ThinkPHP3.2中關(guān)聯(lián)查詢解決思路
這篇文章主要介紹了ThinkPHP3.2中關(guān)聯(lián)查詢解決思路的相關(guān)資料,需要的朋友可以參考下 2015-09-09
-
解決在Laravel 中處理OPTIONS請(qǐng)求的問題
今天小編就為大家分享一篇解決在Laravel 中處理OPTIONS請(qǐng)求的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧 2019-10-10
-
Yii 實(shí)現(xiàn)數(shù)據(jù)加密和解密的示例代碼
這篇文章主要介紹了Yii 實(shí)現(xiàn)數(shù)據(jù)加密和解密的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧 2020-01-01
最新評(píng)論
為什么使用“小偷程序”?
遠(yuǎn)程抓取文章資訊或商品信息是很多企業(yè)要求程序員實(shí)現(xiàn)的功能,也就是俗說的小偷程序。其最主要的優(yōu)點(diǎn)是:解決了公司網(wǎng)編繁重的工作,大大提高了效率。只需要一運(yùn)行就能快速的抓取別人網(wǎng)站的信息。
“小偷程序”在哪里運(yùn)行?
“小偷程序” 應(yīng)該在 Windows 下的 DOS或 Linux 下通過 PHP 命令運(yùn)行為最佳,因?yàn)?,網(wǎng)頁(yè)運(yùn)行會(huì)超時(shí)。
比如圖(Windows 下 DOS 為例):
“小偷程序”的實(shí)現(xiàn)
這里主要通過一個(gè)實(shí)例來(lái)講解,我們來(lái)抓取下“華強(qiáng)電子網(wǎng)”的資訊信息,請(qǐng)先看觀察這個(gè)鏈接 http://www.hqew.com/info-c10.html,當(dāng)您打開這個(gè)頁(yè)面的時(shí)候發(fā)現(xiàn)這個(gè)頁(yè)面會(huì)發(fā)現(xiàn)一些現(xiàn)象:
1、資訊列表有 500 頁(yè)(2012-01-03);
2、每頁(yè)的 url 鏈接都有規(guī)律,比如:第1頁(yè)為http://www.hqew.com/info-c10-1.html;第2頁(yè)為http://www.hqew.com/info-c10-2.html;……第500頁(yè)為http://www.hqew.com/info-c10-500.html;
3、由第二點(diǎn)就可以知道,“華強(qiáng)電子網(wǎng)” 的資訊是偽靜態(tài)或者是生成的靜態(tài)頁(yè)面
其實(shí),基本上大部分的網(wǎng)站都有這樣的規(guī)律,比如:中關(guān)村在線、慧聰網(wǎng)、新浪、淘寶……。
這樣,我們可以通過這樣的思路來(lái)實(shí)現(xiàn)頁(yè)面內(nèi)容的抓?。?br />
1、先獲取文章列表頁(yè)內(nèi)容;
2、根據(jù)文章列表頁(yè)內(nèi)容循環(huán)獲取文章的 url 地址;
3、根據(jù)文章的 url 地址獲取文章的詳細(xì)內(nèi)容
這里,我們主要抓取資訊頁(yè)里面的:標(biāo)題(title)、發(fā)布如期(date)、作者(author)、來(lái)源(source)、內(nèi)容(content)
“華強(qiáng)電子網(wǎng)”資訊抓取
首先,先建數(shù)據(jù)表結(jié)構(gòu),如下所示:
CREATE TABLE `article`.`article` ( `id` MEDIUMINT( 8 ) UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY , `title` VARCHAR( 255 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , `date` VARCHAR( 50 ) NOT NULL , `author` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , `source` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , `content` TEXT NOT NULL ) ENGINE = MYISAM CHARACTER SET utf8 COLLATE utf8_general_ci;
抓取程序:
<?php /** * 抓取“華強(qiáng)電子網(wǎng)”資訊程序 * author Lee. * Last modify $Date: 2012-1-3 15:39:35 $ */ header('Content-Type:text/html;Charset=utf-8'); $mysqli = new mysqli('localhost', 'root', '1715544', 'article'); # 數(shù)據(jù)庫(kù)連接,請(qǐng)手動(dòng)修改您自己的數(shù)據(jù)庫(kù)信息 $mysqli->set_charset('UTF8'); # 設(shè)置數(shù)據(jù)庫(kù)編碼 function data($url) { global $mysqli; $result = file_get_contents($url); # $result 獲取 url 鏈接內(nèi)容(注意:這里是文章列表鏈接) $pattern = '/<li><span class="box_r">.+<\/span><a href="([^"]+)" title=".+" >.+<\/a><\/li>/Usi'; # 取得文章 url 的匹配正則 preg_match_all($pattern, $result, $arr); # 把文章列表 url 分配給數(shù)組$arr(二維數(shù)組) foreach ($arr[1] as $val) { $val = 'http://www.hqew.com' . $val; # 真實(shí)文章 url 地址 $re = file_get_contents($val); # $re 為文章 url 的內(nèi)容 $pa = '/<div id="article">\s+<h1>(.+)<\/h1>\s+<p id="article\_extinfo">\s+發(fā)布:\s+(.+)\s+\|\s+作者:\s+(.+)\s+\|\s+來(lái)源:\s+(.*?)\s+<span style="display:none" >.+<div id="article_body">\s*(.+)\s+<\/div>\s+<\/div><!--article end-->/Usi'; # 取得文章內(nèi)容的正則 preg_match_all($pa, $re, $array); # 把取到的內(nèi)容分配到數(shù)組 $array $content = trim($array[5][0]); $con = array( 'title'=>mysqlString($array[1][0]), 'date'=>mysqlString($array[2][0]), 'author'=>mysqlString(stripAuthorTag($array[3][0])), 'source'=>mysqlString($array[4][0]), 'content'=>mysqlString(stripContentTag($content)) ); $sql = "INSERT INTO article(title,date,author,source,content) VALUES ('{$con['title']}','{$con['date']}','{$con['author']}','{$con['source']}','{$con['content']}')"; $row = $mysqli->query($sql); # 添加到數(shù)據(jù)庫(kù) if ($row) { echo 'add success!'; } else { echo 'add failed!'; } } } /** * stripOfficeTag($v) 對(duì)文章內(nèi)容進(jìn)行過濾,比如:去掉文章中的鏈接,過濾掉沒用的 HTML 標(biāo)簽…… * @param string $v * @return string */ function stripContentTag($v){ $v = str_replace('<p> </p>', '', $v); $v = str_replace('<p />', '', $v); $v = preg_replace('/<a href=".+" target="\_blank"><strong>(.+)<\/strong><\/a>/Usi', '\1', $v); $v = preg_replace('%(<span\s*[^>]*>(.*)</span>)%Usi', '\2', $v); $v = preg_replace('%(\s+class="Mso[^"]+")%si', '', $v); $v = preg_replace('%( style="[^"]*mso[^>]*)%si', '', $v); $v = preg_replace('/<b><\/b>/', '', $v); return $v; } /** * stripTitleTag($title) 對(duì)文章標(biāo)題進(jìn)行過濾 * @param string $v * @return string */ function stripAuthorTag($v) { $v = preg_replace('/<a href=".+" target="\_blank">(.+)<\/a>/Usi', '\1', $v); return $v; } /** * mysqlString($str) 過濾數(shù)據(jù) * @param string $str * @return string */ function mysqlString($str) { return addslashes(trim($str)); } /** * init($min, $max) 入口程序方法,從 $min 頁(yè)開始取,到 $max 頁(yè)結(jié)束 * @param int $min 從 1 開始 * @param int $max * @return string 返回 URL 地址 */ function init($min=1, $max) { for ($i=$min; $i<=$max; $i++) { data("http://www.hqew.com/info-c10-{$i}.html"); } } init(1, 500); // 程序入口,從第一頁(yè)開始抓,抓取500頁(yè) ?>
通過上面的程序,就可以實(shí)現(xiàn)抓取華強(qiáng)電子網(wǎng)的資訊信息。
入口方法 init($min, $max) 如果想抓取 1-500 頁(yè)面內(nèi)容,那么 init(1, 500) 即可!這樣,用不了多長(zhǎng)時(shí)間,華強(qiáng)電子網(wǎng)的資訊就會(huì)全部抓取到數(shù)據(jù)庫(kù)里面了。^_^
執(zhí)行界面:
數(shù)據(jù)庫(kù):
- php數(shù)組函數(shù)序列之a(chǎn)rray_pop() - 刪除數(shù)組中的最后一個(gè)元素
- php array_pop()數(shù)組函數(shù)將數(shù)組最后一個(gè)單元彈出(出棧)
- PHP遞歸獲取目錄內(nèi)所有文件的實(shí)現(xiàn)方法
- PHP之十六個(gè)魔術(shù)方法詳細(xì)介紹
- php 實(shí)現(xiàn)一個(gè)字符串加密解密的函數(shù)實(shí)例代碼
- PHP用戶驗(yàn)證和標(biāo)簽推薦的簡(jiǎn)單使用
- 利用php做服務(wù)器和web前端的界面進(jìn)行交互
- php將服務(wù)端的文件讀出來(lái)顯示在web頁(yè)面實(shí)例
- PHP仿微信發(fā)紅包領(lǐng)紅包效果
- PHPCMS忘記后臺(tái)密碼的解決辦法
- php array_pop 刪除數(shù)組最后一個(gè)元素實(shí)例
相關(guān)文章
PHP獲取頁(yè)面執(zhí)行時(shí)間的方法(推薦)
這篇文章主要介紹了PHP獲取頁(yè)面執(zhí)行時(shí)間的方法(推薦)的相關(guān)資料,需要的朋友可以參考下2016-12-12分享ThinkPHP3.2中關(guān)聯(lián)查詢解決思路
這篇文章主要介紹了ThinkPHP3.2中關(guān)聯(lián)查詢解決思路的相關(guān)資料,需要的朋友可以參考下2015-09-09解決在Laravel 中處理OPTIONS請(qǐng)求的問題
今天小編就為大家分享一篇解決在Laravel 中處理OPTIONS請(qǐng)求的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧2019-10-10Yii 實(shí)現(xiàn)數(shù)據(jù)加密和解密的示例代碼
這篇文章主要介紹了Yii 實(shí)現(xiàn)數(shù)據(jù)加密和解密的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-01-01