PHP 獲取遠(yuǎn)程網(wǎng)頁(yè)內(nèi)容的代碼(fopen,curl已測(cè))
更新時(shí)間:2011年06月06日 09:05:33 作者:
獲取遠(yuǎn)程網(wǎng)頁(yè)內(nèi)容的php代碼,做小偷采集程序的程序經(jīng)常用得到,現(xiàn)在用curl的比較多。
1、fopen的使用
<?php
$handle = fopen ("http://s.jb51.net/", "rb");
$contents = "";
while (!feof($handle)) {
$contents .= fread($handle, 8192);
}
fclose($handle);
echo $contents; //輸出獲取到得內(nèi)容。
?>
// 對(duì) PHP 5 及更高版本可以使用下面的代碼
<?php
$handle = fopen("http://s.jb51.net", "rb");
$contents = stream_get_contents($handle);
fclose($handle);
echo $contents;
?>
但上面的代碼容易出現(xiàn) failed to open stream: HTTP request failed!錯(cuò)誤,解決方法
有人說(shuō)在php.ini中,有這樣兩個(gè)選項(xiàng):allow_url_fopen =on(表示可以通過(guò)url打開(kāi)遠(yuǎn)程文件),user_agent="PHP"(表示通過(guò)哪種腳本訪(fǎng)問(wèn)網(wǎng)絡(luò),默認(rèn)前面有個(gè) " ; " 去掉即可。)重啟服務(wù)器。
但是有些還是會(huì)有這個(gè)警告信息,想用完美的解決還差一步,還得設(shè)置php.ini里面的user_agent,php默認(rèn)的user_agent是PHP,我們把它改成Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)來(lái)模擬瀏覽器就可以了

user_agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"
在工作中遇到這個(gè)問(wèn)題,后完美解決,故分享給大家。
2、通過(guò)curl來(lái)實(shí)現(xiàn)
<?php
$url = "http://s.jb51.net";
$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10);
$dxycontent = curl_exec($ch);
echo $dxycontent;
?>
linux下可以使用下面的代碼下載
exec("wget {$url}");
PHP抓取外部資源函數(shù)fopen / file_get_contents / curl 的區(qū)別
fopen / file_get_contents 每次請(qǐng)求都會(huì)重新做DNS查詢(xún),并不對(duì)DNS信息進(jìn)行緩存。
但是CURL會(huì)自動(dòng)對(duì)DNS信息進(jìn)行緩存。對(duì)同一域名下的網(wǎng)頁(yè)或者圖片的請(qǐng)求只需要一次DNS查詢(xún)。
這大大減少了DNS查詢(xún)的次數(shù)。
所以CURL的性能比f(wàn)open / file_get_contents 好很多。
腳本之家原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處。
復(fù)制代碼 代碼如下:
<?php
$handle = fopen ("http://s.jb51.net/", "rb");
$contents = "";
while (!feof($handle)) {
$contents .= fread($handle, 8192);
}
fclose($handle);
echo $contents; //輸出獲取到得內(nèi)容。
?>
復(fù)制代碼 代碼如下:
// 對(duì) PHP 5 及更高版本可以使用下面的代碼
<?php
$handle = fopen("http://s.jb51.net", "rb");
$contents = stream_get_contents($handle);
fclose($handle);
echo $contents;
?>
但上面的代碼容易出現(xiàn) failed to open stream: HTTP request failed!錯(cuò)誤,解決方法
有人說(shuō)在php.ini中,有這樣兩個(gè)選項(xiàng):allow_url_fopen =on(表示可以通過(guò)url打開(kāi)遠(yuǎn)程文件),user_agent="PHP"(表示通過(guò)哪種腳本訪(fǎng)問(wèn)網(wǎng)絡(luò),默認(rèn)前面有個(gè) " ; " 去掉即可。)重啟服務(wù)器。
但是有些還是會(huì)有這個(gè)警告信息,想用完美的解決還差一步,還得設(shè)置php.ini里面的user_agent,php默認(rèn)的user_agent是PHP,我們把它改成Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)來(lái)模擬瀏覽器就可以了

user_agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"
在工作中遇到這個(gè)問(wèn)題,后完美解決,故分享給大家。
2、通過(guò)curl來(lái)實(shí)現(xiàn)
復(fù)制代碼 代碼如下:
<?php
$url = "http://s.jb51.net";
$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10);
$dxycontent = curl_exec($ch);
echo $dxycontent;
?>
linux下可以使用下面的代碼下載
exec("wget {$url}");
PHP抓取外部資源函數(shù)fopen / file_get_contents / curl 的區(qū)別
fopen / file_get_contents 每次請(qǐng)求都會(huì)重新做DNS查詢(xún),并不對(duì)DNS信息進(jìn)行緩存。
但是CURL會(huì)自動(dòng)對(duì)DNS信息進(jìn)行緩存。對(duì)同一域名下的網(wǎng)頁(yè)或者圖片的請(qǐng)求只需要一次DNS查詢(xún)。
這大大減少了DNS查詢(xún)的次數(shù)。
所以CURL的性能比f(wàn)open / file_get_contents 好很多。
腳本之家原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處。
您可能感興趣的文章:
相關(guān)文章
Thinkphp中數(shù)據(jù)按分類(lèi)嵌套循環(huán)實(shí)現(xiàn)方法
這篇文章主要介紹了Thinkphp中數(shù)據(jù)按分類(lèi)嵌套循環(huán)實(shí)現(xiàn)方法,適用于嵌套循環(huán)具有關(guān)聯(lián)性的情況,是比較實(shí)用的技巧,需要的朋友可以參考下2014-10-10PHP上傳Excel文件導(dǎo)入數(shù)據(jù)到MySQL數(shù)據(jù)庫(kù)示例
這篇文章主要介紹了PHP上傳Excel文件導(dǎo)入數(shù)據(jù)到MySQL數(shù)據(jù)庫(kù)示例,可以將Excel的數(shù)據(jù)寫(xiě)入到MySQL數(shù)據(jù)庫(kù)中,感興趣的同學(xué)可以了解一下。2016-10-10thinkphp文件引用與分支結(jié)構(gòu)用法實(shí)例
這篇文章主要介紹了thinkphp文件引用與分支結(jié)構(gòu)用法,以實(shí)例形式演示了css與js文件導(dǎo)入的方法,以及if與switch語(yǔ)句的用法,需要的朋友可以參考下2014-11-11