php file_get_contents抓取Gzip網(wǎng)頁亂碼的三種解決方法
把抓取到的內容轉下編碼即可($content=iconv("GBK", "UTF-8//IGNORE", $content);),我們這里討論的是如何抓取開了Gzip的頁面。怎么判斷呢?獲取的頭部當中有Content-Encoding: gzip說明內容是GZIP壓縮的。用FireBug看一下就知道頁面開了gzip沒有。下面是用firebug查看我的博客的頭信息,Gzip是開了的。
請求頭信息原始頭信息
Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding gzip, deflate
Accept-Language zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Connection keep-alive
Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4%BD%95%E9%A1%B9%E7%9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE%80%E5%8D%95%20site%3Awww.nowamagic.net; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401
Host www.nowamagic.net
User-Agent Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
下面介紹一些解決方案:
1. 使用自帶的zlib庫
如果服務器已經(jīng)裝了zlib庫,用下面的代碼可以輕易解決亂碼問題。
$data = file_get_contents("compress.zlib://".$url);
2. 使用CURL代替file_get_contents
function curl_get($url, $gzip=false){
$curl = curl_init($url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
if($gzip) curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 關鍵在這里
$content = curl_exec($curl);
curl_close($curl);
return $content;
}
3. 使用gzip解壓函數(shù)
function gzdecode($data) {
$len = strlen($data);
if ($len < 18 || strcmp(substr($data,0,2),"\x1f\x8b")) {
return null; // Not GZIP format (See RFC 1952)
}
$method = ord(substr($data,2,1)); // Compression method
$flags = ord(substr($data,3,1)); // Flags
if ($flags & 31 != $flags) {
// Reserved bits are set -- NOT ALLOWED by RFC 1952
return null;
}
// NOTE: $mtime may be negative (PHP integer limitations)
$mtime = unpack("V", substr($data,4,4));
$mtime = $mtime[1];
$xfl = substr($data,8,1);
$os = substr($data,8,1);
$headerlen = 10;
$extralen = 0;
$extra = "";
if ($flags & 4) {
// 2-byte length prefixed EXTRA data in header
if ($len - $headerlen - 2 < 8) {
return false; // Invalid format
}
$extralen = unpack("v",substr($data,8,2));
$extralen = $extralen[1];
if ($len - $headerlen - 2 - $extralen < 8) {
return false; // Invalid format
}
$extra = substr($data,10,$extralen);
$headerlen += 2 + $extralen;
}
$filenamelen = 0;
$filename = "";
if ($flags & 8) {
// C-style string file NAME data in header
if ($len - $headerlen - 1 < 8) {
return false; // Invalid format
}
$filenamelen = strpos(substr($data,8+$extralen),chr(0));
if ($filenamelen === false || $len - $headerlen - $filenamelen - 1 < 8) {
return false; // Invalid format
}
$filename = substr($data,$headerlen,$filenamelen);
$headerlen += $filenamelen + 1;
}
$commentlen = 0;
$comment = "";
if ($flags & 16) {
// C-style string COMMENT data in header
if ($len - $headerlen - 1 < 8) {
return false; // Invalid format
}
$commentlen = strpos(substr($data,8+$extralen+$filenamelen),chr(0));
if ($commentlen === false || $len - $headerlen - $commentlen - 1 < 8) {
return false; // Invalid header format
}
$comment = substr($data,$headerlen,$commentlen);
$headerlen += $commentlen + 1;
}
$headercrc = "";
if ($flags & 1) {
// 2-bytes (lowest order) of CRC32 on header present
if ($len - $headerlen - 2 < 8) {
return false; // Invalid format
}
$calccrc = crc32(substr($data,0,$headerlen)) & 0xffff;
$headercrc = unpack("v", substr($data,$headerlen,2));
$headercrc = $headercrc[1];
if ($headercrc != $calccrc) {
return false; // Bad header CRC
}
$headerlen += 2;
}
// GZIP FOOTER - These be negative due to PHP's limitations
$datacrc = unpack("V",substr($data,-8,4));
$datacrc = $datacrc[1];
$isize = unpack("V",substr($data,-4));
$isize = $isize[1];
// Perform the decompression:
$bodylen = $len-$headerlen-8;
if ($bodylen < 1) {
// This should never happen - IMPLEMENTATION BUG!
return null;
}
$body = substr($data,$headerlen,$bodylen);
$data = "";
if ($bodylen > 0) {
switch ($method) {
case 8:
// Currently the only supported compression method:
$data = gzinflate($body);
break;
default:
// Unknown compression method
return false;
}
} else {
// I'm not sure if zero-byte body content is allowed.
// Allow it for now... Do nothing...
}
// Verifiy decompressed size and CRC32:
// NOTE: This may fail with large data sizes depending on how
// PHP's integer limitations affect strlen() since $isize
// may be negative for large sizes.
if ($isize != strlen($data) || crc32($data) != $datacrc) {
// Bad format! Length or CRC doesn't match!
return false;
}
return $data;
}
使用:
$html=file_get_contents('http://www.dbjr.com.cn/');
$html=gzdecode($html);
就介紹這三個方法,應該能解決大部分gzip引起的抓取亂碼問題了。
- 完美解決PHP中文亂碼
- PHP MYSQL亂碼問題,使用SET NAMES utf8校正
- php url地址欄傳中文亂碼解決方法集合
- PHP substr 截取字符串出現(xiàn)亂碼問題解決方法[utf8與gb2312]
- 二招解決php亂碼問題
- PHP亂碼問題,UTF-8亂碼常見問題小結
- php和mysql中uft-8中文編碼亂碼的幾種解決辦法
- 基于PHP導出Excel的小經(jīng)驗 完美解決亂碼問題
- php讀取mysql中文數(shù)據(jù)出現(xiàn)亂碼的解決方法
- PHP頁面中文亂碼分析
- php上傳文件中文文件名亂碼的解決方法
- php截取中文字符串不亂碼的方法
- php導入csv文件碰到亂碼問題的解決方法
- phpmailer中文亂碼問題的解決方法
- PHP base64編碼后解碼亂碼的解決辦法
- php中json_encode UTF-8中文亂碼的更好解決方法
- php使用fgetcsv讀取csv文件出現(xiàn)亂碼的解決方法
- PHP采用get獲取url漢字出現(xiàn)亂碼的解決方法
- phpstorm編輯器亂碼問題解決
- php的GD庫imagettftext函數(shù)解決中文亂碼問題
- php上傳中文文件名亂碼問題處理方案
- PHP中文亂碼解決方案
- php讀取der格式證書亂碼解決方法
- PHP+MYSQL中文亂碼問題
- PHP頁面轉UTF-8中文編碼亂碼的解決辦法
相關文章
thinkphp5?操作redis?實現(xiàn)文章的熱度排行和點贊排行的示例
本文主要介紹了thinkphp5?操作redis?實現(xiàn)文章的熱度排行和點贊排行的示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2022-04-04php寫app接口并返回json數(shù)據(jù)的實例(分享)
下面小編就為大家?guī)硪黄猵hp寫app接口并返回json數(shù)據(jù)的實例(分享)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-05-05PHP使用Alexa API獲取網(wǎng)站的Alexa排名例子
這篇文章主要介紹了PHP使用Alexa API獲取網(wǎng)站的Alexa排名例子,需要的朋友可以參考下2014-06-06PHP+shell腳本操作Memcached和Apache Status的實例分享
這篇文章主要介紹了PHP環(huán)境下使用shell腳本操作Memcached和Apache Status的方法,分別還可以控制Memcached進程的啟動以及記錄Apache Status數(shù)據(jù)到數(shù)據(jù)庫,需要的朋友可以參考下2016-03-03UPUPW 更新 64 位 Apache 系列 PHP 7.0 正式版
這篇文章主要介紹了UPUPW 更新 64 位 Apache 系列 PHP 7.0 正式版的相關資料,需要的朋友可以參考下2015-12-12