用PHP讀取超大文件的實例代碼

更新時間：2012年04月01日 16:09:22 作者：

數(shù)據(jù)量大帶來的問題就是單個文件很大，能夠打開這個文件相當不容易，記事本就不要指望了，果斷死機

去年年底的各種網站帳號信息的數(shù)據(jù)庫泄漏，很是給力啊，趁機也下載了幾個數(shù)據(jù)庫，準備學學數(shù)據(jù)分析家來分析一下這些帳號信息。雖然這些數(shù)據(jù)信息都已經被“整理”過的，不過自己拿來學習也挺有用的，畢竟有這么大的數(shù)據(jù)量。

數(shù)據(jù)量大帶來的問題就是單個文件很大，能夠打開這個文件相當不容易，記事本就不要指望了，果斷死機。用MSSQL的客戶端也打不開這么大的SQL文件，直接報內存不足，原因據(jù)說是MSSQL在讀取數(shù)據(jù)的時候，是一次性地將讀取到的數(shù)據(jù)放在內存中，如果數(shù)據(jù)量過大，而內存不足，則會直接導致系統(tǒng)癱掉。

Navicat Premium
這兒推薦一個軟件Navicat Premium，相當給力啊，幾百兆的SQL文件輕松就打開了，一點都不卡。而且這個客戶端軟件支持MSSQL、MYSQL、Oracle……等等各種數(shù)據(jù)庫的連接，其它的很多功能就自己慢慢研究了。

雖然用Navicat可以打開CSDN這個274MB的SQL文件，但是內容卻是沒意義的，而且也不方便對這些帳號信息進行查詢、分類、統(tǒng)計等等操作。唯一的方法就是把這些數(shù)據(jù)一條一條地讀取出來，然后分拆每條記錄的不同片段，再將這些片段以數(shù)據(jù)字段的格式存入數(shù)據(jù)庫，這樣就可以方便以后的使用了。

使用PHP讀取超大文件
PHP有很多種文件讀取的方式，根據(jù)目標文件的不同，采取更合適的方法，可有效地提高執(zhí)行效率。由于CSDN數(shù)據(jù)庫文件很大，所以我們盡量不在短時間內全都讀取出來，畢竟每讀取一條數(shù)據(jù)還要對其分拆和寫入操作。那么比較合適的方式就是對文件進行分區(qū)域地讀取，通過使用PHP的fseek和fread相結合，即可做到隨意讀取文件中的某一部份數(shù)據(jù)，下面是實例代碼：

復制代碼代碼如下:

 
function readBigFile($filename, $count = 20, $tag = "\r\n") { 
$content = "";//最終內容 
$current = "";//當前讀取內容寄存 
$step= 1;//每次走多少字符 
$tagLen = strlen($tag); 
$start = 0;//起始位置 
$i = 0;//計數(shù)器 
$handle = fopen($filename,'r+');//讀寫模式打開文件，指針指向文件起始位置 
while($i < $count && !feof($handle)) { 
fseek($handle, $start, SEEK_SET);//指針設置在文件開頭 
$current = fread($handle,$step);//讀取文件 
$content .= $current;//組合字符串 
$start += $step;//依據(jù)步長向前移動 
//依據(jù)分隔符的長度截取字符串最后免得幾個字符 
$substrTag = substr($content, -$tagLen); 
if ($substrTag == $tag) { //判斷是否為判斷是否是換行或其他分隔符 
$i++; 
$content .= "<br />"; 
} 
} 
//關閉文件 
fclose($handle); 
//返回結果 
return $content; 
} 
$filename = "csdn.sql";//需要讀取的文件 
$tag = "\n";//行分隔符 注意這里必須用雙引號 
$count = 100;//讀取行數(shù) 
$data = readBigFile($filename,$count,$tag); 
echo $data; 

關于函數(shù)傳入的變量$tag的值，根據(jù)系統(tǒng)不一樣，傳入的值也是有區(qū)別的：Windows用”\r\n”，linux/unix用”\n”，Mac OS用”\r”。

程序執(zhí)行的大概流程：先定義讀取文件的一些基礎變量，然后打開文件，將指針定位在文件的指定位置，并讀取指定大小的內容。每讀取一次將內容存儲在變量中，直到達到讀取要求的行數(shù)或文件結束。

絕不要假定程序中的一切都將按計劃運行。

根據(jù)上面的代碼，雖然能夠得到文件中指定位置、指定大小的數(shù)據(jù)，但這整個過程只執(zhí)行了一次，并不能得到所有的數(shù)據(jù)。其實要得到所有的數(shù)據(jù)，可以在這個循環(huán)的外層再添加判斷文件是否結束的循環(huán)，但這很浪費系統(tǒng)資源，甚至由于文件過大一直沒法讀完而導致PHP執(zhí)行超時。另一種方法就是記錄并存儲上次讀取數(shù)據(jù)后指針所在的位置，然后再次執(zhí)行該循環(huán)的時候，將指針定位在上次結束的位置，這樣就不存在一次循環(huán)要把文件從頭讀到尾的情況。

其實CSDN這個數(shù)據(jù)庫我到現(xiàn)在都還沒有導入數(shù)據(jù)庫，因為當時泄漏后沒幾天CNBETA上就有一個分析了，呵呵，動作太快了。當看到別人已經做了這個事之后，自動就沒有多少動力來做了，不過為了學習，還是要抽時間把這個事完成了。

您可能感興趣的文章: