PHP使用Curl實現(xiàn)模擬登錄及抓取數(shù)據(jù)功能示例
本文實例講述了PHP使用Curl實現(xiàn)模擬登錄及抓取數(shù)據(jù)功能。分享給大家供大家參考,具體如下:
使用PHP的Curl擴展庫可以模擬實現(xiàn)登錄,并抓取一些需要用戶賬號登錄以后才能查看的數(shù)據(jù)。具體實現(xiàn)的流程如下(個人總結(jié)):
1. 首先需要對相應(yīng)的登錄頁面的html源代碼進行分析,獲得一些必要的信息:
(1)登錄頁面的地址;
(2)驗證碼的地址;
(3)登錄表單需要提交的各個字段的名稱和提交方式;
(4)登錄表單提交的地址;
(5)另外要需要知道要抓取的數(shù)據(jù)所在的地址。
2. 獲取cookie并存儲(針對使用cookie文件的網(wǎng)站):
$login_url = 'http://www.xxxxx'; //登錄頁面地址 $cookie_file = dirname(__FILE__)."/pic.cookie"; //cookie文件存放位置(自定義) $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $login_url); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file); curl_exec($ch); curl_close($ch);
3. 獲取驗證碼并存儲(針對使用驗證碼的網(wǎng)站):
$verify_url = "http://www.xxxx"; //驗證碼地址 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $verify_url); curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $verify_img = curl_exec($ch); curl_close($ch); $fp = fopen("./verify/verifyCode.png",'w'); //把抓取到的圖片文件寫入本地圖片文件保存 fwrite($fp, $verify_img); fclose($fp);
說明:
由于不能實現(xiàn)驗證碼的識別,所以我這里的做法是,把驗證碼圖片抓取下來存放到本地文件中,然后在自己項目中的html頁面中顯示,讓用戶去填寫,等用戶填寫完賬號、密碼和驗證碼,并點擊提交按鈕之后再去進行下一步的操作。
4. 模擬提交登錄表單:
$ post_url = 'http://www.xxxx'; //登錄表單提交地址 $post = "username=$account&password=$password&seccodeverify=$verifyCode";//表單提交的數(shù)據(jù)(根據(jù)表單字段名和用戶輸入決定) $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $ post_url); curl_setopt($ch, CURLOPT_HEADER, false); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); curl_setopt($ch, CURLOPT_POSTFIELDS, $post); //提交方式為post curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); curl_exec($ch); curl_close($ch);
5. 抓取數(shù)據(jù):
$data_url = "http://www.xxxx"; //數(shù)據(jù)所在地址 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $data_url); curl_setopt($ch, CURLOPT_HEADER, false); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER,0); curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); $data = curl_exec($ch); curl_close($ch);
到目前為止,已經(jīng)把數(shù)據(jù)所在地址的這個頁面都抓取下來存儲在字符串變量$data中了。
需要注意的是抓取下來的是一個網(wǎng)頁的html源代碼,也就是說這個字符串中不僅包含了你想要的數(shù)據(jù),還包含了許多的html標簽等你不想要的東西。所以如果你想要從中提取出你需要的數(shù)據(jù)的話,你還要對存放數(shù)據(jù)的頁面的html代碼進行分析,然后結(jié)合字符串操作函數(shù)、正則匹配等方法從中提取出你想要的數(shù)據(jù)。
以上方法對使用http協(xié)議的一般網(wǎng)站是有效的。但是如果你要模擬登錄的是使用了https協(xié)議的網(wǎng)站的話還需要添加如下一些處理:
1. 跳過https驗證:
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
2. 使用用戶代理:
$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)'; curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);
注意:如果不添加這些處理的話模擬登錄時是不能成功的。
使用以上程序模擬登錄網(wǎng)站一般都是能成功的,但是實際上還是需要針對模擬登錄的網(wǎng)站具體情況具體考慮。例如:有些網(wǎng)站編碼不同,所以你抓取下來的頁面是亂碼的,這時就要進行一下編碼轉(zhuǎn)換,如:$data = iconv("gb2312", "utf-8",$data);
,把gbk編碼轉(zhuǎn)換為utf8編碼。還有一些對安全性要求比較高的網(wǎng)站,比如網(wǎng)銀,會把驗證碼放在一個內(nèi)聯(lián)框架中,這時你就需要先抓取到內(nèi)聯(lián)框架的頁面然后在從中提取出驗證碼的地址,再去抓取驗證碼。還有一些網(wǎng)站(比如網(wǎng)銀)是在js代碼中去提交表單的,提交表單之前還會去做一些處理,比如加密等,所以如果你是直接提交的話也是不能登錄成功的,你必須要去做類似的處理后再提交,但是這種情況如果你能知道js代碼中進行的具體操作,比如加密的話,加密算法是怎樣的,你就可以進行跟它一樣的處理,然后再去提交數(shù)據(jù),這樣也是能成功的。但是,關(guān)鍵的地方來了,如果你根本不知道它進行的是什么操作,比如它進行了加密,但是你不知道加密的具體算法,那么你就無法進行相同的操作,也就不能成功地模擬登錄了。這方面典型的案例就是網(wǎng)銀,它在js代碼中提交表單之前使用網(wǎng)銀控件對用戶提交的密碼和驗證碼進行了一些處理,但是我們根本不知道它進行的是什么操作,所以無法模擬。所以如果你以為你看了本文之后就能模擬登錄網(wǎng)銀的話那么你就太天真了,人家銀行的網(wǎng)站能那么容易被你模擬登錄嗎?當(dāng)然,如果你能破解網(wǎng)銀控件的話,那就另當(dāng)別論了。話說回來,為什么我的感受如此深刻,因為我就遇到這個難題了,不說了,說多了都是淚啊。。。
更多關(guān)于PHP相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《php curl用法總結(jié)》、《PHP網(wǎng)絡(luò)編程技巧總結(jié)》、《PHP數(shù)組(Array)操作技巧大全》、《php字符串(string)用法總結(jié)》、《PHP數(shù)據(jù)結(jié)構(gòu)與算法教程》、《php程序設(shè)計算法總結(jié)》、《PHP運算與運算符用法總結(jié)》及《php常見數(shù)據(jù)庫操作技巧匯總》
希望本文所述對大家PHP程序設(shè)計有所幫助。
相關(guān)文章
PHP使用enqueue/amqp-lib實現(xiàn)rabbitmq任務(wù)處理
這篇文章主要為大家詳細介紹了PHP如何使用enqueue/amqp-lib實現(xiàn)rabbitmq任務(wù)處理,文中的示例代碼講解詳細,感興趣的小伙伴可以學(xué)習(xí)一下2024-03-03PHP實現(xiàn)的下載遠程圖片自定義函數(shù)分享
這篇文章主要介紹了PHP實現(xiàn)的下載遠程圖片自定義函數(shù)分享,本文直接給出實現(xiàn)代碼和,本文直接給出實現(xiàn)代碼和使用方法,需要的朋友可以參考下2015-01-01PHP 5.3.1 安裝包 VC9 VC6不同版本的區(qū)別是什么
php官網(wǎng)提供了四個版本,VC9 x86 Non Thread Safe、VC9 x86 Thread Safe、VC6 x86 Non Thread Safe、VC6 x86 Thread Safe,大家看完這篇文章就知道應(yīng)該選擇什么樣的版本了。2010-07-07CI框架(ajax分頁,全選,反選,不選,批量刪除)完整代碼詳解
CodeIgniter 是一個小巧但功能強大的 PHP 框架。這篇文章主要介紹了CI框架(ajax分頁,全選,反選,不選,批量刪除)完整代碼,需要的朋友可以參考下2016-11-11PHP操作ZipArchive實現(xiàn)文件上傳下載功能
在很多實際生產(chǎn)場景都需要批量上傳、下載一些文件的處理,本文將利用PHP?ZipArchive實現(xiàn)文件上傳下載功能,有需要的小伙伴可以參考一下2024-03-03php strnatcmp()函數(shù)的用法總結(jié)
這篇文章主要是對php中strnatcmp()函數(shù)的用法進行了詳細的總結(jié)介紹,需要的朋友可以過來參考下,希望對大家有所幫助2013-11-11解決PHP Opcache 緩存刷新、代碼重載出現(xiàn)無法更新代碼的問題
這篇文章主要介紹了解決PHP Opcache 緩存刷新、代碼重載出現(xiàn)的無法更新代碼的問題,幫助大家更好的理解和學(xué)習(xí)php,感興趣的朋友可以了解下2020-08-08