php curl抓取網(wǎng)頁的介紹和推廣及使用CURL抓取淘寶頁面集成方法
php的curl可以用來實(shí)現(xiàn)抓取網(wǎng)頁,分析網(wǎng)頁數(shù)據(jù)用, 簡潔易用, 這里介紹其函數(shù)等就不詳細(xì)描述, 放上代碼看看:
只保留了其中幾個主要的函數(shù)。 實(shí)現(xiàn)模擬登陸, 其中可能涉及到session捕獲, 然后前后頁面涉及參數(shù)提供形式。
libcurl主要功能就是用不同的協(xié)議連接和溝通不同的服務(wù)器~也就是相當(dāng)封裝了的sock
PHP 支持libcurl(允許你用不同的協(xié)議連接和溝通不同的服務(wù)器)。, libcurl當(dāng)前支持http, https, ftp, gopher, telnet, dict, file, 和ldap 協(xié)議。libcurl同樣支持HTTPS證書授權(quán),HTTP POST, HTTP PUT, FTP 上傳(當(dāng)然你也可以使用PHP的ftp擴(kuò)展), HTTP基本表單上傳,代理,cookies,和用戶認(rèn)證。
為了使用CURL函數(shù)你需要安裝CURL包。PHP 需要你使用CURL 7.0.2-beta或更高版。如果CURL的版本低于7.0.2-beta,PHP將不工作。
要使用PHP的CURL支持,你必須用帶有--with-curl[=DIR]參數(shù)重新編譯PHP(DIR是包含庫和頭文件的目錄)。
這些函數(shù)是在PHP 4.0.2中新增得。
一旦你編譯了帶有CURL支持的PHP,你可以使用curl函數(shù)?;舅悸肥牵耗闶褂胏url_init()函數(shù)初始化 CURL會話,而后你可以設(shè)置你的所有選項,通過curl_exec()函數(shù)執(zhí)行,最后你可以作用curl_close()函數(shù)來結(jié)束你的會話。以下是一個例子:是把PHP的主頁取回放到一個文件中。
例 1. 使用PHP的CURL模塊取回PHP主頁
$ch = curl_init ("http://www.php.net/"); $fp = fopen ("php_homepage.txt", "w"); curl_setopt ($ch, CURLOPT_FILE, $fp); curl_setopt ($ch, CURLOPT_HEADER, 0); curl_exec ($ch); curl_close ($ch); fclose ($fp); ?>
目錄列表
curl_init — 初始化一個CURL會話
curl_setopt — 為CURL調(diào)用設(shè)置一個選項
curl_exec — 執(zhí)行一個CURL會話
curl_close — 關(guān)閉一個CURL會話
curl_version — 返回當(dāng)前CURL版本
* curl擴(kuò)展的安裝
PHP已經(jīng)內(nèi)置有php_curl.dll,在ext目錄下,此DLL用于支持SSL和zlib.
在php.ini中找到有extension=php_curl.dll, 去掉前面的注釋.
設(shè)置extension_dir=你的php的ext目錄(例如c:/php/ext)
把ext目錄下的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll 都拷貝到system32目錄下,重啟apache即可。
curl_init
curl_init -- 初始化一個CURL會話
描述
int curl_init ([string url])
curl_init()函數(shù)將初始化一個新的會話,返回一個CURL句柄供curl_setopt(), curl_exec(),和 curl_close() 函數(shù)使用。如果可選參數(shù)被提供,那么CURLOPT_URL選項將被設(shè)置成這個參數(shù)的值。你可以使用curl_setopt()函數(shù)人工設(shè)置。
例 1. 初始化一個新的CURL會話,且取回一個網(wǎng)頁
$ch = curl_init(); curl_setopt ($ch, CURLOPT_URL, "http://www.zend.com/"); curl_setopt ($ch, CURLOPT_HEADER, 0); curl_exec ($ch); curl_close ($ch); ?>
參見:curl_close(), curl_setopt()
* curl_setopt
curl_setopt -- 為CURL調(diào)用設(shè)置一個選項
描述
bool curl_setopt (int ch, string option, mixed value)
curl_setopt()函數(shù)將為一個CURL會話設(shè)置選項。option參數(shù)是你想要的設(shè)置,value是這個選項給定的值。
下列選項的值將被作為長整形使用(在option參數(shù)中指定):
CURLOPT_INFILESIZE: 當(dāng)你上傳一個文件到遠(yuǎn)程站點(diǎn),這個選項告訴PHP你上傳文件的大小。
CURLOPT_VERBOSE: 如果你想CURL報告每一件意外的事情,設(shè)置這個選項為一個非零值。
CURLOPT_HEADER: 如果你想把一個頭包含在輸出中,設(shè)置這個選項為一個非零值。
CURLOPT_NOPROGRESS: 如果你不會PHP為CURL傳輸顯示一個進(jìn)程條,設(shè)置這個選項為一個非零值。
注意:PHP自動設(shè)置這個選項為非零值,你應(yīng)該僅僅為了調(diào)試的目的來改變這個選項。
CURLOPT_NOBODY: 如果你不想在輸出中包含body部分,設(shè)置這個選項為一個非零值。
CURLOPT_FAILONERROR: 如果你想讓PHP在發(fā)生錯誤(HTTP代碼返回大于等于300)時,不顯示,設(shè)置這個選項為一人非零值。默認(rèn)行為是返回一個正常頁,忽略代碼。
CURLOPT_UPLOAD: 如果你想讓PHP為上傳做準(zhǔn)備,設(shè)置這個選項為一個非零值。
CURLOPT_POST: 如果你想PHP去做一個正規(guī)的HTTP POST,設(shè)置這個選項為一個非零值。這個POST是普通的 application/x-www-from-urlencoded 類型,多數(shù)被HTML表單使用。
CURLOPT_FTPLISTONLY: 設(shè)置這個選項為非零值,PHP將列出FTP的目錄名列表。
CURLOPT_FTPAPPEND: 設(shè)置這個選項為一個非零值,PHP將應(yīng)用遠(yuǎn)程文件代替覆蓋它。
CURLOPT_NETRC: 設(shè)置這個選項為一個非零值,PHP將在你的 ~./netrc 文件中查找你要建立連接的遠(yuǎn)程站點(diǎn)的用戶名及密碼。
CURLOPT_FOLLOWLOCATION: 設(shè)置這個選項為一個非零值(象 "Location: ")的頭,服務(wù)器會把它當(dāng)做HTTP頭的一部分發(fā)送(注意這是遞歸的,PHP將發(fā)送形如 "Location: "的頭)。
CURLOPT_PUT: 設(shè)置這個選項為一個非零值去用HTTP上傳一個文件。要上傳這個文件必須設(shè)置CURLOPT_INFILE和CURLOPT_INFILESIZE選項.
CURLOPT_MUTE: 設(shè)置這個選項為一個非零值,PHP對于CURL函數(shù)將完全沉默。
CURLOPT_TIMEOUT: 設(shè)置一個長整形數(shù),作為最大延續(xù)多少秒。
CURLOPT_LOW_SPEED_LIMIT: 設(shè)置一個長整形數(shù),控制傳送多少字節(jié)。
CURLOPT_LOW_SPEED_TIME: 設(shè)置一個長整形數(shù),控制多少秒傳送CURLOPT_LOW_SPEED_LIMIT規(guī)定的字節(jié)數(shù)。
CURLOPT_RESUME_FROM: 傳遞一個包含字節(jié)偏移地址的長整形參數(shù),(你想轉(zhuǎn)移到的開始表單)。
CURLOPT_SSLVERSION: 傳遞一個包含SSL版本的長參數(shù)。默認(rèn)PHP將被它自己努力的確定,在更多的安全中你必須手工設(shè)置。
CURLOPT_TIMECONDITION: 傳遞一個長參數(shù),指定怎么處理CURLOPT_TIMEVALUE參數(shù)。你可以設(shè)置這個參數(shù)為TIMECOND_IFMODSINCE 或 TIMECOND_ISUNMODSINCE。這僅用于HTTP。
CURLOPT_TIMEVALUE: 傳遞一個從1970-1-1開始到現(xiàn)在的秒數(shù)。這個時間將被CURLOPT_TIMEVALUE選項作為指定值使用,或被默認(rèn)TIMECOND_IFMODSINCE使用。
下列選項的值將被作為字符串:
CURLOPT_URL: 這是你想用PHP取回的URL地址。你也可以在用curl_init()函數(shù)初始化時設(shè)置這個選項。
CURLOPT_USERPWD: 傳遞一個形如[username]:[password]風(fēng)格的字符串,作用PHP去連接。
CURLOPT_PROXYUSERPWD: 傳遞一個形如[username]:[password] 格式的字符串去連接HTTP代理。
CURLOPT_RANGE: 傳遞一個你想指定的范圍。它應(yīng)該是"X-Y"格式,X或Y是被除外的。HTTP傳送同樣支持幾個間隔,用逗句來分隔(X-Y,N-M)。
CURLOPT_POSTFIELDS: 傳遞一個作為HTTP “POST”操作的所有數(shù)據(jù)的字符串。
CURLOPT_REFERER: 在HTTP請求中包含一個"referer"頭的字符串。
CURLOPT_USERAGENT: 在HTTP請求中包含一個"user-agent"頭的字符串。
CURLOPT_FTPPORT: 傳遞一個包含被ftp "POST"指令使用的IP地址。這個POST指令告訴遠(yuǎn)程服務(wù)器去連接我們指定的IP地址。 這個字符串可以是一個IP地址,一個主機(jī)名,一個網(wǎng)絡(luò)界面名(在UNIX下),或是'-'(使用系統(tǒng)默認(rèn)IP地址)。
CURLOPT_COOKIE: 傳遞一個包含HTTP cookie的頭連接。
CURLOPT_SSLCERT: 傳遞一個包含PEM格式證書的字符串。
CURLOPT_SSLCERTPASSWD: 傳遞一個包含使用CURLOPT_SSLCERT證書必需的密碼。
CURLOPT_COOKIEFILE: 傳遞一個包含cookie數(shù)據(jù)的文件的名字的字符串。這個cookie文件可以是Netscape格式,或是堆存在文件中的HTTP風(fēng)格的頭。
CURLOPT_CUSTOMREQUEST: 當(dāng)進(jìn)行HTTP請求時,傳遞一個字符被GET或HEAD使用。為進(jìn)行DELETE或其它操作是有益的,更Pass a string to be used instead of GET or HEAD when doing an HTTP request. This is useful for doing or another, more obscure, HTTP request.
注意: 在確認(rèn)你的服務(wù)器支持命令先不要去這樣做。
下列的選項要求一個文件描述(通過使用fopen()函數(shù)獲得):
CURLOPT_FILE: 這個文件將是你放置傳送的輸出文件,默認(rèn)是STDOUT.
CURLOPT_INFILE: 這個文件是你傳送過來的輸入文件。
CURLOPT_WRITEHEADER: 這個文件寫有你輸出的頭部分。
CURLOPT_STDERR: 這個文件寫有錯誤而不是stderr。
* curl_exec
curl_exec -- 執(zhí)行一個CURL會話
描述
bool curl_exec (int ch)
在你初始化一個CURL會話,及為這個會話設(shè)置了所有的選項后,這個函數(shù)將被調(diào)用。它的目的僅僅是執(zhí)行預(yù)先確定的CURL會話(通過給定的ch參數(shù))。
* curl_close
curl_close -- 關(guān)閉一個CURL會話
描述
void curl_close (int ch)
這個函數(shù)關(guān)閉一個CURL會話,并且釋放所有的資源。CURL句柄(ch參數(shù))也被刪除。
* curl_version
curl_version -- 返回當(dāng)前CURL版本
描述
string curl_version (void)
curl_version()函數(shù)返回一個包含CURL版本的字符串。
<?php class MultiHttpRequest{ public $urls = array(); public $curlopt_header = 0; public $cookie_file = ''; public $collect_save_file = ''; public $start_timestamp = ''; public $end_timestamp = ''; private $log_handle = ''; private $collect_save_handle = ''; private $db_conn = false; private $pre_break_goods_id = ''; //上一次強(qiáng)制退出的id private $per_break_brand_id = ''; //上一次更新到的brand_id private $main_log_id = ''; //本次更新的主表日志id private $start_time = ''; public $login_session = ''; public $date_char = ''; private $mode = ''; private $sql_log_handle = ''; function __construct($upgrade_date='', $force_upt=false) { $this->mysql_init(); } private function mysql_init(){ $db_name = 'dbname'; $db_user = 'name'; $db_pass = 'pass'; $db_host = 'localhost'; $db_conn = mysql_connect($db_host, $db_user, $db_pass) ; if(!$db_conn){ echo '數(shù)據(jù)庫連接失敗!'; exit; } $this->db_conn = $db_conn; mysql_select_db($db_name); } public function init_login(){ //第一步模擬登陸 $target_url = 'http://www.test.com/login.jsp'; //post 提交的數(shù)據(jù) $post_fields = array( 'username' => '卓雅秀淘寶', 'password' => 'joarshow.taobao.com', 't_url' => '', 'Submit2' => ' 登 錄 ' ); //保存登陸的cookie $cookie_file = dirname(__FILE__).'/cookie_'.time().'.txt'; $this->cookie_file = $cookie_file; //存cookie $ch = curl_init($target_url); curl_setopt($ch, CURLOPT_HEADER, 1); // curl_setopt($ch, CURLOPT_COOKIESESSION, 1); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_POST, 1); curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields); curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file); $login_contents = curl_exec($ch); curl_close($ch); } /** * 測試 * * @param unknown_type $test_url */ public function get_one_file($test_url){ $ch = curl_init($test_url); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch,CURLOPT_COOKIE, $this->login_session); curl_setopt($ch, CURLOPT_REFERER, 'http://www.test.com/welcome.shtml'); curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)'); $contents = curl_exec($ch); curl_close($ch); return $contents; } public function point_url_brand($url){ $ch = curl_init($url); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch,CURLOPT_COOKIE, $this->login_session); curl_setopt($ch, CURLOPT_REFERER, 'http://www.test.com/product.shtml'); curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)'); $contents = curl_exec($ch); // echo htmlspecialchars($contents);exit; curl_close($ch); return $contents; } }
使用CURL抓取淘寶頁面集成方法
代碼如下:
/** * 根據(jù)地址抓取淘寶頁面html代碼 * @param type $url 地址 * @return boolean */ public function getTaoBaoHtml($url) { if (empty($url)) { return false; } $ch = curl_init(); // 設(shè)置 url curl_setopt($ch, CURLOPT_URL, $url); // 設(shè)置瀏覽器的特定header curl_setopt($ch, CURLOPT_HTTPHEADER, array( "User-Agent: {Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0}", "Accept: {text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8}", "Accept-Language: {zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3}", "Cookie:{cq=ccp%3D1; cna=a7suCzOmSTECAXgg9iCf4AtX; t=671b2069c7e8ac444da66d664a397a5f; tracknick=%5Cu4F0D%5Cu6653%5Cu8F8901; _tb_token_=nDiU1vCuzFd0; cookie2=c54709ffbe04a5ccb80283c34d6b00fa; pnm_cku822=128WsMPac%2FFS4KgNn%2BYfhzduo4U2NC0zh9cAS4%3D% 7CWUCLjKhqr873bOIFQcMecSw%3D%7CWMEKRlV% 2B3D9a6XWaidNWNQOSWXwaXugvQHzhxALh%7CX0 YLbX78NUR2b2DHoxnIqZENQqR35TBZbfQ5vooI0b6GHZA3U1kr%7CXkdILog Cr878ZK9I%2B%2FE3QjAD3lFJJaAZRA%3D%3D%7CXUeMwMR2s% 2BTUQk8IPP5TNgWfUjQwonccMCxihTa0fRYgtjgfa4j6%7CXMY K7F8liOvH3hMUpzXkiaU%2FJw%3D%3D}", )); // 頁面內(nèi)容我們并不需要 curl_setopt($ch, CURLOPT_NOBODY, 0); // 只需返回HTTP header curl_setopt($ch, CURLOPT_HEADER, 0); // 返回結(jié)果,而不是輸出它 //curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); ob_start(); curl_exec($ch); $html = ob_get_contents(); ob_end_clean(); curl_close($ch); return $html; }
- php使用curl和正則表達(dá)式抓取網(wǎng)頁數(shù)據(jù)示例
- 使用PHP curl模擬瀏覽器抓取網(wǎng)站信息
- PHP CURL模擬登錄新浪微博抓取頁面內(nèi)容 基于EaglePHP框架開發(fā)
- PHP curl實(shí)現(xiàn)抓取302跳轉(zhuǎn)后頁面的示例
- PHP curl 抓取AJAX異步內(nèi)容示例
- PHP中使用CURL偽造來路抓取頁面或文件
- php使用curl抓取qq空間的訪客信息示例
- php利用curl抓取新浪微博內(nèi)容示例
- PHP使用CURL實(shí)現(xiàn)多線程抓取網(wǎng)頁
- php下通過curl抓取yahoo boss 搜索結(jié)果的實(shí)現(xiàn)代碼
- php通過curl添加cookie偽造登陸抓取數(shù)據(jù)的方法
- 使用php方法curl抓取AJAX異步內(nèi)容思路分析及代碼分享
- php使用curl代理實(shí)現(xiàn)抓取數(shù)據(jù)的方法
相關(guān)文章
OAuth認(rèn)證協(xié)議中的HMACSHA1加密算法(實(shí)例)
下面小編就為大家?guī)硪黄狾Auth認(rèn)證協(xié)議中的HMACSHA1加密算法(實(shí)例)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-10-10Zend Framework入門應(yīng)用實(shí)例詳解
這篇文章主要介紹了Zend Framework入門應(yīng)用,結(jié)合實(shí)例形式詳細(xì)講述了Zend Framework應(yīng)用的創(chuàng)建步驟、相關(guān)命令、控制器及視圖文件代碼實(shí)現(xiàn)技巧,需要的朋友可以參考下2016-12-12用PHP做了一個領(lǐng)取優(yōu)惠券活動的示例代碼
這篇文章主要介紹了用PHP做了一個領(lǐng)取優(yōu)惠券活動的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07php 使用fopen函數(shù)創(chuàng)建、打開文件詳解及實(shí)例代碼
這篇文章主要介紹了php 使用fopen函數(shù)創(chuàng)建、打開文件詳解及實(shí)例代碼的相關(guān)資料,需要的朋友可以參考下2016-09-09PHP封裝的一個支持HTML、JS、PHP重定向的多功能跳轉(zhuǎn)函數(shù)
這篇文章主要介紹了PHP封裝的一個支持HTML、JS、PHP重定向的多功能跳轉(zhuǎn)函數(shù),需要的朋友可以參考下2014-06-06php結(jié)合GD庫簡單實(shí)現(xiàn)驗(yàn)證碼的示例代碼
這篇文章主要介紹了php結(jié)合GD庫簡單實(shí)現(xiàn)驗(yàn)證碼的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01destoon實(shí)現(xiàn)首頁顯示供應(yīng)、企業(yè)、資訊條數(shù)的方法
這篇文章主要介紹了destoon實(shí)現(xiàn)首頁顯示供應(yīng)、企業(yè)、資訊條數(shù)的方法,在模板開發(fā)中非常實(shí)用,需要的朋友可以參考下2014-07-07