欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

php解析html類庫simple_html_dom(詳細介紹)

 更新時間:2013年07月05日 10:34:26   作者:  
一直以來使用php解析html文檔樹都是一個難題。Simple HTML DOM parser 幫我們很好地解決了這個問題??梢酝ㄟ^這個php類來解析html文檔,對其中的html元素進行操作 (PHP5+以上版本)
下載地址:https://github.com/samacs/simple_html_dom

解析器不僅僅只是幫助我們驗證html文檔;更能解析不符合W3C標準的html文檔。它使用了類似jQuery的元素選擇器,通過元素的id,class,tag等等來查找定位;同時還提供添加、刪除、修改文檔樹的功能。當然,這樣一款強大的html Dom解析器也不是盡善盡美;在使用的過程中需要十分小心內(nèi)存消耗的情況。不過,不要擔心;本文中,筆者在最后會為各位介紹如何避免消耗過多的內(nèi)存。
開始使用
上傳類文件以后,有三種方式調(diào)用這個類:
從url中加載html文檔
從字符串中加載html文檔
從文件中加載html文檔
復(fù)制代碼 代碼如下:

<?php
// 新建一個Dom實例
$html = new simple_html_dom();

// 從url中加載
$html->load_file('http://www.dbjr.com.cn');

// 從字符串中加載
$html->load('<html><body>從字符串中加載html文檔演示</body></html>');

//從文件中加載
$html->load_file('path/file/test.html');
?>

如果從字符串加載html文檔,需要先從網(wǎng)絡(luò)上下載。建議使用cURL來抓取html文檔并加載DOM中。
查找html元素
可以使用find函數(shù)來查找html文檔中的元素。返回的結(jié)果是一個包含了對象的數(shù)組。我們使用HTML DOM解析類中的函數(shù)來訪問這些對象,下面給出幾個示例:
復(fù)制代碼 代碼如下:

<?php

//查找html文檔中的超鏈接元素
$a = $html->find('a');

//查找文檔中第(N)個超鏈接,如果沒有找到則返回空數(shù)組.
$a = $html->find('a', 0);

// 查找id為main的div元素
$main = $html->find('div[id=main]',0);

// 查找所有包含有id屬性的div元素
$divs = $html->find('div[id]');

// 查找所有包含有id屬性的元素
$divs = $html->find('[id]');
?>

還可以使用類似jQuery的選擇器來查找定位元素:
復(fù)制代碼 代碼如下:

<?php
// 查找id='#container'的元素
$ret = $html->find('#container');

// 找到所有class=foo的元素
$ret = $html->find('.foo');

// 查找多個html標簽
$ret = $html->find('a, img');

// 還可以這樣用
$ret = $html->find('a[title], img[title]');
?>

解析器支持對子元素的查找
復(fù)制代碼 代碼如下:

<?php

// 查找 ul列表中所有的li項
$ret = $html->find('ul li');

//查找 ul 列表指定class=selected的li項
$ret = $html->find('ul li.selected');

?>

如果你覺得這樣用起來麻煩,使用內(nèi)置函數(shù)可以輕松定位元素的父元素、子元素與相鄰元素
復(fù)制代碼 代碼如下:

<?php
// 返回父元素
$e->parent;

// 返回子元素數(shù)組
$e->children;

// 通過索引號返回指定子元素
$e->children(0);

// 返回第一個資源速
$e->first_child ();

// 返回最后一個子元素
$e->last _child ();

// 返回上一個相鄰元素
$e->prev_sibling ();

//返回下一個相鄰元素
$e->next_sibling ();
?>

元素屬性操作
使用簡單的正則表達式來操作屬性選擇器。
[attribute] – 選擇包含某屬性的html元素
[attribute=value] – 選擇所有指定值屬性的html元素
[attribute!=value]- 選擇所有非指定值屬性的html元素
[attribute^=value] -選擇所有指定值開頭屬性的html元素
[attribute$=value] 選擇所有指定值結(jié)尾屬性的html元素
[attribute*=value] -選擇所有包含指定值屬性的html元素
在解析器中調(diào)用元素屬性
在DOM中元素屬性也是對象:
復(fù)制代碼 代碼如下:

<?php
// 本例中將$a的錨鏈接值賦給$link變量
$link = $a->href;
?>

或者:
復(fù)制代碼 代碼如下:

<?php
$link = $html->find('a',0)->href;
?

每個對象都有4個基本對象屬性:
tag – 返回html標簽名
innertext – 返回innerHTML
outertext – 返回outerHTML
plaintext – 返回html標簽中的文本
在解析器中編輯元素
編輯元素屬性的用法和調(diào)用它們是類似的:
復(fù)制代碼 代碼如下:

<?php
//給$a的錨鏈接賦新值
$a->href = 'http://www.dbjr.com.cn';

// 刪除錨鏈接
$a->href = null;

// 檢測是否存在錨鏈接
if(isset($a->href)) {
//代碼
}
?>

解析器中沒有專門的方法來添加、刪除元素,不過可以變通一下使用:
復(fù)制代碼 代碼如下:

<?php
// 封裝元素
$e->outertext = '<div class="wrap">' . $e->outertext . '<div>';

// 刪除元素
$e->outertext = '';

// 添加元素
$e->outertext = $e->outertext . '<div>foo<div>';

// 插入元素
$e->outertext = '<div>foo<div>' . $e->outertext;
?

保存修改后的html DOM文檔也非常簡單:
復(fù)制代碼 代碼如下:

<?php
$doc = $html;
// 輸出
echo $doc;
?>

如何避免解析器消耗過多內(nèi)存
在本文的開篇中,筆者就提到了Simple HTML DOM解析器消耗內(nèi)存過多的問題。如果php腳本占用內(nèi)存太多,會導(dǎo)致網(wǎng)站停止響應(yīng)等一系列嚴重的問題。解決的方法也很簡單,在解析器加載html文檔并使用完成后,記得清理掉這個對象就可以了。當然,也不要把問題看得太嚴重了。如果只是加載了2、3個文檔,清理或不清理是沒有多大區(qū)別的。當你加載了5個10個甚至更多的文檔的時候,用完一個就清理一下內(nèi)存絕對是對自己負責啦^_^
復(fù)制代碼 代碼如下:

<?php
$html->clear();
?>

相關(guān)文章

  • php實現(xiàn)CSV文件導(dǎo)入和導(dǎo)出

    php實現(xiàn)CSV文件導(dǎo)入和導(dǎo)出

    這篇文章主要介紹了php實現(xiàn)CSV文件導(dǎo)入和導(dǎo)出的方法,具有一定的參考價值,需要的朋友可以參考下
    2015-10-10
  • php類自動加載器實現(xiàn)方法

    php類自動加載器實現(xiàn)方法

    這篇文章主要介紹了php類自動加載器實現(xiàn)方法,涉及php針對文件的讀取、判斷及字符串操作的相關(guān)技巧,具有一定參考借鑒價值,需要的朋友可以參考下
    2015-07-07
  • url decode problem 解決方法

    url decode problem 解決方法

    今天被告訴了一個奇怪的事兒,第三方網(wǎng)站使用我們提供的簽名是出現(xiàn)了錯誤,原因是使用php的urldecode時把加號(+) 替換成了空格
    2011-12-12
  • PHP實現(xiàn)識別復(fù)雜pdf文檔的示例代碼

    PHP實現(xiàn)識別復(fù)雜pdf文檔的示例代碼

    這篇文章主要為大家詳細介紹了如何使用PHP實現(xiàn)識別復(fù)雜pdf文檔的功能,文中的示例代碼講解詳細,感興趣的徐海波可以跟隨小編一起學(xué)習(xí)一下
    2024-01-01
  • 基于win2003虛擬機中apache服務(wù)器的訪問

    基于win2003虛擬機中apache服務(wù)器的訪問

    下面小編就為大家?guī)硪黄趙in2003虛擬機中apache服務(wù)器的訪問。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-08-08
  • php+jQuery遞歸調(diào)用POST循環(huán)請求示例

    php+jQuery遞歸調(diào)用POST循環(huán)請求示例

    這篇文章主要介紹了php+jQuery遞歸調(diào)用POST循環(huán)請求,結(jié)合實例形式分析了php+jQuery的ajax方法遞歸調(diào)用與json轉(zhuǎn)換技巧,需要的朋友可以參考下
    2016-10-10
  • php similar_text()函數(shù)的定義和用法

    php similar_text()函數(shù)的定義和用法

    下面小編就為大家?guī)硪黄猵hp similar_text()函數(shù)的定義和用法。小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2016-05-05
  • php session和cookie使用說明

    php session和cookie使用說明

    php session和cookie使用說明,需要的朋友可以參考下。
    2010-04-04
  • PHP排序算法的復(fù)習(xí)和總結(jié)

    PHP排序算法的復(fù)習(xí)和總結(jié)

    對于PHP中對數(shù)組的元素進行排序,這個是很經(jīng)常用到的,之前的項目中也有,而且對于幾種排序我們都是用的是asort arsort 等PHP原生函數(shù),沒有自己去實現(xiàn),所以就對一下的幾個函數(shù)進行總結(jié),這個會不斷的進行補充,自己也可以好好的復(fù)習(xí)和總結(jié)
    2012-02-02
  • 解析php中session的實現(xiàn)原理以及大網(wǎng)站應(yīng)用應(yīng)注意的問題

    解析php中session的實現(xiàn)原理以及大網(wǎng)站應(yīng)用應(yīng)注意的問題

    本篇文章是對php中session的實現(xiàn)原理以及大網(wǎng)站應(yīng)用應(yīng)注意的問題進行了詳細的分析介紹,需要的朋友參考下
    2013-06-06

最新評論