快捷導(dǎo)航

用PHP代替JS玩轉(zhuǎn)DOM的思路及示例代碼

更新時(shí)間：2014年06月15日 17:21:29 投稿：whsnow

思路就是通過(guò)DOMDocument將一個(gè)html file轉(zhuǎn)換成DOM樹(shù)的數(shù)據(jù)結(jié)構(gòu)，再用DOMXPath的實(shí)例去搜索這個(gè)DOM樹(shù)，接下來(lái)就可以對(duì)當(dāng)前節(jié)點(diǎn)的子樹(shù)進(jìn)行遍歷

事情的起源比較簡(jiǎn)單，我需要把一個(gè)導(dǎo)航頁(yè)的數(shù)據(jù)整理好寫(xiě)入數(shù)據(jù)庫(kù)。一個(gè)比較直觀的方法是對(duì)html文件進(jìn)行分析，通用的方法是用php的正則表達(dá)式來(lái)匹配。但是這樣做開(kāi)發(fā)和維護(hù)都很困難，代碼可讀性非常差。

導(dǎo)航頁(yè)的數(shù)據(jù)都是規(guī)則的排列在DOM樹(shù)當(dāng)中的，用JS可以用幾個(gè)循環(huán)輕松的對(duì)其進(jìn)行操作，而且JS需要依賴(lài)瀏覽器，操作數(shù)據(jù)庫(kù)很困難。其實(shí)PHP就有現(xiàn)成的類(lèi)庫(kù)對(duì)DOM樹(shù)種的節(jié)點(diǎn)進(jìn)行增刪改查操作，在此做一些筆記。

這里涉及到2個(gè)類(lèi) DOMDocument 和 DOMXPath。

其實(shí)思路比較明確，就是通過(guò)DOMDocument將一個(gè)html file轉(zhuǎn)換成DOM樹(shù)的數(shù)據(jù)結(jié)構(gòu)，再用DOMXPath的實(shí)例去搜索這個(gè)DOM樹(shù)，拿到想要特定節(jié)點(diǎn)，接下來(lái)就可以對(duì)當(dāng)前節(jié)點(diǎn)的子樹(shù)進(jìn)行遍歷，得到想要的結(jié)果。

在當(dāng)前目錄下有一個(gè)這樣一個(gè)導(dǎo)航的html文件 "./hao.html"

現(xiàn)在需要得到所有<a>標(biāo)簽的中文內(nèi)容，php代碼如下：

復(fù)制代碼代碼如下:

 
<?php 
//將html/xml文件轉(zhuǎn)換成DOM樹(shù) 
$dom = new DOMDocument(); 
$dom->loadHTMLFile("hao.html"); 

//得到所有class為fix的dl標(biāo)簽 

// example 1: for everything with an id 
//$elements = $xpath->query("http://*[@id]"); 

// example 2: for node data in a selected id 
//$elements = $xpath->query("/html/body/div[@id='yourTagIdHere']"); 

// example 3: same as above with wildcard 
//$elements = $xpath->query("*/div[@id='yourTagIdHere']"); 
$xpath = new DOMXPath($dom); 
$dls = $xpath->query('//dl[@class="fix"]'); 

foreach ($dls as $dl) { 
$spans = $dl->childNodes; 
foreach ($spans as $span) { 
echo trim($span->textContent)."\t"; 
} 
echo "\n"; 
} 
?>