php使用自帶dom擴(kuò)展進(jìn)行元素匹配的原理解析
DOMDocument
php提供了非常好用的解析html和xml文檔的擴(kuò)展庫(kù)DOM,使用這個(gè)庫(kù)可以非常高效的進(jìn)行html和xml文檔的解析,它的原理就是通過(guò)尋找首尾匹配對(duì)來(lái)進(jìn)行文檔的解析。
從上面的分析可以看出,如果首位不匹配,可能就會(huì)導(dǎo)致一些錯(cuò)誤的出現(xiàn),因此,這個(gè)時(shí)候我們需要設(shè)置
libxml_use_internal_errors(true);
來(lái)進(jìn)行錯(cuò)誤的屏蔽,讓它可以解析整個(gè)文檔。
解析html基本用法
$dom = new \DOMDocument; $content = htmlspecialchars_decode($content); libxml_use_internal_errors(true); $content = mb_convert_encoding($content, 'HTML-ENTITIES', 'UTF-8'); $dom->loadHTML($content);
$content是要解析的html字符串,其中我們對(duì)它進(jìn)行了轉(zhuǎn)義,因?yàn)榭赡芎袑?shí)體集,然后我們有進(jìn)行了編碼的轉(zhuǎn)換,因?yàn)榭赡芪臋n不是utf-8格式的,會(huì)導(dǎo)致日文,法文等文字亂碼。
獲取元素
$a = $dom->getElementsByTagName('a');
$p = $dom->getElementsByTagName('p');
遍歷元素
$elements = $dom->getElementsByTagName('a');
foreach ($elements as $element) {
$element->textContent = '替換成其它的文字';
}
通過(guò)上面的循環(huán),可以將全部a標(biāo)簽的文字替換掉。
元素嵌套
有些時(shí)候,html會(huì)嵌套很多層,比如
<div> <p> <a href="xxx" rel="external nofollow" >我是文字</a> </p> <p> 內(nèi)容替換 </p> </div>
如果我們想要對(duì)p標(biāo)簽文字進(jìn)行替換的化,并且不想要替換含有子元素的內(nèi)容,就是這里的a標(biāo)簽不想替換,下面的語(yǔ)句不能夠解決我們的問(wèn)題:
$elements = $dom->getElementsByTagName('p');
foreach ($elements as $element) {
if($element->hasChildNodes()){
$element->textContent = 'p標(biāo)簽內(nèi)容替換';
}
}
上面的代會(huì)將a標(biāo)簽的內(nèi)容也替換掉,這不是我們想要的結(jié)果,因?yàn)閔asChildNodes()這個(gè)函數(shù)表示的含有內(nèi)容,無(wú)論它是標(biāo)簽還是文字,它都是返回true的,除非它是空標(biāo)簽,例如
它才會(huì)返回false.
所以我們需要自己封裝一個(gè)函數(shù)進(jìn)行檢查是否含有嵌套標(biāo)簽。
function hasChild($element, $tags)
{
foreach($tags as $v){
$elements = $element->getElementsByTagName($v);
if($elements->length){
return true;
}
}
return false;
}
$tags = array('title','h1','h2','h3','h4','h5','a','p','dd','img');
$elements = $dom->getElementsByTagName('p');
foreach ($elements as $element) {
if(hasChild($element, $tags)){
$element->textContent = 'p標(biāo)簽內(nèi)容替換';
}
}
通過(guò)我們自己封裝的函數(shù),就可以判斷出$dom的node節(jié)點(diǎn)是否含有子標(biāo)簽。
總結(jié)
到此這篇關(guān)于php使用自帶dom擴(kuò)展進(jìn)行元素匹配的文章就介紹到這了,更多相關(guān)php元素匹配內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- PHP代碼加密和擴(kuò)展解密實(shí)戰(zhàn)
- Thinkphp使用Zxing擴(kuò)展庫(kù)解析二維碼內(nèi)容圖文講解
- PHP安裝擴(kuò)展mcrypt以及相關(guān)依賴項(xiàng)深入講解
- win10下 php安裝seaslog擴(kuò)展的詳細(xì)步驟
- PHP擴(kuò)展安裝方法步驟解析
- php使用event擴(kuò)展的io復(fù)用測(cè)試的示例
- 安裝PHP擴(kuò)展時(shí)解壓官方 tgz 文件后沒(méi)有configure文件無(wú)法進(jìn)行配置編譯的問(wèn)題
- PHP 擴(kuò)展Memcached命令用法實(shí)例總結(jié)
- Thinkphp 框架配置操作之動(dòng)態(tài)配置、擴(kuò)展配置及批量配置實(shí)例分析
- docker 安裝 php-fpm 服務(wù) / 擴(kuò)展 / 配置的示例教程詳解
- 如何動(dòng)態(tài)查看及加載PHP擴(kuò)展
相關(guān)文章
PHP結(jié)合Mysql數(shù)據(jù)庫(kù)實(shí)現(xiàn)留言板功能
這篇文章主要介紹了PHP結(jié)合Mysql數(shù)據(jù)庫(kù)實(shí)現(xiàn)留言板功能的相關(guān)資料,需要的朋友可以參考下2016-03-03
Drupal7中常用的數(shù)據(jù)庫(kù)操作實(shí)例
Drupal 7 提供的新功能其中一個(gè)就是可以使用 Query Builder and Query Objects 查詢生成器來(lái)構(gòu)造查詢對(duì)象的能力,無(wú)需在代碼中寫原始的SQL語(yǔ)句,一是提高了代碼可閱讀性,二是兼容所有數(shù)據(jù)庫(kù)2014-03-03
國(guó)產(chǎn)PHP開(kāi)發(fā)框架myqee新手快速入門教程
這篇文章主要介紹了國(guó)產(chǎn)PHP開(kāi)發(fā)框架myqee新手快速入門教程,myqee中文名稱邁啟PHP框架,有比較多的高級(jí)開(kāi)發(fā)特性,需要的朋友可以參考下2014-07-07
PHP連接MYSQL數(shù)據(jù)庫(kù)實(shí)例代碼
現(xiàn)在做的項(xiàng)目需要php連接mysql數(shù)據(jù)庫(kù),雖然之前學(xué)過(guò),但是現(xiàn)在基本上都給忘了,之后通過(guò)查找相關(guān)資料找到了解決方法,下面小編把具體方法分享在腳本之家平臺(tái)供大家學(xué)習(xí)2016-01-01
thinkphp3.2中實(shí)現(xiàn)phpexcel導(dǎo)出帶生成圖片示例
本篇文章主要介紹了thinkphp3.2中實(shí)現(xiàn)phpexcel導(dǎo)出帶生成圖片示例,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-02-02
Aliyun Linux 編譯安裝 php7.3 tengine2.3.2 mysql8.0 redis5的過(guò)程詳解
這篇文章主要介紹了Aliyun Linux 編譯安裝 php7.3 tengine2.3.2 mysql8.0 redis5,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-10-10
php中curl和soap方式請(qǐng)求服務(wù)超時(shí)問(wèn)題的解決
本篇文章主要介紹了php中curl和soap方式請(qǐng)求服務(wù)超時(shí)問(wèn)題的解決,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-06-06
laravel join關(guān)聯(lián)查詢代碼實(shí)例
這篇文章主要介紹了laravel join關(guān)聯(lián)查詢代碼實(shí)例,join聯(lián)查是寫sql查詢的時(shí)候常用也是高效的一種查詢,文中是結(jié)合laravel框架來(lái)使用聯(lián)查,有感興趣的同學(xué)可以學(xué)習(xí)下2021-03-03

