一般情況下先用PHP的 strip_tags 函數(shù)去掉所有html標(biāo)簽，再去掉空格等，然后再用substr或者自己實現(xiàn)的cn_substr函數(shù)來實現(xiàn)截取。因為如果不先去掉html標(biāo)簽，直接截取出來的字符串就會有沒有閉合的標(biāo)簽出現(xiàn)，有時甚至?xí)厝≡跇?biāo)簽上面比如

復(fù)制代碼代碼如下:

</di ...

今天遇到一個內(nèi)容翻頁截取問題：正文是用富文本編輯器寫入的，編輯器上有個分頁按鈕，點擊之后就往當(dāng)前光標(biāo)位置插入一個藍(lán)色的

復(fù)制代碼代碼如下:

<hr />

橫線。然后php直接存入數(shù)據(jù)庫。顯示的時候，用 explode 函數(shù)根據(jù)這個

復(fù)制代碼代碼如下:

<hr />

標(biāo)記來分成一個數(shù)組，然后根據(jù)當(dāng)前頁碼來顯示某個片段。但是有個嚴(yán)重的問題，比如富文本編輯器寫入：

復(fù)制代碼代碼如下:

 
<div style="text-align:center"> 
content of page 1 
<hr /> 
page 2 content 
</div> 

如果用explode函數(shù)分開后，
第一頁的內(nèi)容是

復(fù)制代碼代碼如下:

content of page 1
第二頁的內(nèi)容是：

復(fù)制代碼代碼如下:

 
page 2 content 
</div> 

這樣就產(chǎn)生了沒有閉合的標(biāo)簽，直接顯示到頁面上面就會破壞頁面布局。。。
想了很久，也找了網(wǎng)上很多 closetag函數(shù)。但是發(fā)現(xiàn)都針對第一頁那種沒有閉合的標(biāo)簽的閉合。對于第二種沒有開頭的標(biāo)簽就沒辦法了。

針對第一頁那種沒有閉合的標(biāo)簽的閉合的closetags方法是：

復(fù)制代碼代碼如下:

 
function closetags($html) { 
// 不需要補全的標(biāo)簽 
$arr_single_tags = array('meta', 'img', 'br', 'link', 'area'); 
// 匹配開始標(biāo)簽 
preg_match_all('#<([a-z]+)(?: .*)?(?<![/|/ ])>#iU', $html, $result); 
$openedtags = $result[1]; 
// 匹配關(guān)閉標(biāo)簽 
preg_match_all('#</([a-z]+)>#iU', $html, $result); 
$closedtags = $result[1]; 
// 計算關(guān)閉開啟標(biāo)簽數(shù)量，如果相同就返回html數(shù)據(jù) 
$len_opened = count($openedtags); 
if (count($closedtags) == $len_opened) { 
return $html; 
} 
// 把排序數(shù)組，將最后一個開啟的標(biāo)簽放在最前面 
$openedtags = array_reverse($openedtags); 
// 遍歷開啟標(biāo)簽數(shù)組 
for ($i = 0; $i < $len_opened; $i++) { 
// 如果需要補全的標(biāo)簽 
if (!in_array($openedtags[$i], $arr_single_tags)) { 
// 如果這個標(biāo)簽不在關(guān)閉的標(biāo)簽中 
if (!in_array($openedtags[$i], $closedtags)) { 
// 直接補全閉合標(biāo)簽 
$html .= '</' . $openedtags[$i] . '>'; 
} else { 
unset($closedtags[array_search($openedtags[$i], $closedtags)]); 
} 
} 
} 
return $html; 
} 

后來想了一個辦法，利用瀏覽器自己的html解釋引擎來幫助補全有問題的html片段。具體做法如下：

復(fù)制代碼代碼如下:

 
<script> 
var div = document.createElement('div'); 
div.innerHTML ='<?php echo ("<div>這里是被截取的html片段");?>'; 
document.write(div.innerHTML); 
</script> 

原理就是先把html片段寫入到一個空的div里面，然后再從這個div里面讀取出來。別看寫入和讀取的屬性都是innerHTML，寫入的內(nèi)容和得到的內(nèi)容是不一樣的噢。如果寫入不完整的html片段，瀏覽器會自動補全修正。讀取出來的時候就已經(jīng)是完整的html dom 片段了。
可是這樣有個弊端，由于是Js加載內(nèi)容信息的，會對搜索引擎優(yōu)化不好。

您可能感興趣的文章: