PHP cdata 處理(詳細(xì)介紹)
更新時(shí)間:2013年07月05日 12:54:05 作者:
之前為項(xiàng)目趕進(jìn)度用php 的simplexml來解析 xml, 當(dāng)時(shí)發(fā)現(xiàn) simplexml不支持<![CDATA標(biāo)簽, 所有處于這個標(biāo)簽內(nèi)的值都沒有辦法取到
當(dāng)時(shí)在網(wǎng)上找了一個CDATA的轉(zhuǎn)換器, 修改之后, 將CDATA標(biāo)簽給過濾掉。如下
// States:
//
// 'out'
// '<'
// '<!'
// '<!['
// '<![C'
// '<![CD'
// '<![CDAT'
// '<![CDATA'
// 'in'
// ']'
// ']]'
//
// (Yes, the states a represented by strings.)
//
$state = 'out';
$a = str_split($xml);
$new_xml = '';
foreach ($a AS $k => $v) {
// Deal with "state".
switch ( $state ) {
case 'out':
if ( '<' == $v ) {
$state = $v;
} else {
$new_xml .= $v;
}
break;
case '<':
if ( '!' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<!':
if ( '[' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![':
if ( 'C' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![C':
if ( 'D' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![CD':
if ( 'A' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![CDA':
if ( 'T' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![CDAT':
if ( 'A' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![CDATA':
if ( '[' == $v ) {
$cdata = '';
$state = 'in';
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case 'in':
if ( ']' == $v ) {
$state = $v;
} else {
$cdata .= $v;
}
break;
case ']':
if ( ']' == $v ) {
$state = $state . $v;
} else {
$cdata .= $state . $v;
$state = 'in';
}
break;
case ']]':
if ( '>' == $v ) {
$new_xml .= htmlentities($cdata);
# $new_xml.= $cdata;
// $new_xml .= str_replace('>','>',
// str_replace('>','<',
// str_replace('"','"',
// str_replace('&','&',
// $cdata))));
$state = 'out';
} else {
$cdata .= $state . $v;
$state = 'in';
}
break;
} // switch
}
//
// Return.
//
return $new_xml;
最近發(fā)現(xiàn),總是有alert發(fā)出來, 說是simplexml解析出錯。
發(fā)現(xiàn)是原來有xml的數(shù)據(jù)是<![CDATA[domain[test]]] >. 出現(xiàn)了連續(xù)的3個], 造成上面的解析函數(shù)不能處理。
而且這個問題很難修正, 你不知道下次會不會有4, 5個]出現(xiàn)。
所以決定還是將這段解析 的代碼換成DOM XML,本身 DOM的處理還是比較簡單的,
包含DOMElement, DOMDocument, DOMNodeList, DOMNode幾個 component.
對于 DOMNode有nodeValue, nodeType, nodeName的成員函數(shù)。
首先先用loadXML將string轉(zhuǎn)化為DOMDocument對像, 再用getElementsByTagName轉(zhuǎn)化為DOMNodeList對像, 再使用->item(0)轉(zhuǎn)化為DOMNOde, 然后就可以使用上面的三種方法了。
對于 <aa color='red'>test</aa>這種xml標(biāo)簽, 要使用 attribute函數(shù)。
復(fù)制代碼 代碼如下:
// States:
//
// 'out'
// '<'
// '<!'
// '<!['
// '<![C'
// '<![CD'
// '<![CDAT'
// '<![CDATA'
// 'in'
// ']'
// ']]'
//
// (Yes, the states a represented by strings.)
//
$state = 'out';
$a = str_split($xml);
$new_xml = '';
foreach ($a AS $k => $v) {
// Deal with "state".
switch ( $state ) {
case 'out':
if ( '<' == $v ) {
$state = $v;
} else {
$new_xml .= $v;
}
break;
case '<':
if ( '!' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<!':
if ( '[' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![':
if ( 'C' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![C':
if ( 'D' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![CD':
if ( 'A' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![CDA':
if ( 'T' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![CDAT':
if ( 'A' == $v ) {
$state = $state . $v;
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case '<![CDATA':
if ( '[' == $v ) {
$cdata = '';
$state = 'in';
} else {
$new_xml .= $state . $v;
$state = 'out';
}
break;
case 'in':
if ( ']' == $v ) {
$state = $v;
} else {
$cdata .= $v;
}
break;
case ']':
if ( ']' == $v ) {
$state = $state . $v;
} else {
$cdata .= $state . $v;
$state = 'in';
}
break;
case ']]':
if ( '>' == $v ) {
$new_xml .= htmlentities($cdata);
# $new_xml.= $cdata;
// $new_xml .= str_replace('>','>',
// str_replace('>','<',
// str_replace('"','"',
// str_replace('&','&',
// $cdata))));
$state = 'out';
} else {
$cdata .= $state . $v;
$state = 'in';
}
break;
} // switch
}
//
// Return.
//
return $new_xml;
最近發(fā)現(xiàn),總是有alert發(fā)出來, 說是simplexml解析出錯。
發(fā)現(xiàn)是原來有xml的數(shù)據(jù)是<![CDATA[domain[test]]] >. 出現(xiàn)了連續(xù)的3個], 造成上面的解析函數(shù)不能處理。
而且這個問題很難修正, 你不知道下次會不會有4, 5個]出現(xiàn)。
所以決定還是將這段解析 的代碼換成DOM XML,本身 DOM的處理還是比較簡單的,
包含DOMElement, DOMDocument, DOMNodeList, DOMNode幾個 component.
對于 DOMNode有nodeValue, nodeType, nodeName的成員函數(shù)。
首先先用loadXML將string轉(zhuǎn)化為DOMDocument對像, 再用getElementsByTagName轉(zhuǎn)化為DOMNodeList對像, 再使用->item(0)轉(zhuǎn)化為DOMNOde, 然后就可以使用上面的三種方法了。
對于 <aa color='red'>test</aa>這種xml標(biāo)簽, 要使用 attribute函數(shù)。
相關(guān)文章
php基于curl主動推送最新內(nèi)容給百度收錄的方法
這篇文章主要介紹了php基于curl主動推送最新內(nèi)容給百度收錄的方法,分析了百度鏈接的提交方式及curl主動推送的實(shí)現(xiàn)方法,需要的朋友可以參考下2016-10-10