快捷導航

比較discuz和ecshop的截取字符串函數(shù)php版

更新時間：2012年09月03日 23:58:22 作者：

網(wǎng)上看到一篇文章 discuz和ecshop截取字符串的兩個函數(shù)，比較了一下兩個版本的函數(shù)，都各有局限，只能在特定的前提下使用，但是學習一下有利于拓寬思路，了解PHP的擴展功能

下面先給出兩個版本函數(shù)的源代碼以及簡單測試，最后我會給出一個實用性更強的字符串截取函數(shù)。需要注意的是：這里討論的字符串截取問題都是針對UTF-8編碼的中文字符串。
discuz版本

 
/** 
* [discuz] 基于PHP沒有安裝 mb_substr 等擴展截取字符串，如果截取中文字則按2個字符計算 
* @param $string 要截取的字符串 
* @param $length 要截取的字符數(shù) 
* @param $dot 替換截掉部分的結(jié)尾字符串 
* @return 返回截取后的字符串 
*/ 
function cutstr($string, $length, $dot = '...') { 
// 如果字符串小于要截取的長度則直接返回 
// 此處使用strlen獲取字符串長度有很大的弊病，比如對字符串“新年快樂”要截取4個中文字符， 
// 那么必須知道這4個中文字符的字節(jié)數(shù)，否則返回的字符串可能會是“新年快樂...” 
if (strlen($string) <= $length) { 
return $string; 
} 
// 轉(zhuǎn)換原字符串中htmlspecialchars 
$pre = chr(1); 
$end = chr(1); 
$string = str_replace ( array ('&amp;', '&quot;', '&lt;', '&gt;' ), array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), $string ); 
$strcut = ''; // 初始化返回值 
// 如果是utf-8編碼(這個判斷有點不全,有可能是utf8) 
if (strtolower ( CHARSET ) == 'utf-8') { 
// 初始連續(xù)循環(huán)指針$n,最后一個字位數(shù)$tn,截取的字符數(shù)$noc 
$n = $tn = $noc = 0; 
while ( $n < strlen ( $string ) ) { 
$t = ord ( $string [$n] ); 
if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { 
// 如果是英語半角符號等,$n指針后移1位,$tn最后字是1位 
$tn = 1; 
$n++; 
$noc++; 
} elseif (194 <= $t && $t <= 223) { 
// 如果是二字節(jié)字符$n指針后移2位,$tn最后字是2位 
$tn = 2; 
$n += 2; 
$noc += 2; 
} elseif (224 <= $t && $t <= 239) { 
// 如果是三字節(jié)(可以理解為中字詞),$n后移3位,$tn最后字是3位 
$tn = 3; 
$n += 3; 
$noc += 2; 
} elseif (240 <= $t && $t <= 247) { 
$tn = 4; 
$n += 4; 
$noc += 2; 
} elseif (248 <= $t && $t <= 251) { 
$tn = 5; 
$n += 5; 
$noc += 2; 
} elseif ($t == 252 || $t == 253) { 
$tn = 6; 
$n += 6; 
$noc += 2; 
} else { 
$n++; 
} 
// 超過了要取的數(shù)就跳出連續(xù)循環(huán) 
if ($noc >= $length) { 
break; 
} 
} 
// 這個地方是把最后一個字去掉,以備加$dot 
if ($noc > $length) { 
$n -= $tn; 
} 
$strcut = substr ( $string, 0, $n ); 
} else { 
// 并非utf-8編碼的全角就后移2位 
for ($i = 0; $i < $length; $i ++) { 
$strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i]; 
} 
} 
// 再還原最初的htmlspecialchars 
$strcut = str_replace( array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), array ('&amp;', '&quot;', '&lt;', '&gt;' ), $strcut ); 
$pos = strrpos ( $strcut, chr ( 1 ) ); 
if ($pos !== false) { 
$strcut = substr ( $strcut, 0, $pos ); 
} 
return $strcut . $dot; // 最后把截取加上$dot輸出 
} 

discuz版本的最大缺陷在于使用 strlen 獲取原始字符串的長度，并用來和傳入的要截取長度參數(shù)（字節(jié)數(shù)）進行比較，由于UTF-8的中文字符的字節(jié)數(shù)是不固定的，所以就會面臨這樣的窘境：如果要截取4個中文字符應(yīng)該指定多大的截取長度呢？8字節(jié)還是12字節(jié)呢？。。。這是無法預計的，也正是因為這個問題discuz的cutstr實際是有bug的，通過下面的測試結(jié)果能看出：

復制代碼代碼如下:

 
$str1 = "欲窮千里目"; 
echo my_cutstr($str1, 10, "...")."\n"; // 輸出：欲窮千里目... [這是一個bug，想想是什么原因?qū)е拢縘 
echo my_cutstr($str1, 15, "...")."\n"; // 輸出：欲窮千里目 

導致上述bug的原因在與cutstr函數(shù)在截取字符的時候是將一個中文字按2個字符算，那么5個中文字就是10字符，而原始字符串的長度是15字節(jié)，所以cutstr認為“成功地”從15字符的串上截取了10個字符，然后加上了“尾巴”。要解決這個bug只要在判斷一下返回的子串是否和原始串相同，如果相同就不加“尾巴”。
ecshop版

復制代碼代碼如下:

 
/** 
* [ecshop] 基于PHP的 mb_substr，iconv_substr 這兩個擴展來截取字符串，中文字符都是按1個字符長度計算； 
* 該函數(shù)僅適用于utf-8編碼的中文字符串。 
* 
* @param $str 原始字符串 
* @param $length 截取的字符數(shù) 
* @param $append 替換截掉部分的結(jié)尾字符串 
* @return 返回截取后的字符串 
*/ 
function sub_str($str, $length = 0, $append = '...') { 
$str = trim($str); 
$strlength = strlen($str); 
if ($length == 0 || $length >= $strlength) { 
return $str; 
} elseif ($length < 0) { 
$length = $strlength + $length; 
if ($length < 0) { 
$length = $strlength; 
} 
} 
if ( function_exists('mb_substr') ) { 
$newstr = mb_substr($str, 0, $length, 'utf-8'); 
} elseif ( function_exists('iconv_substr') ) { 
$newstr = iconv_substr($str, 0, $length, 'utf-8'); 
} else { 
//$newstr = trim_right(substr($str, 0, $length)); 
$newstr = substr($str, 0, $length); 
} 
if ($append && $str != $newstr) { 
$newstr .= $append; 
} 
return $newstr; 
} 

ecshop版的特點和缺點都在于將中文字符算作一個字符，如果原始字符串中不含中文，比如：abcd1234，如果本意是要截取4個中文字符或者8個英文字符，那么使用ecshop的版本就得不到期望的結(jié)果，返回值的是：abcd。下面是簡單的測試結(jié)果：

復制代碼代碼如下:

 
$str1 = "白日依山盡，黃河入海流"; 
echo $str1."\n"; 
echo my_sub_str($str1, 4, "...")."\n"; // 輸出：白日依山... 
$str2 = "白1日2依3山4"; 
echo $str2."\n"; 
echo my_sub_str($str2, 4, "...")."\n"; // 輸出：白1日2... 

優(yōu)化版
截取中文字符串的大部分應(yīng)用場景是“原始字符串可以是中文、英文、數(shù)字混雜的，中文字按2個字符算，英文數(shù)字按1個字符算”，針對這個需求下面給出一個實現(xiàn)版本：

復制代碼代碼如下:

 
/** 
* 字符串截取，中文字符按2個字符計算，同時支持GBK和UTF-8編碼 
* @param $string 要截取的字符串 
* @param $length 要截取的字符數(shù) 
* @param $append 添加到子串后的尾巴 
* @return 返回截取后的字符串 
*/ 
function substring($string, $length, $append = false) { 
if ( $length <= 0 ) { 
return ''; 
} 
// 檢測原始字符串是否為UTF-8編碼 
$is_utf8 = false; 
$str1 = @iconv("UTF-8", "GBK", $string); 
$str2 = @iconv("GBK", "UTF-8", $str1); 
if ( $string == $str2 ) { 
$is_utf8 = true; 
// 如果是UTF-8編碼，則使用GBK編碼的 
$string = $str1; 
} 
$newstr = ''; 
for ($i = 0; $i < $length; $i ++) { 
$newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i]; 
} 
if ( $is_utf8 ) { 
$newstr = @iconv("GBK", "UTF-8", $newstr); 
} 
if ($append && $newstr != $string) { 
$newstr .= $append; 
} 
return $newstr; 
} 

測試結(jié)果見下（GBK和UTF-8的結(jié)果一致）:

復制代碼代碼如下:

 
$str1 = "白日依山盡，黃河入海流"; 
echo substring($str1, 4, "...")."\n"; // 輸出：白日... 
echo substring($str1, 5, "...")."\n"; // 輸出：白日依... 
$str2 = "12白34日56依78山"; 
echo substring($str2, 4, "...")."\n"; // 輸出：12白... 
echo substring($str2, 5, "...")."\n"; // 輸出：12白3... 

作者：edwardlost' blog

您可能感興趣的文章: