比較discuz和ecshop的截取字符串函數(shù)php版
更新時(shí)間:2012年09月03日 23:58:22 作者:
網(wǎng)上看到一篇文章 discuz和ecshop截取字符串的兩個(gè)函數(shù),比較了一下兩個(gè)版本的函數(shù),都各有局限,只能在特定的前提下使用,但是學(xué)習(xí)一下有利于拓寬思路,了解PHP的擴(kuò)展功能
下面先給出兩個(gè)版本函數(shù)的源代碼以及簡單測試,最后我會(huì)給出一個(gè)實(shí)用性更強(qiáng)的字符串截取函數(shù)。需要注意的是:這里討論的字符串截取問題都是針對(duì)UTF-8編碼的中文字符串。
discuz版本
/**
* [discuz] 基于PHP沒有安裝 mb_substr 等擴(kuò)展截取字符串,如果截取中文字則按2個(gè)字符計(jì)算
* @param $string 要截取的字符串
* @param $length 要截取的字符數(shù)
* @param $dot 替換截掉部分的結(jié)尾字符串
* @return 返回截取后的字符串
*/
function cutstr($string, $length, $dot = '...') {
// 如果字符串小于要截取的長度則直接返回
// 此處使用strlen獲取字符串長度有很大的弊病,比如對(duì)字符串“新年快樂”要截取4個(gè)中文字符,
// 那么必須知道這4個(gè)中文字符的字節(jié)數(shù),否則返回的字符串可能會(huì)是“新年快樂...”
if (strlen($string) <= $length) {
return $string;
}
// 轉(zhuǎn)換原字符串中htmlspecialchars
$pre = chr(1);
$end = chr(1);
$string = str_replace ( array ('&', '"', '<', '>' ), array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), $string );
$strcut = ''; // 初始化返回值
// 如果是utf-8編碼(這個(gè)判斷有點(diǎn)不全,有可能是utf8)
if (strtolower ( CHARSET ) == 'utf-8') {
// 初始連續(xù)循環(huán)指針$n,最后一個(gè)字位數(shù)$tn,截取的字符數(shù)$noc
$n = $tn = $noc = 0;
while ( $n < strlen ( $string ) ) {
$t = ord ( $string [$n] );
if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
// 如果是英語半角符號(hào)等,$n指針后移1位,$tn最后字是1位
$tn = 1;
$n++;
$noc++;
} elseif (194 <= $t && $t <= 223) {
// 如果是二字節(jié)字符$n指針后移2位,$tn最后字是2位
$tn = 2;
$n += 2;
$noc += 2;
} elseif (224 <= $t && $t <= 239) {
// 如果是三字節(jié)(可以理解為中字詞),$n后移3位,$tn最后字是3位
$tn = 3;
$n += 3;
$noc += 2;
} elseif (240 <= $t && $t <= 247) {
$tn = 4;
$n += 4;
$noc += 2;
} elseif (248 <= $t && $t <= 251) {
$tn = 5;
$n += 5;
$noc += 2;
} elseif ($t == 252 || $t == 253) {
$tn = 6;
$n += 6;
$noc += 2;
} else {
$n++;
}
// 超過了要取的數(shù)就跳出連續(xù)循環(huán)
if ($noc >= $length) {
break;
}
}
// 這個(gè)地方是把最后一個(gè)字去掉,以備加$dot
if ($noc > $length) {
$n -= $tn;
}
$strcut = substr ( $string, 0, $n );
} else {
// 并非utf-8編碼的全角就后移2位
for ($i = 0; $i < $length; $i ++) {
$strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i];
}
}
// 再還原最初的htmlspecialchars
$strcut = str_replace( array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), array ('&', '"', '<', '>' ), $strcut );
$pos = strrpos ( $strcut, chr ( 1 ) );
if ($pos !== false) {
$strcut = substr ( $strcut, 0, $pos );
}
return $strcut . $dot; // 最后把截取加上$dot輸出
}
discuz版本的最大缺陷在于使用 strlen 獲取原始字符串的長度,并用來和傳入的要截取長度參數(shù)(字節(jié)數(shù))進(jìn)行比較,由于UTF-8的中文字符的字節(jié)數(shù)是不固定的,所以就會(huì)面臨這樣的窘境:如果要截取4個(gè)中文字符應(yīng)該指定多大的截取長度呢?8字節(jié)還是12字節(jié)呢?。。。這是無法預(yù)計(jì)的,也正是因?yàn)檫@個(gè)問題discuz的cutstr實(shí)際是有bug的,通過下面的測試結(jié)果能看出:
$str1 = "欲窮千里目";
echo my_cutstr($str1, 10, "...")."\n"; // 輸出:欲窮千里目... [這是一個(gè)bug,想想是什么原因?qū)е拢縘
echo my_cutstr($str1, 15, "...")."\n"; // 輸出:欲窮千里目
導(dǎo)致上述bug的原因在與cutstr函數(shù)在截取字符的時(shí)候是將一個(gè)中文字按2個(gè)字符算,那么5個(gè)中文字就是10字符,而原始字符串的長度是15字節(jié),所以cutstr認(rèn)為“成功地”從15字符的串上截取了10個(gè)字符,然后加上了“尾巴”。要解決這個(gè)bug只要在判斷一下返回的子串是否和原始串相同,如果相同就不加“尾巴”。
ecshop版
/**
* [ecshop] 基于PHP的 mb_substr,iconv_substr 這兩個(gè)擴(kuò)展來截取字符串,中文字符都是按1個(gè)字符長度計(jì)算;
* 該函數(shù)僅適用于utf-8編碼的中文字符串。
*
* @param $str 原始字符串
* @param $length 截取的字符數(shù)
* @param $append 替換截掉部分的結(jié)尾字符串
* @return 返回截取后的字符串
*/
function sub_str($str, $length = 0, $append = '...') {
$str = trim($str);
$strlength = strlen($str);
if ($length == 0 || $length >= $strlength) {
return $str;
} elseif ($length < 0) {
$length = $strlength + $length;
if ($length < 0) {
$length = $strlength;
}
}
if ( function_exists('mb_substr') ) {
$newstr = mb_substr($str, 0, $length, 'utf-8');
} elseif ( function_exists('iconv_substr') ) {
$newstr = iconv_substr($str, 0, $length, 'utf-8');
} else {
//$newstr = trim_right(substr($str, 0, $length));
$newstr = substr($str, 0, $length);
}
if ($append && $str != $newstr) {
$newstr .= $append;
}
return $newstr;
}
ecshop版的特點(diǎn)和缺點(diǎn)都在于將中文字符算作一個(gè)字符,如果原始字符串中不含中文,比如:abcd1234,如果本意是要截取4個(gè)中文字符或者8個(gè)英文字符,那么使用ecshop的版本就得不到期望的結(jié)果,返回值的是:abcd。下面是簡單的測試結(jié)果:
$str1 = "白日依山盡,黃河入海流";
echo $str1."\n";
echo my_sub_str($str1, 4, "...")."\n"; // 輸出:白日依山...
$str2 = "白1日2依3山4";
echo $str2."\n";
echo my_sub_str($str2, 4, "...")."\n"; // 輸出:白1日2...
優(yōu)化版
截取中文字符串的大部分應(yīng)用場景是“原始字符串可以是中文、英文、數(shù)字混雜的,中文字按2個(gè)字符算,英文數(shù)字按1個(gè)字符算”,針對(duì)這個(gè)需求下面給出一個(gè)實(shí)現(xiàn)版本:
/**
* 字符串截取,中文字符按2個(gè)字符計(jì)算,同時(shí)支持GBK和UTF-8編碼
* @param $string 要截取的字符串
* @param $length 要截取的字符數(shù)
* @param $append 添加到子串后的尾巴
* @return 返回截取后的字符串
*/
function substring($string, $length, $append = false) {
if ( $length <= 0 ) {
return '';
}
// 檢測原始字符串是否為UTF-8編碼
$is_utf8 = false;
$str1 = @iconv("UTF-8", "GBK", $string);
$str2 = @iconv("GBK", "UTF-8", $str1);
if ( $string == $str2 ) {
$is_utf8 = true;
// 如果是UTF-8編碼,則使用GBK編碼的
$string = $str1;
}
$newstr = '';
for ($i = 0; $i < $length; $i ++) {
$newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i];
}
if ( $is_utf8 ) {
$newstr = @iconv("GBK", "UTF-8", $newstr);
}
if ($append && $newstr != $string) {
$newstr .= $append;
}
return $newstr;
}
測試結(jié)果見下(GBK和UTF-8的結(jié)果一致):
$str1 = "白日依山盡,黃河入海流";
echo substring($str1, 4, "...")."\n"; // 輸出:白日...
echo substring($str1, 5, "...")."\n"; // 輸出:白日依...
$str2 = "12白34日56依78山";
echo substring($str2, 4, "...")."\n"; // 輸出:12白...
echo substring($str2, 5, "...")."\n"; // 輸出:12白3...
作者:edwardlost' blog
discuz版本
復(fù)制代碼 代碼如下:
/**
* [discuz] 基于PHP沒有安裝 mb_substr 等擴(kuò)展截取字符串,如果截取中文字則按2個(gè)字符計(jì)算
* @param $string 要截取的字符串
* @param $length 要截取的字符數(shù)
* @param $dot 替換截掉部分的結(jié)尾字符串
* @return 返回截取后的字符串
*/
function cutstr($string, $length, $dot = '...') {
// 如果字符串小于要截取的長度則直接返回
// 此處使用strlen獲取字符串長度有很大的弊病,比如對(duì)字符串“新年快樂”要截取4個(gè)中文字符,
// 那么必須知道這4個(gè)中文字符的字節(jié)數(shù),否則返回的字符串可能會(huì)是“新年快樂...”
if (strlen($string) <= $length) {
return $string;
}
// 轉(zhuǎn)換原字符串中htmlspecialchars
$pre = chr(1);
$end = chr(1);
$string = str_replace ( array ('&', '"', '<', '>' ), array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), $string );
$strcut = ''; // 初始化返回值
// 如果是utf-8編碼(這個(gè)判斷有點(diǎn)不全,有可能是utf8)
if (strtolower ( CHARSET ) == 'utf-8') {
// 初始連續(xù)循環(huán)指針$n,最后一個(gè)字位數(shù)$tn,截取的字符數(shù)$noc
$n = $tn = $noc = 0;
while ( $n < strlen ( $string ) ) {
$t = ord ( $string [$n] );
if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
// 如果是英語半角符號(hào)等,$n指針后移1位,$tn最后字是1位
$tn = 1;
$n++;
$noc++;
} elseif (194 <= $t && $t <= 223) {
// 如果是二字節(jié)字符$n指針后移2位,$tn最后字是2位
$tn = 2;
$n += 2;
$noc += 2;
} elseif (224 <= $t && $t <= 239) {
// 如果是三字節(jié)(可以理解為中字詞),$n后移3位,$tn最后字是3位
$tn = 3;
$n += 3;
$noc += 2;
} elseif (240 <= $t && $t <= 247) {
$tn = 4;
$n += 4;
$noc += 2;
} elseif (248 <= $t && $t <= 251) {
$tn = 5;
$n += 5;
$noc += 2;
} elseif ($t == 252 || $t == 253) {
$tn = 6;
$n += 6;
$noc += 2;
} else {
$n++;
}
// 超過了要取的數(shù)就跳出連續(xù)循環(huán)
if ($noc >= $length) {
break;
}
}
// 這個(gè)地方是把最后一個(gè)字去掉,以備加$dot
if ($noc > $length) {
$n -= $tn;
}
$strcut = substr ( $string, 0, $n );
} else {
// 并非utf-8編碼的全角就后移2位
for ($i = 0; $i < $length; $i ++) {
$strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i];
}
}
// 再還原最初的htmlspecialchars
$strcut = str_replace( array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), array ('&', '"', '<', '>' ), $strcut );
$pos = strrpos ( $strcut, chr ( 1 ) );
if ($pos !== false) {
$strcut = substr ( $strcut, 0, $pos );
}
return $strcut . $dot; // 最后把截取加上$dot輸出
}
discuz版本的最大缺陷在于使用 strlen 獲取原始字符串的長度,并用來和傳入的要截取長度參數(shù)(字節(jié)數(shù))進(jìn)行比較,由于UTF-8的中文字符的字節(jié)數(shù)是不固定的,所以就會(huì)面臨這樣的窘境:如果要截取4個(gè)中文字符應(yīng)該指定多大的截取長度呢?8字節(jié)還是12字節(jié)呢?。。。這是無法預(yù)計(jì)的,也正是因?yàn)檫@個(gè)問題discuz的cutstr實(shí)際是有bug的,通過下面的測試結(jié)果能看出:
復(fù)制代碼 代碼如下:
$str1 = "欲窮千里目";
echo my_cutstr($str1, 10, "...")."\n"; // 輸出:欲窮千里目... [這是一個(gè)bug,想想是什么原因?qū)е拢縘
echo my_cutstr($str1, 15, "...")."\n"; // 輸出:欲窮千里目
導(dǎo)致上述bug的原因在與cutstr函數(shù)在截取字符的時(shí)候是將一個(gè)中文字按2個(gè)字符算,那么5個(gè)中文字就是10字符,而原始字符串的長度是15字節(jié),所以cutstr認(rèn)為“成功地”從15字符的串上截取了10個(gè)字符,然后加上了“尾巴”。要解決這個(gè)bug只要在判斷一下返回的子串是否和原始串相同,如果相同就不加“尾巴”。
ecshop版
復(fù)制代碼 代碼如下:
/**
* [ecshop] 基于PHP的 mb_substr,iconv_substr 這兩個(gè)擴(kuò)展來截取字符串,中文字符都是按1個(gè)字符長度計(jì)算;
* 該函數(shù)僅適用于utf-8編碼的中文字符串。
*
* @param $str 原始字符串
* @param $length 截取的字符數(shù)
* @param $append 替換截掉部分的結(jié)尾字符串
* @return 返回截取后的字符串
*/
function sub_str($str, $length = 0, $append = '...') {
$str = trim($str);
$strlength = strlen($str);
if ($length == 0 || $length >= $strlength) {
return $str;
} elseif ($length < 0) {
$length = $strlength + $length;
if ($length < 0) {
$length = $strlength;
}
}
if ( function_exists('mb_substr') ) {
$newstr = mb_substr($str, 0, $length, 'utf-8');
} elseif ( function_exists('iconv_substr') ) {
$newstr = iconv_substr($str, 0, $length, 'utf-8');
} else {
//$newstr = trim_right(substr($str, 0, $length));
$newstr = substr($str, 0, $length);
}
if ($append && $str != $newstr) {
$newstr .= $append;
}
return $newstr;
}
ecshop版的特點(diǎn)和缺點(diǎn)都在于將中文字符算作一個(gè)字符,如果原始字符串中不含中文,比如:abcd1234,如果本意是要截取4個(gè)中文字符或者8個(gè)英文字符,那么使用ecshop的版本就得不到期望的結(jié)果,返回值的是:abcd。下面是簡單的測試結(jié)果:
復(fù)制代碼 代碼如下:
$str1 = "白日依山盡,黃河入海流";
echo $str1."\n";
echo my_sub_str($str1, 4, "...")."\n"; // 輸出:白日依山...
$str2 = "白1日2依3山4";
echo $str2."\n";
echo my_sub_str($str2, 4, "...")."\n"; // 輸出:白1日2...
優(yōu)化版
截取中文字符串的大部分應(yīng)用場景是“原始字符串可以是中文、英文、數(shù)字混雜的,中文字按2個(gè)字符算,英文數(shù)字按1個(gè)字符算”,針對(duì)這個(gè)需求下面給出一個(gè)實(shí)現(xiàn)版本:
復(fù)制代碼 代碼如下:
/**
* 字符串截取,中文字符按2個(gè)字符計(jì)算,同時(shí)支持GBK和UTF-8編碼
* @param $string 要截取的字符串
* @param $length 要截取的字符數(shù)
* @param $append 添加到子串后的尾巴
* @return 返回截取后的字符串
*/
function substring($string, $length, $append = false) {
if ( $length <= 0 ) {
return '';
}
// 檢測原始字符串是否為UTF-8編碼
$is_utf8 = false;
$str1 = @iconv("UTF-8", "GBK", $string);
$str2 = @iconv("GBK", "UTF-8", $str1);
if ( $string == $str2 ) {
$is_utf8 = true;
// 如果是UTF-8編碼,則使用GBK編碼的
$string = $str1;
}
$newstr = '';
for ($i = 0; $i < $length; $i ++) {
$newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i];
}
if ( $is_utf8 ) {
$newstr = @iconv("GBK", "UTF-8", $newstr);
}
if ($append && $newstr != $string) {
$newstr .= $append;
}
return $newstr;
}
測試結(jié)果見下(GBK和UTF-8的結(jié)果一致):
復(fù)制代碼 代碼如下:
$str1 = "白日依山盡,黃河入海流";
echo substring($str1, 4, "...")."\n"; // 輸出:白日...
echo substring($str1, 5, "...")."\n"; // 輸出:白日依...
$str2 = "12白34日56依78山";
echo substring($str2, 4, "...")."\n"; // 輸出:12白...
echo substring($str2, 5, "...")."\n"; // 輸出:12白3...
作者:edwardlost' blog
相關(guān)文章
PHP下escape解碼函數(shù)的實(shí)現(xiàn)方法
很多時(shí)候需要用到j(luò)s的escape函數(shù)來轉(zhuǎn)換中文字符,可是用js轉(zhuǎn)換后的字符怎么用php來轉(zhuǎn)換回來呢,下面我就找到了兩個(gè)很實(shí)用的函數(shù)。2010-08-08學(xué)習(xí)php設(shè)計(jì)模式 php實(shí)現(xiàn)策略模式(strategy)
這篇文章主要介紹了php設(shè)計(jì)模式中的適配器模式,使用php實(shí)現(xiàn)適配器模式,感興趣的小伙伴們可以參考一下2015-12-12PHP文件去掉PHP注釋空格的函數(shù)分析(PHP代碼壓縮)
我自己嘗試過正則,但是發(fā)現(xiàn)在過濾單行注釋等方面不盡如意,很容易出錯(cuò)。無意中看到了某sns里面的strip_whitespace函數(shù),特進(jìn)行分享,希望能對(duì)需要的朋友有所幫助2013-07-07PHP中key和current,next的聯(lián)合運(yùn)用實(shí)例分析
這篇文章主要介紹了PHP中key和current,next的聯(lián)合運(yùn)用,結(jié)合實(shí)例形式分析了key和current,next操作數(shù)組元素的相關(guān)技巧,需要的朋友可以參考下2016-03-03PHP實(shí)現(xiàn)的XML操作類【XML Library】
這篇文章主要介紹了PHP實(shí)現(xiàn)的XML操作類,涉及php針對(duì)數(shù)組、xml的轉(zhuǎn)換、序列化、反序列化等相關(guān)操作技巧,需要的朋友可以參考下2016-12-12PHP調(diào)用存儲(chǔ)過程返回值不一致問題的解決方法分析
這篇文章主要介紹了PHP調(diào)用存儲(chǔ)過程返回值不一致問題的解決方法,結(jié)合實(shí)例形式分析了存儲(chǔ)過程調(diào)用返回值不一致的原因與解決方法,需要的朋友可以參考下2016-04-04PHP學(xué)習(xí)的技巧和學(xué)習(xí)的要素總結(jié)
在本篇文章里小編給大家整理的是一篇關(guān)于PHP學(xué)習(xí)的技巧和學(xué)習(xí)的要素總結(jié)內(nèi)容,需要的朋友們可以參考下。2020-01-01