trim原型函數(shù)看js正則表達(dá)式的性能
更新時(shí)間:2008年12月10日 18:07:47 作者:
如果你看到別人寫(xiě)trim函數(shù)是用循環(huán)而不用正則表達(dá)式來(lái)寫(xiě),請(qǐng)不要取笑,也許,他們就是高手。如果你很自信你的trim函數(shù)效率很高,請(qǐng)看完本文再下結(jié)論。
一般情況下用正則寫(xiě)法為:
[Ctrl+A 全選 注:引入外部Js需再刷新一下頁(yè)面才能執(zhí)行]
如果遇到大數(shù)據(jù)的變長(zhǎng)字符串的話(huà)就會(huì)發(fā)現(xiàn)這個(gè)是很耗資源的。效率并不高,有的時(shí)候甚至無(wú)法忍受。
在解釋這個(gè)原因的時(shí)候想起以前看到master regular expression里面有提到過(guò)。NFA和DFA的引擎是有區(qū)別的。js/perl/php/java/.net都是NFA引擎。
而DFA與NFA機(jī)制上的不同帶來(lái)5個(gè)影響:
1. DFA對(duì)于文本串里的每一個(gè)字符只需掃描一次,比較快,但特性較少;NFA要翻來(lái)覆去吃字符、吐字符,速度慢,但是特性豐富,所以反而應(yīng)用廣泛,當(dāng)今主要的正則表達(dá)式引擎,如Perl、Ruby、Python的re模塊、Java和.NET的regex庫(kù),都是NFA的。
2. 只有NFA才支持lazy和backreference(后向引用)等特性;
3. NFA急于邀功請(qǐng)賞,所以最左子正則式優(yōu)先匹配成功,因此偶爾會(huì)錯(cuò)過(guò)最佳匹配結(jié)果;DFA則是“最長(zhǎng)的左子正則式優(yōu)先匹配成功”。
4. NFA缺省采用greedy量詞(就是對(duì)于/.*/、/\w+/這樣的“重復(fù)n”次的模式,以貪婪方式進(jìn)行,盡可能匹配更多字符,直到不得以罷手為止),NFA會(huì)優(yōu)先匹配量詞。
5. NFA可能會(huì)陷入遞歸調(diào)用的陷阱而表現(xiàn)得性能極差。
backtracking(回朔)
當(dāng)NFA發(fā)現(xiàn)自己吃多了,一個(gè)一個(gè)往回吐,邊吐邊找匹配,這個(gè)過(guò)程叫做backtracking。由于存在這個(gè)過(guò)程,在NFA匹配過(guò)程中,特別是在編寫(xiě)不合理的正則式匹配過(guò)程中,文本被反復(fù)掃描,效率損失是不小的。明白這個(gè)道理,對(duì)于寫(xiě)出高效的正則表達(dá)式很有幫助。
定位/分析原因
在解釋上面的trim原型方法的時(shí)候。經(jīng)過(guò)測(cè)試,先不說(shuō)結(jié)果是否正確,有幾個(gè)方法是可以化解JS NFA引擎的回朔次數(shù)的
a. 去掉限定的量詞,即改成
String.prototype.trim = function () {
return this.replace(/^[\s\t ]+|[\s\t ]$/g, '');
}
b. 去掉字符串尾匹配。即改成:
String.prototype.trim = function () {
return this.replace(/^[\s\t ]+/g, '');
}
c.加入多行匹配。即改成:
String.prototype.trim = function () {
return this.replace(/^[\s\t ]+|[\s\t ]+$/mg, '');
}
從以上三種改法結(jié)合文中開(kāi)頭的NFA資料,我們可以大概的知道trim性能出現(xiàn)問(wèn)題的原因
量詞限定將優(yōu)先匹配。
量詞限定在結(jié)尾可能會(huì)使JS的正則引擎不停的回朔,出現(xiàn)遞歸的一個(gè)陷阱,這個(gè)遞歸的深度太深。如果字符串更大一點(diǎn)應(yīng)該會(huì)出現(xiàn)棧溢出了。
多行既然能夠匹配,而且性能消耗不大。性能上沒(méi)有任何問(wèn)題,從一個(gè)寫(xiě)這個(gè)正則程序的人角度上去看,多行明顯比單行要替換的空串多得多。所以第二點(diǎn)的結(jié)論應(yīng)該是對(duì)的
改良
首先確定匹配字符串的開(kāi)始正則是沒(méi)有任何效率問(wèn)題的。而匹配結(jié)束的時(shí)候會(huì)出現(xiàn)性能問(wèn)題,那可以采用正則與傳統(tǒng)相結(jié)合來(lái)改善這個(gè)trim性能問(wèn)題。
例如:
[Ctrl+A 全選 注:引入外部Js需再刷新一下頁(yè)面才能執(zhí)行]
如果遇到大數(shù)據(jù)的變長(zhǎng)字符串的話(huà)就會(huì)發(fā)現(xiàn)這個(gè)是很耗資源的。效率并不高,有的時(shí)候甚至無(wú)法忍受。
在解釋這個(gè)原因的時(shí)候想起以前看到master regular expression里面有提到過(guò)。NFA和DFA的引擎是有區(qū)別的。js/perl/php/java/.net都是NFA引擎。
而DFA與NFA機(jī)制上的不同帶來(lái)5個(gè)影響:
1. DFA對(duì)于文本串里的每一個(gè)字符只需掃描一次,比較快,但特性較少;NFA要翻來(lái)覆去吃字符、吐字符,速度慢,但是特性豐富,所以反而應(yīng)用廣泛,當(dāng)今主要的正則表達(dá)式引擎,如Perl、Ruby、Python的re模塊、Java和.NET的regex庫(kù),都是NFA的。
2. 只有NFA才支持lazy和backreference(后向引用)等特性;
3. NFA急于邀功請(qǐng)賞,所以最左子正則式優(yōu)先匹配成功,因此偶爾會(huì)錯(cuò)過(guò)最佳匹配結(jié)果;DFA則是“最長(zhǎng)的左子正則式優(yōu)先匹配成功”。
4. NFA缺省采用greedy量詞(就是對(duì)于/.*/、/\w+/這樣的“重復(fù)n”次的模式,以貪婪方式進(jìn)行,盡可能匹配更多字符,直到不得以罷手為止),NFA會(huì)優(yōu)先匹配量詞。
5. NFA可能會(huì)陷入遞歸調(diào)用的陷阱而表現(xiàn)得性能極差。
backtracking(回朔)
當(dāng)NFA發(fā)現(xiàn)自己吃多了,一個(gè)一個(gè)往回吐,邊吐邊找匹配,這個(gè)過(guò)程叫做backtracking。由于存在這個(gè)過(guò)程,在NFA匹配過(guò)程中,特別是在編寫(xiě)不合理的正則式匹配過(guò)程中,文本被反復(fù)掃描,效率損失是不小的。明白這個(gè)道理,對(duì)于寫(xiě)出高效的正則表達(dá)式很有幫助。
定位/分析原因
在解釋上面的trim原型方法的時(shí)候。經(jīng)過(guò)測(cè)試,先不說(shuō)結(jié)果是否正確,有幾個(gè)方法是可以化解JS NFA引擎的回朔次數(shù)的
a. 去掉限定的量詞,即改成
復(fù)制代碼 代碼如下:
String.prototype.trim = function () {
return this.replace(/^[\s\t ]+|[\s\t ]$/g, '');
}
b. 去掉字符串尾匹配。即改成:
復(fù)制代碼 代碼如下:
String.prototype.trim = function () {
return this.replace(/^[\s\t ]+/g, '');
}
c.加入多行匹配。即改成:
復(fù)制代碼 代碼如下:
String.prototype.trim = function () {
return this.replace(/^[\s\t ]+|[\s\t ]+$/mg, '');
}
從以上三種改法結(jié)合文中開(kāi)頭的NFA資料,我們可以大概的知道trim性能出現(xiàn)問(wèn)題的原因
量詞限定將優(yōu)先匹配。
量詞限定在結(jié)尾可能會(huì)使JS的正則引擎不停的回朔,出現(xiàn)遞歸的一個(gè)陷阱,這個(gè)遞歸的深度太深。如果字符串更大一點(diǎn)應(yīng)該會(huì)出現(xiàn)棧溢出了。
多行既然能夠匹配,而且性能消耗不大。性能上沒(méi)有任何問(wèn)題,從一個(gè)寫(xiě)這個(gè)正則程序的人角度上去看,多行明顯比單行要替換的空串多得多。所以第二點(diǎn)的結(jié)論應(yīng)該是對(duì)的
改良
首先確定匹配字符串的開(kāi)始正則是沒(méi)有任何效率問(wèn)題的。而匹配結(jié)束的時(shí)候會(huì)出現(xiàn)性能問(wèn)題,那可以采用正則與傳統(tǒng)相結(jié)合來(lái)改善這個(gè)trim性能問(wèn)題。
例如:
您可能感興趣的文章:
- javascript 手機(jī)號(hào)碼正則表達(dá)式驗(yàn)證函數(shù)
- js正則函數(shù)match、exec、test、search、replace、split使用介紹集合
- js 正則表達(dá)式之test函數(shù)講解
- JS驗(yàn)證URL函數(shù) 正則
- js 替換功能函數(shù),用正則表達(dá)式解決,js的全部替換
- js正則表達(dá)式之match函數(shù)講解
- JavaScript基于正則表達(dá)式的數(shù)字判斷函數(shù)
- 用正則表達(dá)式判斷字符串是漢字還是拼音的js函數(shù)代碼
- Js 小數(shù)驗(yàn)證函數(shù)代碼(基于正則)
- js正則表達(dá)式之replace函數(shù)用法
- javascript中基于replace函數(shù)的正則表達(dá)式語(yǔ)法
- JavaScript 正則表達(dá)式驗(yàn)證函數(shù)代碼
- JavaScript常用正則函數(shù)用法示例
相關(guān)文章
JavaScript計(jì)算字符串實(shí)際長(zhǎng)度方法示例
這篇文章主要為大家介紹了JavaScript計(jì)算字符串實(shí)際長(zhǎng)度方法示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-08-08javascript htmlencode函數(shù)(ff兼容版) 主要是編輯器中反轉(zhuǎn)html代碼
非常不錯(cuò)的htmlencode 方法,比用正則實(shí)現(xiàn)的更好,而且效率高,推薦使用第一種方法。2009-06-06js console.log打印對(duì)像與數(shù)組用法詳解
這篇文章主要介紹了js console.log打印對(duì)像與數(shù)組用法,結(jié)合實(shí)例形式較為詳細(xì)的分析了js使用console.log實(shí)現(xiàn)打印對(duì)象與數(shù)組的具體實(shí)現(xiàn)步驟與相關(guān)技巧,需要的朋友可以參考下2016-01-01