欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

小談php正則提取圖片地址

 更新時(shí)間:2014年03月27日 11:39:43   投稿:mdxy-dxy  
最近在開發(fā)程序的時(shí)候需要獲取提取內(nèi)容中的圖片地址,這里簡單分享下方法,需要的朋友可以參考下

迷上了正則,不斷嘗試著新花招,首先感謝TNA 的非完全輸出RSS,然后再次感謝SH的強(qiáng)迫性學(xué)習(xí)。沒有TNA,我不會(huì)去看正則,更不知道世界上有種這么牛的表達(dá)式;不是SH的死活說他不懂不知道,我也不會(huì)硬著頭皮去琢磨,去改進(jìn)。達(dá)到同一個(gè)目的,正則的表達(dá)方式可以不唯一,沒有做不到,只有你沒想到??梢赃@樣說吧,正則就是玩設(shè)定規(guī)律,我大愛這種東西。沒有比設(shè)定規(guī)律篩選東西更讓我興奮、感到awesome的了。

分享一下在php環(huán)境下使用正則提取圖片地址的一些小心得:

圖片網(wǎng)址規(guī)范的html代碼無非就是

復(fù)制代碼 代碼如下:

<img title="囧2" src="http://www.xlanda.net/wp-admin/%E5%9B%A73" alt="囧4" title="囧2" width="5" height="6" />

囧1和囧2是非必需的,若要通過XHTML認(rèn)證囧4、囧5、囧6必不可少,囧3是核心內(nèi)容,當(dāng)然就不能少了。

就正則談?wù)齽t的話,我寫出的最短匹配是

復(fù)制代碼 代碼如下:

(?<=img.+?src=").*?(?=")

不過,這條在php里不行,會(huì)出現(xiàn):

Warning: preg_match_all() [function.preg-match-all]: Compilation failed: lookbehind assertion is not fixed length at offset *** in ***

糾結(jié)了很久,都不行,原因何在呢?試了很多次,終于發(fā)現(xiàn)問題在(?<=img.+?src=")這個(gè)零寬斷言里,在php中,零寬斷言里不支持類似“*”、“+”這些無限次的東西,于是報(bào)錯(cuò)了,把“.+?”改為定長就好。不過,要“img”和“src=”之間定長基本上是不可能的。通常,圖片地址的img和src只會(huì)相隔一個(gè)很簡單的空格,但不排除某些情況在src之前,img后有alt、titlte等東西。

所以

復(fù)制代碼 代碼如下:

(?<=img.src=").*?(?=")


復(fù)制代碼 代碼如下:

(?<=img\ssrc=").*?(?=")

可能可以,但不保證100%沒問題。

你也許會(huì)問,單純

復(fù)制代碼 代碼如下:

(?<=src=").*?(?=")

不行嗎?通常情況,可以,但,搜索過頁面的盆友應(yīng)該知道,除了圖片地址用src開頭以外,javascript地址也用src開頭!而且,太多神通廣大的不可預(yù)知因素隱含其中,于是這個(gè)貌似很簡短完美的寫法就行不通了。

你又或許會(huì)問,聰明簡短的不行,我把圖片的后綴列出來,總該可以了吧,如

復(fù)制代碼 代碼如下:

(?<=src=").*?\.(jpg|jpeg|gif|png|bmp|JPG|JPEG|GIF|PNG|BMP)

的確,這個(gè)寫法實(shí)在是很老實(shí),不過,你見過沒有后綴的圖片?wwe.com 有很多這種例子呢

RAW http://us.wwe.com/content/media/images/Headers/15559182
SmackDown http://us.wwe.com/content/media/images/Headers/15854138
NXT http://us.wwe.com/content/media/images/Headers/15929136
Superstars http://us.wwe.com/content/media/images/Headers/15815850

上面的網(wǎng)址都是圖片,但都沒有傳統(tǒng)后綴,你老實(shí)也沒用,還是不能獲取到它們。

怎么辦呢?還可以這樣

復(fù)制代碼 代碼如下:

<img(.*?)src="(.*?)(?=")

和上面的表達(dá)式不同,這次的結(jié)果中array[0]的內(nèi)容不是我們想要的,我們要的圖片地址在array[2]里。為什么呢?因?yàn)槲覀冇昧?個(gè) (.*?),每個(gè)“()”的東西會(huì)自動(dòng)存在一個(gè)組里,而array[0]代表結(jié)果的匯總,array[1]包含了img和src里的所有東西,array[2]才輪到我們想要的圖片地址。這種匹配方法,既能匹配有傳統(tǒng)后綴的圖片,也能匹配一些無后綴的圖片文件,同時(shí)又不會(huì)錯(cuò)其它src=文件。個(gè)人感覺還是不錯(cuò)的,呵呵。當(dāng)然了,如果你還有更好的建議,請馬上留言,感謝你!

你到底要什么樣的圖片,是固定格式還是其它?得具體情況具體分析呢。

我的建議是:

如果你要的圖片地址的格式是img空格src=的,請使用:(?<=img.src=").*?(?=") ,數(shù)組唯一,你懂的。

否則,請使用<img(.*?)src="(.*?)(?=") ,記得留意有用內(nèi)容所在的數(shù)組位置哦!

再談php正則提取圖片地址

前天寫了小談php正則提取圖片地址 ,但其實(shí),提取src=里面的圖片地址還不足夠,因?yàn)椴荒鼙WC那個(gè)地址一定是絕對地址,完全的地址,如果那是相對的呢?如果地址諸如:

albums/Candids/thumb_P1050338.jpg
/content/media/touts/5271608/5271654/15320982

那該如何是好?

有時(shí)在這些地址前面需要加http://example1.com/ ,有些甚至要加http://example1.com/example2/.../ 于是,要寫出出一種法則符合所有要求,簡直是天方夜譚。只能見機(jī)行事對癥下藥。有時(shí),需要從前面動(dòng)刀,有時(shí)需要從后面砍斷。

今天,我驚訝地知道了一個(gè)道理,原來http://example.com/ 和http://example.com////// 是一樣的!

http://img3.douban.com/pics/nav/lg_main_a6.png

http://img3.douban.com////pics////nav///lg_main_a6.png

最終你都能到達(dá)

于是,對于一開始提到的兩個(gè)相對地址如果要強(qiáng)行加入某前綴恢復(fù)成絕對地址的話,也不管前面有沒有“/”,只管加一個(gè)“/”就好,“有殺錯(cuò),沒放過” 嘛,多一個(gè)顯示仍會(huì)正常,但少一個(gè)“/”,嘿嘿,你就別想成功了。開始的時(shí)候我還沒意識(shí)到這種東西,復(fù)制了一大段代碼,把一樣的東西硬生生弄兩份,一份加 “./.”,一份不加。我這個(gè)火星來的,浪費(fèi)時(shí)間了。

放出2個(gè)地址,公測一下網(wǎng)頁獲取圖片的情況:

針對任何網(wǎng)頁,需要登入的除外:http://xyark.serw5.com/img.php
針對Coppermine Photo Gallery 系統(tǒng):http://xyark.serw5.com/g.php (如果你認(rèn)為彈出原圖的js頁面也需要的話,我只好囧你了)

普頁是個(gè)對抓取任何圖片的嘗試,系統(tǒng)專頁是為了展示什么叫做具體情況具體分析。試過的童鞋會(huì)知道,普頁對某些使用Coppermine Photo Gallery系統(tǒng)的網(wǎng)站是行不通的,原因何在?就是那個(gè)前綴搞的鬼!但系統(tǒng)專頁就能很好地避開了這個(gè)問題。

如果大家在測試時(shí)發(fā)現(xiàn)任何bug,歡迎留言告知。請低調(diào)測試,謝謝合作。

注:以上話題純粹出于就正則談?wù)齽t,光技術(shù)談技術(shù),不可作非正當(dāng)用途。若非正當(dāng)使用而引發(fā)任何杯具、餐具本人概不負(fù)責(zé)。

轉(zhuǎn)載時(shí)請以超鏈接形式標(biāo)明文章原始出處和作者信息及本聲明
http://www.blogbus.com/xrspook-logs/85330456.html

相關(guān)文章

  • PHP批斗大會(huì)之缺失的異常詳解

    PHP批斗大會(huì)之缺失的異常詳解

    這篇文章主要給大家介紹了關(guān)于PHP批斗大會(huì)之缺失的異常的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用PHP具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • PHP跳出for循環(huán)中的break和continue

    PHP跳出for循環(huán)中的break和continue

    在PHP中,可以使用break關(guān)鍵字來跳出循環(huán),,PHP中還可以使用continue關(guān)鍵字跳過本次循環(huán)并繼續(xù)執(zhí)行下一次循環(huán),當(dāng)循環(huán)執(zhí)行到continue語句時(shí),本次循環(huán)中continue之后的代碼將不再執(zhí)行,直接進(jìn)入下一次循環(huán)
    2023-09-09
  • PHP圖片處理之使用imagecopyresampled函數(shù)裁剪圖片例子

    PHP圖片處理之使用imagecopyresampled函數(shù)裁剪圖片例子

    這篇文章主要介紹了PHP圖片處理之使用imagecopyresampled函數(shù)裁剪圖片例子,本文例子相對簡單,是一篇入門級的學(xué)習(xí)總結(jié),需要的朋友可以參考下
    2014-11-11
  • php下MYSQL limit的優(yōu)化

    php下MYSQL limit的優(yōu)化

    MYSQL的優(yōu)化是非常重要的。其他最常用也最需要優(yōu)化的就是limit。mysql的limit給分頁帶來了極大的方便,但數(shù)據(jù)量一大的時(shí)候,limit的性能就急劇下降。
    2008-01-01
  • Linux系統(tǒng)下使用XHProf和XHGui分析PHP運(yùn)行性能

    Linux系統(tǒng)下使用XHProf和XHGui分析PHP運(yùn)行性能

    這篇文章主要介紹了Linux系統(tǒng)下使用XHProf和XHGui分析PHP運(yùn)行性能的方法,該方案支持Apache與Nginx服務(wù)器及多種數(shù)據(jù)庫環(huán)境,需要的朋友可以參考下
    2015-12-12
  • PHP實(shí)現(xiàn)查詢手機(jī)歸屬地的方法詳解

    PHP實(shí)現(xiàn)查詢手機(jī)歸屬地的方法詳解

    最近通過在網(wǎng)上面的學(xué)習(xí),完成了 PHP 實(shí)現(xiàn)手機(jī)歸屬地查詢的功能。所以下面這篇文章主要給大家介紹了利用PHP實(shí)現(xiàn)查詢手機(jī)歸屬地的方法,文中給出了詳細(xì)的代碼示例,需要的朋友可以參考借鑒,下面來一起看看吧。
    2017-04-04
  • php5編程中的異常處理詳細(xì)方法介紹

    php5編程中的異常處理詳細(xì)方法介紹

    比較詳細(xì)的關(guān)于php5的異常處理方法,而且給出了,多種方法
    2008-07-07
  • PHP實(shí)現(xiàn)通過strace定位故障原因的方法

    PHP實(shí)現(xiàn)通過strace定位故障原因的方法

    這篇文章主要介紹了PHP實(shí)現(xiàn)通過strace定位故障原因的方法,結(jié)合實(shí)例形式分析了出現(xiàn)高負(fù)載情況下使用strace定位故障原因的相關(guān)命令與操作技巧,需要的朋友可以參考下
    2018-04-04
  • 詳解PHP八大設(shè)計(jì)模式

    詳解PHP八大設(shè)計(jì)模式

    這篇文章主要介紹了PHP八大設(shè)計(jì)模式,對設(shè)計(jì)模式感興趣的同學(xué),不妨多試試,深刻了解其中的含義
    2021-04-04
  • php + nginx項(xiàng)目中的權(quán)限詳解

    php + nginx項(xiàng)目中的權(quán)限詳解

    這篇文章主要給大家介紹了關(guān)于php + nginx項(xiàng)目中權(quán)限的相關(guān)資料,文章介紹的非常詳細(xì),對大家具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起看看吧。
    2017-05-05

最新評論