火車頭采集器3.0采集圖文教程
更新時(shí)間:2007年03月17日 00:00:00 作者:
今天要給大家做示例的網(wǎng)站是163的 娛樂頻道 這個(gè)應(yīng)該是個(gè)比較通用和實(shí)用的規(guī)則,下面開始。
以采集示例詳解部分功能
今天要給大家做示例的網(wǎng)站是163的 娛樂頻道 這個(gè)應(yīng)該是個(gè)比較通用和實(shí)用的規(guī)則,下面開始。
如果您是火車采集器的老手,那么您可以參考下,因?yàn)槲乙v解的會(huì)有違傳統(tǒng)的思維;如我您是新手那么您最好能仔細(xì)看下,因?yàn)檫@將加快您的入門,同時(shí)在以后給您節(jié)省很多時(shí)間。以下是一些采集的基本步驟,您可以靈活運(yùn)用:
一、建立站點(diǎn)
1、請(qǐng)先打開火車采集器,新建站點(diǎn),看下圖:

為了方便管理您可以為您的站點(diǎn)取任何的您覺得易記的名稱,但是我建議用目標(biāo)源的名字作為站點(diǎn)的名稱有利于日后的管理,如下圖
大部分的站點(diǎn),通站往往只有一套模版或者有幾套類似的模版,這邊所謂的類似講的是模版中的標(biāo)記很接近,那什么是模版標(biāo)記?模版標(biāo)記指的是某部分內(nèi)容開始和結(jié)束記號(hào)。比如很多正規(guī)的網(wǎng)站(通常是一些站點(diǎn)比較大,內(nèi)容比較多的網(wǎng)站,比如sina、163等)會(huì)在內(nèi)容開始的部分用類似于或
今天要給大家做示例的網(wǎng)站是163的 娛樂頻道 這個(gè)應(yīng)該是個(gè)比較通用和實(shí)用的規(guī)則,下面開始。
如果您是火車采集器的老手,那么您可以參考下,因?yàn)槲乙v解的會(huì)有違傳統(tǒng)的思維;如我您是新手那么您最好能仔細(xì)看下,因?yàn)檫@將加快您的入門,同時(shí)在以后給您節(jié)省很多時(shí)間。以下是一些采集的基本步驟,您可以靈活運(yùn)用:
一、建立站點(diǎn)
1、請(qǐng)先打開火車采集器,新建站點(diǎn),看下圖:

為了方便管理您可以為您的站點(diǎn)取任何的您覺得易記的名稱,但是我建議用目標(biāo)源的名字作為站點(diǎn)的名稱有利于日后的管理,如下圖

大部分的站點(diǎn),通站往往只有一套模版或者有幾套類似的模版,這邊所謂的類似講的是模版中的標(biāo)記很接近,那什么是模版標(biāo)記?模版標(biāo)記指的是某部分內(nèi)容開始和結(jié)束記號(hào)。比如很多正規(guī)的網(wǎng)站(通常是一些站點(diǎn)比較大,內(nèi)容比較多的網(wǎng)站,比如sina、163等)會(huì)在內(nèi)容開始的部分用類似于或
等標(biāo)志來(lái)表示內(nèi)容的開始。他們這么作的原因有兩個(gè),一個(gè)是由于內(nèi)容多,為了各個(gè)部門之間的配合而作了對(duì)應(yīng)的標(biāo)記以便于工程的交接,另一個(gè)原因就是內(nèi)容控制的需要,隨著xhtml的流行,用層控制越來(lái)越多,這就使得我們尋找采集標(biāo)示越來(lái)越簡(jiǎn)單(這點(diǎn)你們以后會(huì)慢慢理解的)。上面給各位講這些是因?yàn)榻酉聛?lái)要我們要講解的是整站內(nèi)容規(guī)則。
2、標(biāo)題標(biāo)簽講解。對(duì)應(yīng)的頁(yè)面在這:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先從“站點(diǎn)基本信息”切換到“整站內(nèi)容規(guī)則”,然后把要采集的內(nèi)容頁(yè)面的網(wǎng)址拷貝到“典型頁(yè)面”接著點(diǎn)擊“測(cè)試”讀取源碼。先從標(biāo)題標(biāo)簽開始,我們發(fā)現(xiàn)按默認(rèn)標(biāo)簽采集回來(lái)的標(biāo)題多了“_網(wǎng)易娛樂”,請(qǐng)雙擊標(biāo)題標(biāo)簽或者選種標(biāo)題標(biāo)簽在點(diǎn)擊修改,把“_網(wǎng)易娛樂”添加到排除內(nèi)容框里,標(biāo)題標(biāo)簽完成。如圖:

3、內(nèi)容標(biāo)簽講解。制作采集規(guī)則(任務(wù))的任何一個(gè)標(biāo)簽最重要的就在于尋找開始也結(jié)束的標(biāo)志。目前大部分的采集器要求開始和結(jié)束的標(biāo)志必須是整個(gè)源代碼的唯一標(biāo)志,也就是所有的html源碼里只能找到一個(gè)開始或結(jié)束的標(biāo)志。但是火車采集器并不需要這么作,你要找的只需要是從上到下第一個(gè)標(biāo)志就可以了,我的意思是說,html代碼中允許有n個(gè)相同的開始(結(jié)束,下同)標(biāo)志,但是只要這個(gè)位于我們要采集的內(nèi)容的地方的標(biāo)志是html從上到下的第一個(gè)就可以了。打開任何一個(gè)內(nèi)容頁(yè)面,這邊以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 為例,我們發(fā)現(xiàn)他的內(nèi)容從“進(jìn)入論壇”,因此雙擊代碼測(cè)試框,查找需要的代碼,如圖:

我們可以用這個(gè)作為內(nèi)容開始的標(biāo)志,不過這樣還不完美,請(qǐng)自己在打開幾個(gè)內(nèi)容頁(yè)面,在網(wǎng)頁(yè)中“右鍵點(diǎn)擊”——“查看源碼”,然后對(duì)比代碼,并提取相同的部分,我以
2、標(biāo)題標(biāo)簽講解。對(duì)應(yīng)的頁(yè)面在這:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先從“站點(diǎn)基本信息”切換到“整站內(nèi)容規(guī)則”,然后把要采集的內(nèi)容頁(yè)面的網(wǎng)址拷貝到“典型頁(yè)面”接著點(diǎn)擊“測(cè)試”讀取源碼。先從標(biāo)題標(biāo)簽開始,我們發(fā)現(xiàn)按默認(rèn)標(biāo)簽采集回來(lái)的標(biāo)題多了“_網(wǎng)易娛樂”,請(qǐng)雙擊標(biāo)題標(biāo)簽或者選種標(biāo)題標(biāo)簽在點(diǎn)擊修改,把“_網(wǎng)易娛樂”添加到排除內(nèi)容框里,標(biāo)題標(biāo)簽完成。如圖:

3、內(nèi)容標(biāo)簽講解。制作采集規(guī)則(任務(wù))的任何一個(gè)標(biāo)簽最重要的就在于尋找開始也結(jié)束的標(biāo)志。目前大部分的采集器要求開始和結(jié)束的標(biāo)志必須是整個(gè)源代碼的唯一標(biāo)志,也就是所有的html源碼里只能找到一個(gè)開始或結(jié)束的標(biāo)志。但是火車采集器并不需要這么作,你要找的只需要是從上到下第一個(gè)標(biāo)志就可以了,我的意思是說,html代碼中允許有n個(gè)相同的開始(結(jié)束,下同)標(biāo)志,但是只要這個(gè)位于我們要采集的內(nèi)容的地方的標(biāo)志是html從上到下的第一個(gè)就可以了。打開任何一個(gè)內(nèi)容頁(yè)面,這邊以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 為例,我們發(fā)現(xiàn)他的內(nèi)容從“進(jìn)入論壇”,因此雙擊代碼測(cè)試框,查找需要的代碼,如圖:

我們可以用這個(gè)作為內(nèi)容開始的標(biāo)志,不過這樣還不完美,請(qǐng)自己在打開幾個(gè)內(nèi)容頁(yè)面,在網(wǎng)頁(yè)中“右鍵點(diǎn)擊”——“查看源碼”,然后對(duì)比代碼,并提取相同的部分,我以
作為內(nèi)容開始的標(biāo)志。
接下來(lái)看內(nèi)容結(jié)束標(biāo)志,如下兩圖:

下面是根據(jù)我么設(shè)置規(guī)則采集回來(lái)的內(nèi)容

一般來(lái)說我們從開始標(biāo)志到結(jié)束標(biāo)志所采集回來(lái)的內(nèi)容中都會(huì)包含有必須排除的內(nèi)容或廣告,或鏈接。這邊我們需要排除的內(nèi)容是“相關(guān)專題>>> 第六屆金鷹電視藝術(shù)節(jié)”。排除的方法是,找到相對(duì)應(yīng)的代碼把代碼完整的拷貝進(jìn)內(nèi)容排除窗口,變動(dòng)的部分用“(*)”替代。由于這個(gè)是整站規(guī)則,所以必須多找?guī)讉€(gè)類別,比如現(xiàn)在的這個(gè)163娛樂還包括了“明星 | 圖片 | 電影 | 電視 | 音樂 | 論壇 | 專題 | 名人訪 ”等,在這邊我只抽取“明星、圖片、電影”作為列子跟大家講解。找其他的類別只是希望把規(guī)則做的通用完美,如果你只要其中的一個(gè)分類,比如“圖片”那么你直接做這個(gè)的規(guī)則即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 這個(gè)頁(yè)面剛好有分頁(yè),所以就順便講下上下頁(yè)的設(shè)置。他這邊的“上一頁(yè)”和“下一頁(yè)”是用圖片做鏈接的,所以只要不圖片的名字(右鍵點(diǎn)擊對(duì)應(yīng)的圖片查看屬性,拷貝圖片名即可)拷貝進(jìn)對(duì)應(yīng)的代碼框即可,詳細(xì)的看圖片:

這邊提示下,任何內(nèi)容的排除你只要找到對(duì)應(yīng)的代碼完整的拷貝進(jìn)代碼排除窗并把其中可變的部分替換成"(*)"即可。由于他這邊沒有廣告,所有整站規(guī)則就算制作完畢,點(diǎn)擊保存進(jìn)入單任務(wù)制作。好了,整站規(guī)則就講這兩個(gè)標(biāo)簽,其他的根據(jù)需要自己按上面的步驟添加,記住,萬(wàn)變不離其宗。其他的問題請(qǐng)到火車采集器論壇:http://bbs.locoy.com 探討。
二、下面講解單任務(wù)規(guī)則制作:
1、內(nèi)容規(guī)則的制作,很多人到現(xiàn)在可能都還不明白火車采集器好在哪,現(xiàn)在講的這個(gè)絕對(duì)是火車獨(dú)有的特色(至少到目前為止是這樣,以后有沒有人出相同的功能就不得而知了?。?BR>火車采集器是不需要經(jīng)過網(wǎng)址規(guī)則制作即可直接進(jìn)入內(nèi)容采集,這樣你就可以根據(jù)站點(diǎn)的難易決定是否采集選定的目標(biāo)源,而不必等到網(wǎng)址采集后才發(fā)現(xiàn)原來(lái)這個(gè)網(wǎng)站你沒辦法采或者根本不值得你浪費(fèi)這個(gè)時(shí)間(前面的時(shí)間白搭了!)。
火車v3.0最大的功能之一既是可以繼承站點(diǎn)的規(guī)則,只要你前面制作的規(guī)則通用,那么在接下來(lái)的所有任務(wù)都不需要再制作內(nèi)容采集規(guī)則了。由于前面我們制作的內(nèi)容采集規(guī)則通用,所以這邊的規(guī)則我們就不用講解了,直接繼承站點(diǎn)的,如圖:

2、網(wǎng)址采集規(guī)則制作
步驟:“新建”——“新建任務(wù)”,其他的操作如下圖:

作規(guī)則需要善于去發(fā)現(xiàn)規(guī)律性的東西,作到這點(diǎn)采集就沒什么問題了。我們要采集示例的地址在這http://ent.163.com/special/00031HI0/entnews.html
這板只采集其中的1-3頁(yè)作為范例。我們發(fā)現(xiàn)每個(gè)葉面的網(wǎng)址開始前面都包含“過往娛樂熱點(diǎn)”結(jié)束都是“第1 2……頁(yè)”,所以請(qǐng)到html源代碼里面拷貝對(duì)應(yīng)的代碼,到特定區(qū)域采集范圍中,另外,網(wǎng)址中必須包含“/06/” 這樣網(wǎng)址采集就搞定了(簡(jiǎn)單吧,自己試試看),如下圖:

3、發(fā)布方式。發(fā)布方式有5種,這邊以最常用的“在線發(fā)布”為例。
選定web在線發(fā)布到網(wǎng)站,點(diǎn)擊“定義全局發(fā)布方式”,然后按系統(tǒng)提示的步驟:選定發(fā)布模塊——》填寫網(wǎng)站/cms根地址——》使用火車內(nèi)置瀏覽器登陸——》登陸后關(guān)閉內(nèi)置瀏覽器——》刷新列表——》測(cè)試模塊,測(cè)試成功——》保存配置——》保存任務(wù)——》發(fā)表 如下圖高亮的部分是你要操作的步驟,從左到右從上到下:

下面是剛才我采集到本地論壇采集測(cè)試的兩個(gè)截屏:



接下來(lái)看內(nèi)容結(jié)束標(biāo)志,如下兩圖:


下面是根據(jù)我么設(shè)置規(guī)則采集回來(lái)的內(nèi)容

一般來(lái)說我們從開始標(biāo)志到結(jié)束標(biāo)志所采集回來(lái)的內(nèi)容中都會(huì)包含有必須排除的內(nèi)容或廣告,或鏈接。這邊我們需要排除的內(nèi)容是“相關(guān)專題>>> 第六屆金鷹電視藝術(shù)節(jié)”。排除的方法是,找到相對(duì)應(yīng)的代碼把代碼完整的拷貝進(jìn)內(nèi)容排除窗口,變動(dòng)的部分用“(*)”替代。由于這個(gè)是整站規(guī)則,所以必須多找?guī)讉€(gè)類別,比如現(xiàn)在的這個(gè)163娛樂還包括了“明星 | 圖片 | 電影 | 電視 | 音樂 | 論壇 | 專題 | 名人訪 ”等,在這邊我只抽取“明星、圖片、電影”作為列子跟大家講解。找其他的類別只是希望把規(guī)則做的通用完美,如果你只要其中的一個(gè)分類,比如“圖片”那么你直接做這個(gè)的規(guī)則即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 這個(gè)頁(yè)面剛好有分頁(yè),所以就順便講下上下頁(yè)的設(shè)置。他這邊的“上一頁(yè)”和“下一頁(yè)”是用圖片做鏈接的,所以只要不圖片的名字(右鍵點(diǎn)擊對(duì)應(yīng)的圖片查看屬性,拷貝圖片名即可)拷貝進(jìn)對(duì)應(yīng)的代碼框即可,詳細(xì)的看圖片:

這邊提示下,任何內(nèi)容的排除你只要找到對(duì)應(yīng)的代碼完整的拷貝進(jìn)代碼排除窗并把其中可變的部分替換成"(*)"即可。由于他這邊沒有廣告,所有整站規(guī)則就算制作完畢,點(diǎn)擊保存進(jìn)入單任務(wù)制作。好了,整站規(guī)則就講這兩個(gè)標(biāo)簽,其他的根據(jù)需要自己按上面的步驟添加,記住,萬(wàn)變不離其宗。其他的問題請(qǐng)到火車采集器論壇:http://bbs.locoy.com 探討。
二、下面講解單任務(wù)規(guī)則制作:
1、內(nèi)容規(guī)則的制作,很多人到現(xiàn)在可能都還不明白火車采集器好在哪,現(xiàn)在講的這個(gè)絕對(duì)是火車獨(dú)有的特色(至少到目前為止是這樣,以后有沒有人出相同的功能就不得而知了?。?BR>火車采集器是不需要經(jīng)過網(wǎng)址規(guī)則制作即可直接進(jìn)入內(nèi)容采集,這樣你就可以根據(jù)站點(diǎn)的難易決定是否采集選定的目標(biāo)源,而不必等到網(wǎng)址采集后才發(fā)現(xiàn)原來(lái)這個(gè)網(wǎng)站你沒辦法采或者根本不值得你浪費(fèi)這個(gè)時(shí)間(前面的時(shí)間白搭了!)。
火車v3.0最大的功能之一既是可以繼承站點(diǎn)的規(guī)則,只要你前面制作的規(guī)則通用,那么在接下來(lái)的所有任務(wù)都不需要再制作內(nèi)容采集規(guī)則了。由于前面我們制作的內(nèi)容采集規(guī)則通用,所以這邊的規(guī)則我們就不用講解了,直接繼承站點(diǎn)的,如圖:

2、網(wǎng)址采集規(guī)則制作
步驟:“新建”——“新建任務(wù)”,其他的操作如下圖:

作規(guī)則需要善于去發(fā)現(xiàn)規(guī)律性的東西,作到這點(diǎn)采集就沒什么問題了。我們要采集示例的地址在這http://ent.163.com/special/00031HI0/entnews.html
這板只采集其中的1-3頁(yè)作為范例。我們發(fā)現(xiàn)每個(gè)葉面的網(wǎng)址開始前面都包含“過往娛樂熱點(diǎn)”結(jié)束都是“第1 2……頁(yè)”,所以請(qǐng)到html源代碼里面拷貝對(duì)應(yīng)的代碼,到特定區(qū)域采集范圍中,另外,網(wǎng)址中必須包含“/06/” 這樣網(wǎng)址采集就搞定了(簡(jiǎn)單吧,自己試試看),如下圖:

3、發(fā)布方式。發(fā)布方式有5種,這邊以最常用的“在線發(fā)布”為例。
選定web在線發(fā)布到網(wǎng)站,點(diǎn)擊“定義全局發(fā)布方式”,然后按系統(tǒng)提示的步驟:選定發(fā)布模塊——》填寫網(wǎng)站/cms根地址——》使用火車內(nèi)置瀏覽器登陸——》登陸后關(guān)閉內(nèi)置瀏覽器——》刷新列表——》測(cè)試模塊,測(cè)試成功——》保存配置——》保存任務(wù)——》發(fā)表 如下圖高亮的部分是你要操作的步驟,從左到右從上到下:

下面是剛才我采集到本地論壇采集測(cè)試的兩個(gè)截屏:


相關(guān)文章
總結(jié)PHP中數(shù)值計(jì)算的注意事項(xiàng)
本文將對(duì)PHP中數(shù)據(jù)計(jì)算的一些犯錯(cuò)的點(diǎn)進(jìn)行整理,并給出解決方法,其中包括四舍五入、整數(shù)和小數(shù)相乘除和浮點(diǎn)數(shù)的怪異,有需要的朋友們可以參考借鑒。2016-08-08php中實(shí)現(xiàn)字符串翻轉(zhuǎn)的方法
本文主要介紹了實(shí)現(xiàn)php字符串翻轉(zhuǎn)的方法,具有很好的參考價(jià)值,下面跟著小編一起來(lái)看下吧2017-02-02php curl優(yōu)化下載微信頭像的方法總結(jié)
這篇文章主要給大家介紹了關(guān)于php curl優(yōu)化下載微信頭像的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2018-09-09php使用strip_tags()去除html標(biāo)簽仍有空白的解決方法
這篇文章主要介紹了php使用strip_tags()去除html標(biāo)簽仍有空白的解決方法,涉及php正則替換的相關(guān)操作技巧,需要的朋友可以參考下2016-07-07實(shí)測(cè)在class的function中include的文件中非php的global全局環(huán)境
正如標(biāo)題所言經(jīng)測(cè)試的結(jié)果為:在class中include后,被include文件變量域已經(jīng)變成func中了,非全局.但是可以通過global提升,感興趣的朋友可以參考下哈,希望對(duì)大家有所幫助2013-07-07php實(shí)現(xiàn)網(wǎng)站文件批量壓縮下載功能
這篇文章主要介紹了php實(shí)現(xiàn)網(wǎng)站文件批量壓縮下載功能,文章提供了一個(gè)將文件壓縮為zip格式的示例,感興趣的小伙伴們可以參考一下2015-10-10PHP CodeBase:將時(shí)間顯示為"剛剛""n分鐘/小時(shí)前"的方法詳解
本篇文章是對(duì)PHP CodeBase:將時(shí)間顯示為"剛剛""n分鐘/小時(shí)前"的方法進(jìn)行了詳細(xì)的分析介紹,需要的朋友參考下2013-06-06