欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

08CMS v3.4 版本采集系統(tǒng)使用教程

  發(fā)布時間:2011-08-09 11:41:00   作者:佚名   我要評論
在這個壇子打滾也有一年多了,也經(jīng)歷了08CMS兩個大版本的更替,算的上是見證了官方的努力

雖然現(xiàn)在壇子里人氣不咋滴,有不少提問貼沒有解決,但是這些都會過去,G大說再進行一輪開發(fā)之后就將進入市場推廣了,也就意味著官方不會再一味的閉門開發(fā)
這個所謂的 “再一輪開發(fā)”或許就是指V3.5版本吧,GBK編碼版本已經(jīng)發(fā)布了,再出UTF8的就應(yīng)該算是完成了吧,具體還看官方的日程安排了
這個教程版的版主也當(dāng)了不短的一段時間了,最郁悶的事就是老看見人在那吼:不會用啊,文檔太少了……云云。汗顏哪,貌似有點占著茅坑不拉屎的嫌疑
這也不能全怪我啊,我也很想吼一句:G大你丫也太低調(diào)了點吧,讓不讓人活了,自己不出來也就算了,多少給個日程表,俺也好有個方向啊,盲棍探路呢,好歹給老娘指條路啊

---------------- 美麗分割線 ----------------

抱怨到這里結(jié)束吧,上正題
08CMS采集系統(tǒng)的使用說明
因為08CMS架構(gòu)上的特殊性,目前市面上還沒有完美支持的外部采集器提供(我沒看到,有知道的分享下哈)
單篇采集一般的采集器都能應(yīng)付,問題主要出在合輯的采集
不過即使有我也會選擇系統(tǒng)自帶的采集器,畢竟合適的才是最好的,系統(tǒng)自帶的采集器明顯是量身定做的
個人感覺,即使目前系統(tǒng)自帶的采集器還有不少不足,但是也不是一般的采集器能替代的,契合度上的先天優(yōu)勢哈
下面開始介紹08CMS內(nèi)置的采集系統(tǒng)
第一、登陸后臺進入采集管理
[attach]1646[/attach]
那些個什么怎么登陸后臺,點擊先后順序就別問我了哈

第二、第一次使用采集系統(tǒng),系統(tǒng)會要求添加采集模型
所謂采集模型,就是搭建采集的框架,設(shè)定需要采集的字段以及采集到的內(nèi)容添加至哪個文檔模型
這里的設(shè)置有個讓人小郁悶的地方,只要填寫模型名稱就可以建立模型
相關(guān)設(shè)置得在建立之后才能編輯,個人覺得在建立模型中設(shè)置采集模型相關(guān)參數(shù)比較靠譜
2.jpg

第三步、編輯采集模型
請看圖解:
圖一、編輯模型
4.jpg
圖二、
模型編輯界面
3.jpg

到這里,采集模型的添加完成了
下面開始添加采集任務(wù)
第四步、采集任務(wù)的添加
5.jpg
下面是采集任務(wù)界面圖解,請仔細閱讀圖中注釋


第六步、重頭戲開始了,采集規(guī)則的設(shè)置
首先分析采集目標(biāo)頁的代碼結(jié)構(gòu),這里以IE瀏覽器為例
查看采集目標(biāo)頁,點擊IE的
頁面 ---- 查看源文件
很簡單就能看到目標(biāo)頁面的代碼結(jié)構(gòu)
采集頁面的代碼分析,主要是找采集目標(biāo)的特征
頁面太大這里不好拿上來解析,上圖解釋網(wǎng)址采集界面相關(guān)規(guī)則的設(shè)置
7.jpg
點擊提交保存這里的設(shè)置
我很奇怪為什么不直接跳到下一步內(nèi)容采集而是提交之后回到這個頁面

在這個截圖頁面的下面還有一部分,稱之為追溯網(wǎng)址規(guī)則
這個不是非必填項,一般不用
而且這個只能得到一個網(wǎng)址,而不是網(wǎng)址列表,個人感覺有點雞肋,附上官方的解釋
追溯網(wǎng)址:內(nèi)容網(wǎng)址的一種延伸。有部分被采集文檔,個別字段的內(nèi)容不在主內(nèi)容頁,而是在附加頁面,特別是有關(guān)附件的內(nèi)容,追溯網(wǎng)址用于采集其附加頁面網(wǎng)址,每個內(nèi)容網(wǎng)址可追溯兩級附加頁面,追溯網(wǎng)址2是在追溯網(wǎng)址1的基礎(chǔ)上采集的。
追溯概念舉例:我們?nèi)ハ螺d站的時候,往往點進去的頁面只有軟件信息說明和一個或多個進入下載頁面的鏈接
注意:這里是進入下載頁面的鏈接,而不是下載地址。當(dāng)我們要下載該軟件的時候要先打開這個下載頁面才能看到下載地址
這里就是一級追溯,因為我們要再點一次才能到達下載頁面。這時我們的1級追溯地址就是那個進入下載頁面的鏈接

接下來是內(nèi)容頁的規(guī)則
同樣用圖來解析,本處只選用一個字段的規(guī)則設(shè)置為例,其他字段基本類同
8.jpg

入庫參數(shù)設(shè)置
9.jpg
如果是非合輯也就是單文檔采集,那么規(guī)則到此就設(shè)置結(jié)束了
經(jīng)過測試沒問題即可進行采集
如果你有足夠的信心,完全可以不用測試直接采集哦

如果是合輯的采集,比如小說,那么采集的設(shè)置還只進行到一半哦
合輯的采集還需要設(shè)置子任務(wù)的的規(guī)則
如圖:
10.jpg
子任務(wù)在父任務(wù)下方,而且任務(wù)名稱前有縮進
子任務(wù)的規(guī)則設(shè)置跟父任務(wù)的規(guī)則設(shè)置基本相同,不贅述了

理論上采集到這里就結(jié)束了,開始愉快的采集之旅吧
采集,你可以自己按照網(wǎng)址、內(nèi)容、入庫一步步來
直接 一鍵 采集就更干脆了
不過這里有個讓人
采集任務(wù)除非是合輯采集中的父任務(wù)跟子任務(wù)
不然你就得一個個任務(wù)一鍵過去,不讓排隊。。。。

雖然有不少地方有不足,不過總體上來說采集體驗還是良好的
教程就到這里結(jié)束了,有什么不明白的可以跟帖提出

2.jpg

相關(guān)文章

最新評論