08CMS v3.4 版本采集系統(tǒng)使用教程

雖然現(xiàn)在壇子里人氣不咋滴,有不少提問(wèn)貼沒(méi)有解決,但是這些都會(huì)過(guò)去,G大說(shuō)再進(jìn)行一輪開(kāi)發(fā)之后就將進(jìn)入市場(chǎng)推廣了,也就意味著官方不會(huì)再一味的閉門(mén)開(kāi)發(fā)
這個(gè)所謂的 “再一輪開(kāi)發(fā)”或許就是指V3.5版本吧,GBK編碼版本已經(jīng)發(fā)布了,再出UTF8的就應(yīng)該算是完成了吧,具體還看官方的日程安排了
這個(gè)教程版的版主也當(dāng)了不短的一段時(shí)間了,最郁悶的事就是老看見(jiàn)人在那吼:不會(huì)用啊,文檔太少了……云云。汗顏哪,貌似有點(diǎn)占著茅坑不拉屎的嫌疑
這也不能全怪我啊,我也很想吼一句:G大你丫也太低調(diào)了點(diǎn)吧,讓不讓人活了,自己不出來(lái)也就算了,多少給個(gè)日程表,俺也好有個(gè)方向啊,盲棍探路呢,好歹給老娘指條路啊
---------------- 美麗分割線 ----------------
抱怨到這里結(jié)束吧,上正題
08CMS采集系統(tǒng)的使用說(shuō)明
因?yàn)?8CMS架構(gòu)上的特殊性,目前市面上還沒(méi)有完美支持的外部采集器提供(我沒(méi)看到,有知道的分享下哈)
單篇采集一般的采集器都能應(yīng)付,問(wèn)題主要出在合輯的采集
不過(guò)即使有我也會(huì)選擇系統(tǒng)自帶的采集器,畢竟合適的才是最好的,系統(tǒng)自帶的采集器明顯是量身定做的
個(gè)人感覺(jué),即使目前系統(tǒng)自帶的采集器還有不少不足,但是也不是一般的采集器能替代的,契合度上的先天優(yōu)勢(shì)哈
下面開(kāi)始介紹08CMS內(nèi)置的采集系統(tǒng)
第一、登陸后臺(tái)進(jìn)入采集管理
[attach]1646[/attach]
那些個(gè)什么怎么登陸后臺(tái),點(diǎn)擊先后順序就別問(wèn)我了哈
第二、第一次使用采集系統(tǒng),系統(tǒng)會(huì)要求添加采集模型
所謂采集模型,就是搭建采集的框架,設(shè)定需要采集的字段以及采集到的內(nèi)容添加至哪個(gè)文檔模型
這里的設(shè)置有個(gè)讓人小郁悶的地方,只要填寫(xiě)模型名稱就可以建立模型
相關(guān)設(shè)置得在建立之后才能編輯,個(gè)人覺(jué)得在建立模型中設(shè)置采集模型相關(guān)參數(shù)比較靠譜
第三步、編輯采集模型
請(qǐng)看圖解:
圖一、編輯模型
圖二、
模型編輯界面
到這里,采集模型的添加完成了
下面開(kāi)始添加采集任務(wù)
第四步、采集任務(wù)的添加
下面是采集任務(wù)界面圖解,請(qǐng)仔細(xì)閱讀圖中注釋
第六步、重頭戲開(kāi)始了,采集規(guī)則的設(shè)置
首先分析采集目標(biāo)頁(yè)的代碼結(jié)構(gòu),這里以IE瀏覽器為例
查看采集目標(biāo)頁(yè),點(diǎn)擊IE的
頁(yè)面 ---- 查看源文件
很簡(jiǎn)單就能看到目標(biāo)頁(yè)面的代碼結(jié)構(gòu)
采集頁(yè)面的代碼分析,主要是找采集目標(biāo)的特征
頁(yè)面太大這里不好拿上來(lái)解析,上圖解釋網(wǎng)址采集界面相關(guān)規(guī)則的設(shè)置
點(diǎn)擊提交保存這里的設(shè)置
我很奇怪為什么不直接跳到下一步內(nèi)容采集而是提交之后回到這個(gè)頁(yè)面
在這個(gè)截圖頁(yè)面的下面還有一部分,稱之為追溯網(wǎng)址規(guī)則
這個(gè)不是非必填項(xiàng),一般不用
而且這個(gè)只能得到一個(gè)網(wǎng)址,而不是網(wǎng)址列表,個(gè)人感覺(jué)有點(diǎn)雞肋,附上官方的解釋
追溯網(wǎng)址:內(nèi)容網(wǎng)址的一種延伸。有部分被采集文檔,個(gè)別字段的內(nèi)容不在主內(nèi)容頁(yè),而是在附加頁(yè)面,特別是有關(guān)附件的內(nèi)容,追溯網(wǎng)址用于采集其附加頁(yè)面網(wǎng)址,每個(gè)內(nèi)容網(wǎng)址可追溯兩級(jí)附加頁(yè)面,追溯網(wǎng)址2是在追溯網(wǎng)址1的基礎(chǔ)上采集的。
追溯概念舉例:我們?nèi)ハ螺d站的時(shí)候,往往點(diǎn)進(jìn)去的頁(yè)面只有軟件信息說(shuō)明和一個(gè)或多個(gè)進(jìn)入下載頁(yè)面的鏈接
注意:這里是進(jìn)入下載頁(yè)面的鏈接,而不是下載地址。當(dāng)我們要下載該軟件的時(shí)候要先打開(kāi)這個(gè)下載頁(yè)面才能看到下載地址
這里就是一級(jí)追溯,因?yàn)槲覀円冱c(diǎn)一次才能到達(dá)下載頁(yè)面。這時(shí)我們的1級(jí)追溯地址就是那個(gè)進(jìn)入下載頁(yè)面的鏈接
接下來(lái)是內(nèi)容頁(yè)的規(guī)則
同樣用圖來(lái)解析,本處只選用一個(gè)字段的規(guī)則設(shè)置為例,其他字段基本類同
入庫(kù)參數(shù)設(shè)置
如果是非合輯也就是單文檔采集,那么規(guī)則到此就設(shè)置結(jié)束了
經(jīng)過(guò)測(cè)試沒(méi)問(wèn)題即可進(jìn)行采集
如果你有足夠的信心,完全可以不用測(cè)試直接采集哦
如果是合輯的采集,比如小說(shuō),那么采集的設(shè)置還只進(jìn)行到一半哦
合輯的采集還需要設(shè)置子任務(wù)的的規(guī)則
如圖:
子任務(wù)在父任務(wù)下方,而且任務(wù)名稱前有縮進(jìn)
子任務(wù)的規(guī)則設(shè)置跟父任務(wù)的規(guī)則設(shè)置基本相同,不贅述了
理論上采集到這里就結(jié)束了,開(kāi)始愉快的采集之旅吧
采集,你可以自己按照網(wǎng)址、內(nèi)容、入庫(kù)一步步來(lái)
直接 一鍵 采集就更干脆了
不過(guò)這里有個(gè)讓人
采集任務(wù)除非是合輯采集中的父任務(wù)跟子任務(wù)
不然你就得一個(gè)個(gè)任務(wù)一鍵過(guò)去,不讓排隊(duì)。。。。
雖然有不少地方有不足,不過(guò)總體上來(lái)說(shuō)采集體驗(yàn)還是良好的
教程就到這里結(jié)束了,有什么不明白的可以跟帖提出
相關(guān)文章
- 這篇文章主要介紹了Fastadmin的安裝與使用方法,需要的朋友可以參考下2020-08-06
安裝FastAdmin時(shí)報(bào)1146 Table 'fastadmin.fa_admin' doesn't exist錯(cuò)誤
有部分小伙伴在安裝FastAdmin時(shí)報(bào)以下錯(cuò)誤,SQLSTATE[42S02]: Base table or view not found: 1146 Table 'fastadmin.fa_admin' doesn't exist2020-08-05UTF-8文件BOM信息自動(dòng)檢測(cè)和自動(dòng)清除源碼
BOM信息是文件開(kāi)頭的一串隱藏的字符,用于讓某些編輯器識(shí)別這是個(gè)UTF-8編碼的文件,也編輯器自動(dòng)加上的這個(gè)會(huì)導(dǎo)致頁(yè)面頭部會(huì)出現(xiàn)一個(gè)空白行;如果是織夢(mèng)的程序也會(huì)引起驗(yàn)證2020-02-17- 在本篇文章里小編給大家整理的是關(guān)于蘋(píng)果cms采集插件安裝的步驟和方法,有需要的朋友們可以學(xué)習(xí)下。2019-12-05
- 在本篇文章里小編給大家整理的是關(guān)于蘋(píng)果cms添加播放器的方法步驟,對(duì)此有需要的朋友們可以學(xué)習(xí)下。2019-12-05
- 在本篇文章里小編給大家分享的是關(guān)于蘋(píng)果cms更換logo的方法和步驟,有需要的朋友們可以學(xué)習(xí)參考下。2019-12-05
- 在本篇文章里小編給大家整理的是關(guān)于海洋cms電影源碼安裝步驟方法以及相關(guān)知識(shí)點(diǎn),有興趣的朋友們學(xué)習(xí)下。2019-12-05
蘋(píng)果CMS自適應(yīng)手模板設(shè)置方法
在本篇文章里小編給大家整理的是關(guān)于蘋(píng)果CMS自適應(yīng)手模板設(shè)置方法,有需要的朋友們參考學(xué)習(xí)下。2019-12-05- 在本篇文章里小編給大家整理的是關(guān)于蘋(píng)果海洋CMS自定義采集助手設(shè)置方法,有需要的朋友們學(xué)習(xí)下。2019-12-05
- 這篇文章主要為大家介紹了蘋(píng)果cms添加幻燈片的操作方法,步驟很簡(jiǎn)單,有需要的朋友們跟著操作下。2019-12-02