火車頭采集器怎么采集文章?

有時候我們看到一個網(wǎng)站的文章,想要把這些文章保存下來,一篇一篇的復(fù)制保存很麻煩,這個時候就需要用到火車頭采集器把文章采集下來保存了。下面介紹一下如何用火車頭采集器采集文章。
第一步采集網(wǎng)址,下載好火車頭采集器后打開,新建一個任務(wù),任務(wù)名隨意。把需要采集的網(wǎng)站文章列表頁網(wǎng)址添加到起始網(wǎng)址。從圖中看出該列表頁有34頁,每頁有N篇文章。
列表頁會一級網(wǎng)址,添加多級網(wǎng)址獲取,從而獲取二級網(wǎng)址(文章頁網(wǎng)址)
設(shè)置列表分頁獲取,3個地方分別是:分頁源代碼前面和后面還有中間位置。這一步用于獲取列表頁面鏈接,因?yàn)橛?4個列表頁面。設(shè)置完保存。
網(wǎng)址獲取選項(xiàng),這一步用于獲取列表頁上面文章頁的鏈接,根據(jù)自己需要設(shè)置需要截取的部分和根據(jù)網(wǎng)址的結(jié)構(gòu)設(shè)置包含與不包含某些字符。為空即沒限制,設(shè)置完保存。
設(shè)置好鏈接采集規(guī)則后,可以測試網(wǎng)址,看測試結(jié)果調(diào)整規(guī)則??磮D可以看到采集鏈接規(guī)則從起始鏈接到全面列表頁再到列表頁上的文章頁鏈接都已經(jīng)成功采集。
第二步是采集內(nèi)容,首先修改標(biāo)題規(guī)則,在頁面源代碼里面找到標(biāo)題的代碼,把標(biāo)題前后代碼負(fù)責(zé)過去截取出標(biāo)題。保存。
修改內(nèi)容采集規(guī)則,跟標(biāo)題規(guī)則差不多,也是源代碼里面找到內(nèi)容的前后代碼。這里內(nèi)容會有一些其他html標(biāo)簽,所以得添加一個html標(biāo)簽排除的規(guī)則。
完成后,測試看一下結(jié)果,從測試結(jié)果來調(diào)試規(guī)則,直到測試結(jié)果是自己想要的內(nèi)容為止。
第三步是采集導(dǎo)出。前面1、2兩步把規(guī)則設(shè)置好,最后就要把文章導(dǎo)出了。先做一個導(dǎo)出的模版。
然后選擇方式二,把每一篇文章都分別記錄到一個txt文本,保存位置自己選擇,模板選擇剛剛做好的導(dǎo)出模版.保存的文件名用文章標(biāo)題為命名。其他默認(rèn),保存。
把采集網(wǎng)址,采集內(nèi)容,發(fā)布3個選項(xiàng)框都勾選,然后開始采集。完成后文本就自動生成在剛剛保存的文件夾里面了。
火車頭采集器采集文章教程到此就完成了,由于每個網(wǎng)站都是不一樣的,所以這里只能用一個網(wǎng)站演示,只是一個方法思路,自己采集文章還需要靈活變通。
相關(guān)文章
火車頭采集器升級到V8.3版本的方法和注意事項(xiàng)
這篇文章主要介紹了火車頭采集器升級到V8.3版本的方法和注意事項(xiàng),需要的朋友可以參考下2014-04-21火車頭采集器 8.2 多頁采集json格式數(shù)據(jù)方法
最近有個客戶打算做圖庫網(wǎng)站需要采集一些網(wǎng)站,發(fā)現(xiàn)對方的數(shù)據(jù)是json格式的,而且是多頁打開的,那么就需要使用火車頭的多頁采集了2014-03-24火車頭采集器本地編輯任務(wù)采集數(shù)據(jù)功能的圖文使用教程
當(dāng)數(shù)據(jù)采集到本地后,我們還需要對其進(jìn)行編輯加工時可以使用本地編輯任務(wù)采集數(shù)據(jù),然后編輯完成后可以再次發(fā)布.2010-07-24- 微軟升級.net framework后導(dǎo)致采集器程序無法打開的升級補(bǔ)丁2009-10-21