火車頭采集器怎么采集文章？

發(fā)布時(shí)間：2015-05-04 11:08:00 作者：佚名

火車頭采集器怎么采集文章？有時(shí)候我們看到一個(gè)網(wǎng)站的文章，想要把這些文章保存下來(lái)，一篇一篇的復(fù)制保存很麻煩，這個(gè)時(shí)候就需要用到火車頭采集器把文章采集下來(lái)保存了，下面分享火車頭的使用方法

有時(shí)候我們看到一個(gè)網(wǎng)站的文章，想要把這些文章保存下來(lái)，一篇一篇的復(fù)制保存很麻煩，這個(gè)時(shí)候就需要用到火車頭采集器把文章采集下來(lái)保存了。下面介紹一下如何用火車頭采集器采集文章。

QQ寵物經(jīng)典360問(wèn)補(bǔ)充(累積更新)

第一步采集網(wǎng)址，下載好火車頭采集器后打開(kāi)，新建一個(gè)任務(wù)，任務(wù)名隨意。把需要采集的網(wǎng)站文章列表頁(yè)網(wǎng)址添加到起始網(wǎng)址。從圖中看出該列表頁(yè)有34頁(yè)，每頁(yè)有N篇文章。

列表頁(yè)會(huì)一級(jí)網(wǎng)址，添加多級(jí)網(wǎng)址獲取，從而獲取二級(jí)網(wǎng)址（文章頁(yè)網(wǎng)址）

設(shè)置列表分頁(yè)獲取，3個(gè)地方分別是：分頁(yè)源代碼前面和后面還有中間位置。這一步用于獲取列表頁(yè)面鏈接，因?yàn)橛?4個(gè)列表頁(yè)面。設(shè)置完保存。

網(wǎng)址獲取選項(xiàng)，這一步用于獲取列表頁(yè)上面文章頁(yè)的鏈接，根據(jù)自己需要設(shè)置需要截取的部分和根據(jù)網(wǎng)址的結(jié)構(gòu)設(shè)置包含與不包含某些字符。為空即沒(méi)限制，設(shè)置完保存。

設(shè)置好鏈接采集規(guī)則后，可以測(cè)試網(wǎng)址，看測(cè)試結(jié)果調(diào)整規(guī)則?？磮D可以看到采集鏈接規(guī)則從起始鏈接到全面列表頁(yè)再到列表頁(yè)上的文章頁(yè)鏈接都已經(jīng)成功采集。

第二步是采集內(nèi)容，首先修改標(biāo)題規(guī)則，在頁(yè)面源代碼里面找到標(biāo)題的代碼，把標(biāo)題前后代碼負(fù)責(zé)過(guò)去截取出標(biāo)題。保存。

修改內(nèi)容采集規(guī)則，跟標(biāo)題規(guī)則差不多，也是源代碼里面找到內(nèi)容的前后代碼。這里內(nèi)容會(huì)有一些其他html標(biāo)簽，所以得添加一個(gè)html標(biāo)簽排除的規(guī)則。

完成后，測(cè)試看一下結(jié)果，從測(cè)試結(jié)果來(lái)調(diào)試規(guī)則，直到測(cè)試結(jié)果是自己想要的內(nèi)容為止。

第三步是采集導(dǎo)出。前面1、2兩步把規(guī)則設(shè)置好，最后就要把文章導(dǎo)出了。先做一個(gè)導(dǎo)出的模版。

然后選擇方式二,把每一篇文章都分別記錄到一個(gè)txt文本,保存位置自己選擇,模板選擇剛剛做好的導(dǎo)出模版.保存的文件名用文章標(biāo)題為命名。其他默認(rèn)，保存。

把采集網(wǎng)址，采集內(nèi)容，發(fā)布3個(gè)選項(xiàng)框都勾選，然后開(kāi)始采集。完成后文本就自動(dòng)生成在剛剛保存的文件夾里面了。

火車頭采集器采集文章教程到此就完成了，由于每個(gè)網(wǎng)站都是不一樣的，所以這里只能用一個(gè)網(wǎng)站演示，只是一個(gè)方法思路，自己采集文章還需要靈活變通。

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片