如果將網(wǎng)站視為酒店里的一個房間，robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀，哪些房間因為存放貴重物品，或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令，也不是防火墻，如同守門人無法阻止竊賊等惡意闖入者。

環(huán)境搭建

需要的環(huán)境：node環(huán)境

需要安裝的東西： express、require、cherrio

可以在這里找到模塊的用法：https://www.npmjs.com，直接輸入模塊名字即可，比如：require

1、express這里就不做介紹了，中文網(wǎng)址在這里，可以查看：http://www.expressjs.com.cn/

2、request模塊讓http請求變的更加簡單。最簡單的一個示例：

var express = require('express');
var app = express();

app.get('/', function(req, res){
 res.send('hello world');
});

app.listen(3000);

安裝：npm install request

3、cherrio 是為服務(wù)器特別定制的，快速、靈活、實施的jQuery核心實現(xiàn)。

通過cherrio,我們就可以將抓取到的內(nèi)容，像使用jquery的方式來使用了。可以點擊這里查看：https://cnodejs.org/topic/5203a71844e76d216a727d2e

var cheerio = require('cheerio'),
$ = cheerio.load('<h2 class="title">Hello world</h2>');
$('h2.title').text('Hello there!');

安裝：npm install cherrio

爬蟲實戰(zhàn)

假設(shè)你的電腦里已經(jīng)安裝好了node和express。那么我們現(xiàn)在開始進行我們的爬蟲小程序：

1、首先隨便進入一個硬盤，假如是F盤，cmd環(huán)境下執(zhí)行： express mySpider

然后你發(fā)覺你的F盤上多了一個 mySpider的文件夾和一些文件，進入文件，cmd下執(zhí)行 npm install

2、然后安裝我們的require ==》npm installrequire --save 、再安裝我們的cherrio==》npm install cherrio --save

3、安裝好后，執(zhí)行npm start,如果想監(jiān)聽窗口的變化，可以執(zhí)行：supervisor start app.js，然后在瀏覽器輸入：localhost:3000，這樣我們就可以在瀏覽器看到express的一些歡迎語啊什么的

4、打開app.js文件，你會發(fā)覺里面有一大堆東西，因為是爬蟲小程序嘛，所以都是不需要滴，刪，在express的API里有這段代碼，粘貼在app.js里面

app.js

var express = require('express');
var app = express();

app.get('/', function(req, res){
 res.send('hello world');
});

app.listen(3000);

5、我們的require登場了。繼續(xù)修改一下app.js改為：

var express = require('express');
var app = express();
var request = require('request');

app.get('/', function(req, res){
 request('http://www.cnblogs.com', function (error, response, body) {
  if (!error && response.statusCode == 200) {
    res.send('hello world');
  }
 })
});
app.listen(3000);

其中request的鏈接就是我們要爬的網(wǎng)址，加入我們要爬的是博客園的網(wǎng)站，所以輸入的是博客園的網(wǎng)址

6、引入cherrio，來讓我們可以操做爬到的網(wǎng)站的內(nèi)容，繼續(xù)修改一下app.js

var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res){
 request('http://www.cnblogs.com', function (error, response, body) {
  if (!error && response.statusCode == 200) {
   //返回的body為抓到的網(wǎng)頁的html內(nèi)容
   var $ = cheerio.load(body); //當前的$符相當于拿到了所有的body里面的選擇器
   var navText=$('.post_nav_block').html(); //拿到導(dǎo)航欄的內(nèi)容
   res.send(navText);
  }
 })
});
app.listen(3000);

我們抓到的內(nèi)容都返回到了request的body里面。cherrio可以獲取所有的dom選擇器。假如我們要獲取導(dǎo)航的內(nèi)容：ul的class為：post_nav_block