在Nginx中攔截特定用戶代理的教程
現(xiàn)代互聯(lián)網(wǎng)滋生了大量各種各樣的惡意機器人和網(wǎng)絡(luò)爬蟲,比如像惡意軟件機器人、垃圾郵件程序或內(nèi)容刮刀,這些惡意工具一直偷偷摸摸地掃描你的網(wǎng)站,干些諸如檢測潛在網(wǎng)站漏洞、收獲電子郵件地址,或者只是從你的網(wǎng)站偷取內(nèi)容。大多數(shù)機器人能夠通過它們的“用戶代理”簽名字符串來識別。
作為第一道防線,你可以嘗試通過將這些機器人的用戶代理字符串添加入robots.txt文件來阻止這些惡意軟件機器人訪問你的網(wǎng)站。但是,很不幸的是,該操作只針對那些“行為良好”的機器人,這些機器人被設(shè)計遵循robots.txt的規(guī)范。許多惡意軟件機器人可以很容易地忽略掉robots.txt,然后隨意掃描你的網(wǎng)站。
另一個用以阻擋特定機器人的途徑,就是配置你的網(wǎng)絡(luò)服務(wù)器,通過特定的用戶代理字符串拒絕要求提供內(nèi)容的請求。本文就是說明如何在nginx網(wǎng)絡(luò)服務(wù)器上阻擋特定的用戶代理。
在Nginx中將特定用戶代理列入黑名單
要配置用戶代理阻擋列表,請打開你的網(wǎng)站的nginx配置文件,找到server定義部分。該文件可能會放在不同的地方,這取決于你的nginx配置或Linux版本(如,/etc/nginx/nginx.conf,/etc/nginx/sites-enabled/<your-site>,/usr/local/nginx/conf/nginx.conf,/etc/nginx/conf.d/<your-site>)。
listen 80 default_server;
server_name xmodulo.com;
root /usr/share/nginx/html;
....
}
在打開該配置文件并找到 server 部分后,添加以下 if 聲明到該部分內(nèi)的某個地方。
listen 80 default_server;
server_name xmodulo.com;
root /usr/share/nginx/html;
# 大小寫敏感的匹配
if ($http_user_agent ~ (Antivirx|Arian) {
return 403;
}
#大小寫無關(guān)的匹配
return 403;
}
....
}
如你所想,這些 if 聲明使用正則表達式匹配了任意不良用戶字符串,并向匹配的對象返回403 HTTP狀態(tài)碼。 $http_user_agent是HTTP請求中的一個包含有用戶代理字符串的變量?!畘'操作符針對用戶代理字符串進行大小寫敏感匹配,而‘~*'操作符則進行大小寫無關(guān)匹配。‘|'操作符是邏輯或,因此,你可以在 if 聲明中放入眾多的用戶代理關(guān)鍵字,然后將它們?nèi)孔钃醯簟?/p>
在修改配置文件后,你必須重新加載nginx以激活阻擋:
$ sudo /path/to/nginx -s reload
你可以通過使用帶有 “--user-agent” 選項的 wget 測試用戶代理阻擋。
$ wget --user-agent "malicious bot" http://<nginx-ip-address>
管理Nginx中的用戶代理黑名單
目前為止,我已經(jīng)展示了在nginx中如何阻擋一些用戶代理的HTTP請求。如果你有許多不同類型的網(wǎng)絡(luò)爬蟲機器人要阻擋,又該怎么辦呢?
由于用戶代理黑名單會增長得很大,所以將它們放在nginx的server部分不是個好點子。取而代之的是,你可以創(chuàng)建一個獨立的文件,在該文件中列出所有被阻擋的用戶代理。例如,讓我們創(chuàng)建/etc/nginx/useragent.rules,并定義以下面的格式定義所有被阻擋的用戶代理的圖譜。
$ sudo vi /etc/nginx/useragent.rules
default 0;
~*malicious 1;
~*backdoor 1;
~*netcrawler 1;
~Antivirx 1;
~Arian 1;
~webbandit 1;
}
與先前的配置類似,‘~*'將匹配以大小寫不敏感的方式匹配關(guān)鍵字,而‘~'將使用大小寫敏感的正則表達式匹配關(guān)鍵字。“default 0”行所表達的意思是,任何其它文件中未被列出的用戶代理將被允許。
接下來,打開你的網(wǎng)站的nginx配置文件,找到里面包含 http 的部分,然后添加以下行到 http 部分某個位置。
.....
include /etc/nginx/useragent.rules
}
注意,該 include 聲明必須出現(xiàn)在 server 部分之前(這就是為什么我們將它添加到了 http 部分里)。
現(xiàn)在,打開nginx配置定義你的服務(wù)器的部分,添加以下 if 聲明:
....
if ($badagent) {
return 403;
}
....
}
最后,重新加載nginx。
$ sudo /path/to/nginx -s reload
現(xiàn)在,任何包含有/etc/nginx/useragent.rules中列出的關(guān)鍵字的用戶代理將被nginx自動禁止。
相關(guān)文章
解決httpd占用80端口導(dǎo)致Nginx啟動失敗報錯的解決辦法
今天在建自己小網(wǎng)站時啟動Nginx時,發(fā)現(xiàn)其報下列錯誤,意思是因為80端口被占用導(dǎo)致Nginx啟動失敗,所以本文小編給大家介紹介紹如何解決解決httpd占用80端口導(dǎo)致Nginx啟動不成功報nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use)2023-11-11Nginx如何獲取自定義請求header頭和URL參數(shù)詳解
這篇文章主要給大家介紹了關(guān)于Nginx如何獲取自定義請求header頭和URL參數(shù)的相關(guān)資料,本文適用于需要在nginx里獲取http請求頭信息或者傳遞的參數(shù)進行一些計算和處理的情況,需要的朋友可以參考下2022-07-07WordPress與Drupal的Nginx配置rewrite重寫規(guī)則示例
這篇文章主要介紹了WordPress與Drupal的Nginx配置重寫規(guī)則示例,文中介紹的rewrite寫法簡單而突出配置重點,需要的朋友可以參考下2016-01-01使用Nginx實現(xiàn)根據(jù) IP 匹配指定 URL
最近的一個項目,需要特定的IP訪問某專題頁面的時候跳轉(zhuǎn)到網(wǎng)站首頁,思考了下,直接使用NGINX實現(xiàn),分享給大家。2014-09-09