使用shell腳本找出網(wǎng)站的空頁(yè)面和404錯(cuò)誤頁(yè)面
早之前記的一個(gè)筆記了,之前只是記錄了兩句代碼,放出來(lái)的話也是一個(gè)低質(zhì)量的頁(yè)面,于是設(shè)置為了僅自己可見(jiàn),今晚抽空補(bǔ)充一下。
記得當(dāng)?shù)那榫皯?yīng)該是提交sitemap時(shí)百度老提示有錯(cuò)誤的URL,導(dǎo)致sitemap不能正常被抓取,于是在想辦法解決這個(gè)問(wèn)題,所以才有下面這些筆記:用shell批量找出網(wǎng)站空頁(yè)面和404錯(cuò)誤頁(yè)面。
廢話不多說(shuō),直接上shell代碼:
time cat sitemap.txt|while read line;do curl -l $line -m 5 --connect-timeout 5 -o /dev/null -s -w "$line "%{http_code}" "%{size_download}"\n";done
前面加了一個(gè)time是為了看看代碼執(zhí)行所花的時(shí)間
%{http_code}意思是返回HTTP狀態(tài)碼,通過(guò)這個(gè)狀態(tài)碼我們就能知道該鏈接是正常的200鏈接,還是404錯(cuò)誤鏈接;
%{size_download}意思是返回當(dāng)前頁(yè)面的大小,如果值太小的話,說(shuō)明這些頁(yè)面很有可能是低質(zhì)量的空頁(yè)面,得想辦法剔除掉。
相關(guān)文章
關(guān)于SSH 遠(yuǎn)程執(zhí)行命令你要知道的二三事
SSH 是 Linux 下進(jìn)行遠(yuǎn)程連接的基本工具,但是如果僅僅用它來(lái)登錄那可是太浪費(fèi)啦!SSH 命令可是完成遠(yuǎn)程操作的神器啊,下面這篇文章主要給大家介紹了關(guān)于SSH 遠(yuǎn)程執(zhí)行命令的一些相關(guān)資料,需要的朋友可以參考下。2017-07-07
linux shell 管道命令(pipe)使用及與shell重定向區(qū)別
這篇文章主要介紹了linux shell 管道命令(pipe)使用及與shell重定向區(qū)別,需要的朋友可以參考下2015-10-10
shell實(shí)現(xiàn)學(xué)生成績(jī)管理系統(tǒng)
這篇文章主要為大家詳細(xì)介紹了shell實(shí)現(xiàn)學(xué)生成績(jī)管理系統(tǒng),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-01-01
通過(guò)Spring Shell 開發(fā) Java 命令行應(yīng)用
這篇文章主要介紹了通過(guò)Spring Shell 開發(fā) Java 命令行應(yīng)用的相關(guān)資料,非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友可以參考下2017-11-11
Linux實(shí)現(xiàn)徹底清理空文件夾的方法詳解
這篇文章主要介紹了Linux實(shí)現(xiàn)徹底刪除指定路徑下的所有空文件夾。這里的空文件夾的認(rèn)定標(biāo)準(zhǔn)是:如果某個(gè)文件夾的子文件夾全是空文件夾,也認(rèn)為該文件夾是空文件夾,需要的可以參考一下2022-10-10

