Python3爬蟲中關(guān)于Ajax分析方法的總結(jié)
這里還以前面的微博為例,我們知道拖動(dòng)刷新的內(nèi)容由Ajax加載,而且頁面的URL沒有變化,那么應(yīng)該到哪里去查看這些Ajax請求呢?
1. 查看請求
這里還需要借助瀏覽器的開發(fā)者工具,下面以Chrome瀏覽器為例來介紹。
首先,用Chrome瀏覽器打開微博的鏈接https://m.weibo.cn/u/2830678474,隨后在頁面中點(diǎn)擊鼠標(biāo)右鍵,從彈出的快捷菜單中選擇“檢查”選項(xiàng),此時(shí)便會(huì)彈出開發(fā)者工具,如圖6-2所示:
此時(shí)在Elements選項(xiàng)卡中便會(huì)觀察到網(wǎng)頁的源代碼,右側(cè)便是節(jié)點(diǎn)的樣式。
不過這不是我們想要尋找的內(nèi)容。切換到Network選項(xiàng)卡,隨后重新刷新頁面,可以發(fā)現(xiàn)這里出現(xiàn)了非常多的條目,如圖6-3所示。
前面也提到過,這里其實(shí)就是在頁面加載過程中瀏覽器與服務(wù)器之間發(fā)送請求和接收響應(yīng)的所有記錄。
Ajax其實(shí)有其特殊的請求類型,它叫作xhr。在圖6-3中,我們可以發(fā)現(xiàn)一個(gè)名稱以getIndex開頭的請求,其Type為xhr,這就是一個(gè)Ajax請求。用鼠標(biāo)點(diǎn)擊這個(gè)請求,可以查看這個(gè)請求的詳細(xì)信息,如圖6-4所示。
在右側(cè)可以觀察到其Request Headers、URL和Response Headers等信息。其中Request Headers中有一個(gè)信息為X-Requested-With:XMLHttpRequest,這就標(biāo)記了此請求是Ajax請求,如圖6-5所示。
隨后點(diǎn)擊一下Preview,即可看到響應(yīng)的內(nèi)容,它是JSON格式的。這里Chrome為我們自動(dòng)做了解析,點(diǎn)擊箭頭即可展開和收起相應(yīng)內(nèi)容,如圖6-6所示。
觀察可以發(fā)現(xiàn),這里的返回結(jié)果是我的個(gè)人信息,如昵稱、簡介、頭像等,這也是用來渲染個(gè)人主頁所使用的數(shù)據(jù)。JavaScript接收到這些數(shù)據(jù)之后,再執(zhí)行相應(yīng)的渲染方法,整個(gè)頁面就渲染出來了。
另外,也可以切換到Response選項(xiàng)卡,從中觀察到真實(shí)的返回?cái)?shù)據(jù),如圖6-7所示。
接下來,切回到第一個(gè)請求,觀察一下它的Response是什么,如圖6-8所示。
這是最原始的鏈接https://m.weibo.cn/u/2830678474返回的結(jié)果,其代碼只有不到50行,結(jié)構(gòu)也非常簡單,只是執(zhí)行了一些JavaScript。
所以說,我們看到的微博頁面的真實(shí)數(shù)據(jù)并不是最原始的頁面返回的,而是后來執(zhí)行JavaScript后再次向后臺(tái)發(fā)送了Ajax請求,瀏覽器拿到數(shù)據(jù)后再進(jìn)一步渲染出來的。
2. 過濾請求
接下來,再利用Chrome開發(fā)者工具的篩選功能篩選出所有的Ajax請求。在請求的上方有一層篩選欄,直接點(diǎn)擊XHR,此時(shí)在下方顯示的所有請求便都是Ajax請求了,如圖6-9所示。
接下來,不斷滑動(dòng)頁面,可以看到頁面底部有一條條新的微博被刷出,而開發(fā)者工具下方也一個(gè)個(gè)地出現(xiàn)Ajax請求,這樣我們就可以捕獲到所有的Ajax請求了。
隨意點(diǎn)開一個(gè)條目,都可以清楚地看到其Request URL、Request Headers、Response Headers、Response Body等內(nèi)容,此時(shí)想要模擬請求和提取就非常簡單了。
圖6-10所示的內(nèi)容便是我的某一頁微博的列表信息。
到現(xiàn)在為止,我們已經(jīng)可以分析出來Ajax請求的一些詳細(xì)信息了,接下來只需要用程序模擬這些Ajax請求,就可以輕松提取我們所需要的信息了。
在下一節(jié)中,我們用Python實(shí)現(xiàn)Ajax請求的模擬,從而實(shí)現(xiàn)數(shù)據(jù)的抓取。
以上就是Python3爬蟲中關(guān)于Ajax分析方法的總結(jié)的詳細(xì)內(nèi)容,更多關(guān)于Python3爬蟲里Ajax分析方法的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python使用篩選法計(jì)算小于給定數(shù)字的所有素?cái)?shù)
這篇文章主要為大家詳細(xì)介紹了python使用篩選法計(jì)算小于給定數(shù)字的所有素?cái)?shù),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-03-03python 實(shí)現(xiàn)讀取csv數(shù)據(jù),分類求和 再寫進(jìn) csv
這篇文章主要介紹了python 實(shí)現(xiàn)讀取csv數(shù)據(jù),分類求和 再寫進(jìn) csv,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05Python實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)線性鏈表(單鏈表)算法示例
這篇文章主要介紹了Python實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)線性鏈表(單鏈表)算法,結(jié)合實(shí)例形式分析了Python單鏈表的定義、節(jié)點(diǎn)插入、刪除、打印等相關(guān)操作技巧,需要的朋友可以參考下2019-05-05Python實(shí)現(xiàn)FTP上傳文件或文件夾實(shí)例(遞歸)
本篇文章主要介紹了Python實(shí)現(xiàn)FTP上傳文件或文件夾實(shí)例(遞歸),具有一定的參考價(jià)值,有興趣的可以了解一下。2017-01-01TensorFlow人工智能學(xué)習(xí)張量及高階操作示例詳解
這篇文章主要為大家介紹了TensorFlow人工智能學(xué)習(xí)張量及高階操作的示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-11-11keras在構(gòu)建LSTM模型時(shí)對變長序列的處理操作
這篇文章主要介紹了keras在構(gòu)建LSTM模型時(shí)對變長序列的處理操作,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06Python利用Faiss庫實(shí)現(xiàn)ANN近鄰搜索的方法詳解
這篇文章主要介紹了Python利用Faiss庫實(shí)現(xiàn)ANN近鄰搜索的方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08python使用htmllib分析網(wǎng)頁內(nèi)容的方法
這篇文章主要介紹了python使用htmllib分析網(wǎng)頁內(nèi)容的方法,涉及Python使用htmllib模塊的相關(guān)技巧,需要的朋友可以參考下2015-05-05如何設(shè)置PyCharm中的Python代碼模版(推薦)
這篇文章主要介紹了如何設(shè)置PyCharm中的Python代碼模版,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-11-11