python超詳細(xì)實(shí)現(xiàn)字體反爬流程
查策實(shí)戰(zhàn)場(chǎng)景
本次要采集的目標(biāo)站點(diǎn)是查策,該測(cè)試站點(diǎn)如下所示。
目標(biāo)站點(diǎn)網(wǎng)址如下
www.chacewang.com/chanye/news?newstype=sbtz
該站點(diǎn)的新聞資訊類(lèi)信息很容易采集,通過(guò)開(kāi)發(fā)者工具查看了一下,并不存在加密反爬。
但字體反爬還是存在的,案例尋找過(guò)程非常簡(jiǎn)單,只需要開(kāi)發(fā)者工具切換到網(wǎng)絡(luò),字體視圖,然后預(yù)覽一下字體文件即可。
可以看到僅數(shù)字進(jìn)行了順序變換。
接下來(lái)就是實(shí)戰(zhàn)解碼的過(guò)程,可以通過(guò) FontCreator 查看一下該字體內(nèi)容。
字體實(shí)戰(zhàn)解碼
隨機(jī)下載一個(gè)字體文件打開(kāi)之后發(fā)現(xiàn)出事情了,字體文件內(nèi)容如下所示。
其中除了簡(jiǎn)易的數(shù)字外,還存在大量的中文字符,也就是存在一種可能性,網(wǎng)頁(yè)中的部分中文字符也被替換掉了。
我們拿一個(gè)【類(lèi)】字做一下測(cè)試。
結(jié)果在頁(yè)面中檢索了一下,發(fā)現(xiàn)并沒(méi)有發(fā)生變化,而且通過(guò)計(jì)算樣式查看,得到的字體是平方和微軟雅黑?
可能網(wǎng)站升級(jí)之后,字體反爬只保留了數(shù)字部分。
既然這樣,那整體的難度就降低了~
我們隨機(jī)訪問(wèn)一個(gè)頁(yè)面,獲取其網(wǎng)頁(yè)源碼內(nèi)容。
訪問(wèn)公告類(lèi)信息,需要提前登錄,注冊(cè)一個(gè)賬號(hào)即可
import requests headers = { "content-type": "application/json", "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) 你的 UA 信息", "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz", "cookie": "cityinfo={%22citycode%22:%22RegisterArea_HBDQ_Hebei_ShiJiaZhuangShi%22%2C%22cityname%22:%22%E7%9F%B3%E5%AE%B6%E5%BA%84%22}; 你的 COOKIES 信息" } res = requests.get('https://www.chacewang.com/news/detail?guid=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers) print(res.text)
結(jié)果運(yùn)行代碼之后,返回了一堆亂碼。
橡皮擦原以為還有什么加密邏輯存在,結(jié)果發(fā)現(xiàn)多慮了,只是一個(gè)異步加載,真正的數(shù)據(jù)接口在下面。
web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo
接口一換,數(shù)據(jù)就可以獲取到了。
import requests headers = { "content-type": "application/json", "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36", "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz", "authorization": "Bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1Ni 這個(gè)值每次登錄都會(huì)切換" } res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers) print(res.text)
此時(shí)也發(fā)現(xiàn)了數(shù)據(jù)差異,接口返回和頁(yè)面展現(xiàn),差異如下所示。
此時(shí)字體反爬邏輯已經(jīng)發(fā)現(xiàn),但是字體文件還存在如下邏輯:
- 每次請(qǐng)求有 2 個(gè)字體文件,確定哪一個(gè)影響;
- 字體文件每次刷新都會(huì)產(chǎn)生變化;
- 字體文件名每次刷新都會(huì)產(chǎn)生變化。
解決第一個(gè)問(wèn)題,確定目標(biāo)字體文件,該操作很簡(jiǎn)單,只需要通過(guò)文件替換規(guī)則比對(duì)即可,例如下圖中響應(yīng)中的 0 被替換為 2。
解決第三個(gè)問(wèn)題,如何獲取字體文件名。
在網(wǎng)絡(luò)視圖頁(yè)面,喚醒搜索框,搜索字體文件名,發(fā)現(xiàn)其在 2 個(gè)請(qǐng)求中出現(xiàn)。第一個(gè)是字體文件,第二個(gè)是我們上文請(qǐng)求的數(shù)據(jù)接口。
檢索之后發(fā)現(xiàn)字體文件名在接口返回的 news_set
參數(shù)中,并且是部分字符串,稍后我們截取字符串即可。
字體反爬編碼時(shí)間
下面我們編寫(xiě)獲取字體文件的代碼,如下所示,下述代碼注意自行獲取一下 UA 值和 authorization 值。
import requests headers = { "content-type": "application/json", "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) ", "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz", "authorization": "Bearer " } res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers) # 獲取字體文件名 font_name = res.json()['data']['news_set'][:16] res = requests.get(f'https://web.chace-ai.com/media/fonts/{font_name}.woff', headers=headers) # 保存字體文件 file_woff =f'./fonts/{font_name}.woff' with open(file_woff, 'wb') as f: f.write(res.content)
后續(xù)邏輯就變得簡(jiǎn)單了,本文僅展示字體呈現(xiàn)部分邏輯,其安裝 fontTools
模塊,并使用下述命令行導(dǎo)入相關(guān)功能。
from fontTools.ttLib import TTFont
字體文件讀取代碼如下所示。
# 讀取文件 with open(file_woff, 'rb') as font_file: font = TTFont(io.BytesIO(font_file.read())) # 轉(zhuǎn)換成字體對(duì)象 print(font) # 獲取 cmap font_obj = font['cmap'] # 獲取 cmap table font_tables = font['cmap'].tables uni_list = font['cmap'].tables[0].ttFont.getGlyphOrder() print(uni_list[2:12])
查策,查策,就這么簡(jiǎn)單的解決了站點(diǎn)
到此這篇關(guān)于python超詳細(xì)實(shí)現(xiàn)字體反爬流程的文章就介紹到這了,更多相關(guān)python字體反爬內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python時(shí)間戳與時(shí)間字符串互相轉(zhuǎn)換實(shí)例代碼
這篇文章主要介紹了Python時(shí)間戳與時(shí)間字符串互相轉(zhuǎn)換實(shí)例代碼,大家參考使用2013-11-11Python+OpenCV實(shí)現(xiàn)表面缺陷檢測(cè)
對(duì)于現(xiàn)在很多工業(yè)檢測(cè),特別是對(duì)一些精密的器件進(jìn)行篩選,往往都是像素級(jí)別的,十分的精確。本文將利用OpenCV+Python實(shí)現(xiàn)表面缺陷檢測(cè),感興趣的可以了解一下2022-08-08Python入門(mén)基礎(chǔ)之import機(jī)制
這篇文章主要給大家介紹了關(guān)于Python入門(mén)基礎(chǔ)之import機(jī)制的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03python django下載大的csv文件實(shí)現(xiàn)方法分析
這篇文章主要介紹了python django下載大的csv文件實(shí)現(xiàn)方法,結(jié)合實(shí)例形式分析了Django框架下載csv大文件的相關(guān)操作技巧與注意事項(xiàng),需要的朋友可以參考下2019-07-07python深度學(xué)習(xí)TensorFlow神經(jīng)網(wǎng)絡(luò)模型的保存和讀取
這篇文章主要為大家介紹了python深度學(xué)習(xí)TensorFlow神經(jīng)網(wǎng)絡(luò)如何將訓(xùn)練得到的模型保存下來(lái)方便下次直接使用。為了讓訓(xùn)練結(jié)果可以復(fù)用,需要將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型持久化2021-11-11python 解決flask uwsgi 獲取不到全局變量的問(wèn)題
今天小編就為大家分享一篇python 解決flask uwsgi 獲取不到全局變量的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12pycharm 使用心得(六)進(jìn)行簡(jiǎn)單的數(shù)據(jù)庫(kù)管理
功能簡(jiǎn)介:pycharm自帶了一個(gè)簡(jiǎn)單的數(shù)據(jù)庫(kù)插件,可以比較方便的進(jìn)行簡(jiǎn)單的數(shù)據(jù)庫(kù)操作。2014-06-06