ChatGPT 幫我自動編寫 Python 爬蟲腳本的詳細(xì)過程
都知道最近ChatGPT聊天機器人爆火,我也想方設(shè)法注冊了賬號,據(jù)說后面要收費了。
ChatGPT是一種基于大語言模型的生成式AI,換句話說它可以自動生成類似人類語言的文本,把梳理好的有邏輯的答案呈現(xiàn)在你面前,這完全不同于傳統(tǒng)搜索工具。
ChatGPT不光可以回答人文、科學(xué)、情感等傳統(tǒng)問題,還可以寫代碼、改bug,程序員可就急了,簡直是在搶飯碗,所以網(wǎng)上出現(xiàn)各種ChatGPT讓你失業(yè)的焦慮言論。
俗話說“百聞不如一見”,我試著讓ChatGPT用Python去寫爬蟲腳本,看它到底行不行?
1、爬取知乎上的專欄文章
提問:
幫我用python寫代碼爬取網(wǎng)站
ChatGPT:
把給到的代碼放進PyCharm中跑一遍,發(fā)現(xiàn)沒有報錯,且打印出了內(nèi)容。
import requests from bs4 import BeautifulSoup url = "https://zhuanlan.zhihu.com/p/595050104" response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") title = soup.find("h1", class_="Post-Title").text.strip() body = soup.find("div", class_="Post-RichText").text.strip() print("Title:", title) print("Body:", body)
雖然說ChatGPT給出的代碼可以執(zhí)行,但它也提到由于爬取的網(wǎng)站會隨時變更,也就是HTML會變動,所以代碼可能需要調(diào)整才能正常工作。
凡是寫過爬蟲的同學(xué)應(yīng)該都能理解,人工寫的爬蟲代碼也沒法一勞永逸,需要隨時改。
這一點ChatGPT提示的很有道理。
后來我測試了medium、百家號上的文章,ChatGPT提供的代碼形式幾乎和上面一致,沒法直接執(zhí)行獲取結(jié)果,需要微調(diào)后才能跑。
2. 爬取京東某商品的評論
為了給ChatGPT增加難度,我試著讓它去爬取某電商網(wǎng)站的用戶評論
提問:
請用python寫代碼爬取這個京東商品的所有用戶評論 https://item.jd.com/13652780.html
ChatGPT:
可能這個網(wǎng)頁是動態(tài)頁面,ChatGPT提供的方法并不能爬取評論。
我接著問:
爬取的結(jié)果是空值怎么辦?
ChatGPT:
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-nnDP8sph-1676473447460)(null)]
ChatGPT提供了3種可能存在的原因,但并沒有幫我修改代碼。
于是我又問:
還是空值 請幫我重新寫代碼爬取
ChatGPT:
這次就牛掰了,它重新用Selenium寫了爬蟲代碼,并告訴我爬取動態(tài)網(wǎng)頁需要模擬瀏覽器行為,因此得用selenium技術(shù)。
我沒有運行去測試代碼正確與否,但ChatGPT確實驚艷到我了,能夠前后關(guān)聯(lián)對話內(nèi)容,并給出正確的解決方法。
3.繼續(xù)更多的測試
上面只是蜻蜓點水的玩玩,ChatGPT就已經(jīng)吸引到我,
我準(zhǔn)備多花時間去測試ChatGPT應(yīng)對各種爬蟲的解決方案,以及它對bug的修復(fù)能力。
僅僅從寫代碼層面看,ChatGPT已經(jīng)可以媲美中高級程序員的水平了,而且它的知識范疇遠(yuǎn)超人類最厲害的程序員
ChatGPT能夠根據(jù)對話生成人想要的內(nèi)容,這是AI巨大的突破,未來它的應(yīng)用之廣難以想象。
到此這篇關(guān)于ChatGPT 幫我自動編寫 Python 爬蟲腳本的文章就介紹到這了,更多相關(guān)ChatGPT自動編寫 Python 爬蟲腳本內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python不改變Excel單元格樣式方式—xls和xlsx兩種格式
這篇文章主要介紹了Python不改變Excel單元格樣式方式—xls和xlsx兩種格式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-06-06python實現(xiàn)無人機航拍圖片像素坐標(biāo)轉(zhuǎn)世界坐標(biāo)的示例代碼
已知相機參數(shù)在給定像素坐標(biāo)的前提下,求世界坐標(biāo),大部分通過AI來實現(xiàn),本文給大家分享實現(xiàn)腳本,感興趣的朋友跟隨小編一起看看吧2024-06-06機器學(xué)習(xí)python實戰(zhàn)之手寫數(shù)字識別
這篇文章主要為大家詳細(xì)介紹了機器學(xué)習(xí)python實戰(zhàn)之手寫數(shù)字識別,具有一定的參考價值,感興趣的小伙伴們可以參考一下2017-11-11python filecmp.dircmp實現(xiàn)遞歸比對兩個目錄的方法
這篇文章主要介紹了python filecmp.dircmp實現(xiàn)遞歸比對兩個目錄的方法,本文通過實例代碼給大家介紹的非常詳細(xì),大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-05-05Keras中 ImageDataGenerator函數(shù)的參數(shù)用法
這篇文章主要介紹了Keras中 ImageDataGenerator函數(shù)的參數(shù)用法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-07-07Python使用機器學(xué)習(xí)模型實現(xiàn)溫度預(yù)測詳解
使用?Python?可以使用機器學(xué)習(xí)模型進行溫度預(yù)測。常用的模型有回歸分析、隨機森林等。本文就來和大家來了具體實現(xiàn)方法,希望對大家有所幫助2023-01-01