ChatGPT 幫我自動(dòng)編寫 Python 爬蟲腳本的詳細(xì)過程
都知道最近ChatGPT聊天機(jī)器人爆火,我也想方設(shè)法注冊(cè)了賬號(hào),據(jù)說后面要收費(fèi)了。
ChatGPT是一種基于大語言模型的生成式AI,換句話說它可以自動(dòng)生成類似人類語言的文本,把梳理好的有邏輯的答案呈現(xiàn)在你面前,這完全不同于傳統(tǒng)搜索工具。
ChatGPT不光可以回答人文、科學(xué)、情感等傳統(tǒng)問題,還可以寫代碼、改bug,程序員可就急了,簡直是在搶飯碗,所以網(wǎng)上出現(xiàn)各種ChatGPT讓你失業(yè)的焦慮言論。
俗話說“百聞不如一見”,我試著讓ChatGPT用Python去寫爬蟲腳本,看它到底行不行?
1、爬取知乎上的專欄文章
提問:
幫我用python寫代碼爬取網(wǎng)站
ChatGPT:
把給到的代碼放進(jìn)PyCharm中跑一遍,發(fā)現(xiàn)沒有報(bào)錯(cuò),且打印出了內(nèi)容。
import requests from bs4 import BeautifulSoup url = "https://zhuanlan.zhihu.com/p/595050104" response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") title = soup.find("h1", class_="Post-Title").text.strip() body = soup.find("div", class_="Post-RichText").text.strip() print("Title:", title) print("Body:", body)
雖然說ChatGPT給出的代碼可以執(zhí)行,但它也提到由于爬取的網(wǎng)站會(huì)隨時(shí)變更,也就是HTML會(huì)變動(dòng),所以代碼可能需要調(diào)整才能正常工作。
凡是寫過爬蟲的同學(xué)應(yīng)該都能理解,人工寫的爬蟲代碼也沒法一勞永逸,需要隨時(shí)改。
這一點(diǎn)ChatGPT提示的很有道理。
后來我測試了medium、百家號(hào)上的文章,ChatGPT提供的代碼形式幾乎和上面一致,沒法直接執(zhí)行獲取結(jié)果,需要微調(diào)后才能跑。
2. 爬取京東某商品的評(píng)論
為了給ChatGPT增加難度,我試著讓它去爬取某電商網(wǎng)站的用戶評(píng)論
提問:
請(qǐng)用python寫代碼爬取這個(gè)京東商品的所有用戶評(píng)論 https://item.jd.com/13652780.html
ChatGPT:
可能這個(gè)網(wǎng)頁是動(dòng)態(tài)頁面,ChatGPT提供的方法并不能爬取評(píng)論。
我接著問:
爬取的結(jié)果是空值怎么辦?
ChatGPT:
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-nnDP8sph-1676473447460)(null)]
ChatGPT提供了3種可能存在的原因,但并沒有幫我修改代碼。
于是我又問:
還是空值 請(qǐng)幫我重新寫代碼爬取
ChatGPT:
這次就牛掰了,它重新用Selenium寫了爬蟲代碼,并告訴我爬取動(dòng)態(tài)網(wǎng)頁需要模擬瀏覽器行為,因此得用selenium技術(shù)。
我沒有運(yùn)行去測試代碼正確與否,但ChatGPT確實(shí)驚艷到我了,能夠前后關(guān)聯(lián)對(duì)話內(nèi)容,并給出正確的解決方法。
3.繼續(xù)更多的測試
上面只是蜻蜓點(diǎn)水的玩玩,ChatGPT就已經(jīng)吸引到我,
我準(zhǔn)備多花時(shí)間去測試ChatGPT應(yīng)對(duì)各種爬蟲的解決方案,以及它對(duì)bug的修復(fù)能力。
僅僅從寫代碼層面看,ChatGPT已經(jīng)可以媲美中高級(jí)程序員的水平了,而且它的知識(shí)范疇遠(yuǎn)超人類最厲害的程序員
ChatGPT能夠根據(jù)對(duì)話生成人想要的內(nèi)容,這是AI巨大的突破,未來它的應(yīng)用之廣難以想象。
到此這篇關(guān)于ChatGPT 幫我自動(dòng)編寫 Python 爬蟲腳本的文章就介紹到這了,更多相關(guān)ChatGPT自動(dòng)編寫 Python 爬蟲腳本內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python使用FTP上傳文件的實(shí)現(xiàn)示例
本文主要介紹了Python使用FTP上傳文件的實(shí)現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03Python不改變Excel單元格樣式方式—xls和xlsx兩種格式
這篇文章主要介紹了Python不改變Excel單元格樣式方式—xls和xlsx兩種格式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-06-06python實(shí)現(xiàn)無人機(jī)航拍圖片像素坐標(biāo)轉(zhuǎn)世界坐標(biāo)的示例代碼
已知相機(jī)參數(shù)在給定像素坐標(biāo)的前提下,求世界坐標(biāo),大部分通過AI來實(shí)現(xiàn),本文給大家分享實(shí)現(xiàn)腳本,感興趣的朋友跟隨小編一起看看吧2024-06-06機(jī)器學(xué)習(xí)python實(shí)戰(zhàn)之手寫數(shù)字識(shí)別
這篇文章主要為大家詳細(xì)介紹了機(jī)器學(xué)習(xí)python實(shí)戰(zhàn)之手寫數(shù)字識(shí)別,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-11-11python filecmp.dircmp實(shí)現(xiàn)遞歸比對(duì)兩個(gè)目錄的方法
這篇文章主要介紹了python filecmp.dircmp實(shí)現(xiàn)遞歸比對(duì)兩個(gè)目錄的方法,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-05-05Keras中 ImageDataGenerator函數(shù)的參數(shù)用法
這篇文章主要介紹了Keras中 ImageDataGenerator函數(shù)的參數(shù)用法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-07-07Python使用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)溫度預(yù)測詳解
使用?Python?可以使用機(jī)器學(xué)習(xí)模型進(jìn)行溫度預(yù)測。常用的模型有回歸分析、隨機(jī)森林等。本文就來和大家來了具體實(shí)現(xiàn)方法,希望對(duì)大家有所幫助2023-01-01