使用python實(shí)現(xiàn)簡(jiǎn)單爬取網(wǎng)頁(yè)數(shù)據(jù)并導(dǎo)入MySQL中的數(shù)據(jù)庫(kù)
前言:要使用 Python 爬取網(wǎng)頁(yè)數(shù)據(jù)并將數(shù)據(jù)導(dǎo)入 MySQL 數(shù)據(jù)庫(kù),您需要使用 Requests 庫(kù)進(jìn)行網(wǎng)頁(yè)抓取,使用 BeautifulSoup 庫(kù)對(duì)抓取到的 HTML 進(jìn)行解析,并使用 PyMySQL 庫(kù)與 MySQL 進(jìn)行交互。
以下是一個(gè)簡(jiǎn)單的示例:
1. 安裝所需庫(kù):
pip install requests beautifulsoup4 pymysql
2. 導(dǎo)入所需庫(kù):
import requests from bs4 import BeautifulSoup import pymysql
3. 建立數(shù)據(jù)庫(kù)連接:
db = pymysql.connect( host='localhost', user='root', password='password', db='mydatabase' )
這里我們假設(shè)您已經(jīng)在本地搭建了 MySQL 數(shù)據(jù)庫(kù),并創(chuàng)建了一個(gè)名為 `mydatabase` 的數(shù)據(jù)庫(kù)。您需要根據(jù)實(shí)際情況修改主機(jī)、用戶名、密碼和數(shù)據(jù)庫(kù)名。
4. 使用 Requests 庫(kù)抓取網(wǎng)頁(yè):
url = 'http://www.example.com' response = requests.get(url) html = response.text
5. 使用 BeautifulSoup 庫(kù)解析 HTML:
soup = BeautifulSoup(html, 'html.parser') data = soup.find_all('a')
6. 使用 PyMySQL 庫(kù)將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù):
cursor = db.cursor() for item in data: title = item.string url = item.get('href') sql = f"INSERT INTO mytable (title, url) VALUES ('{title}', '{url}')" cursor.execute(sql) db.commit()
這里我們使用了 PyMySQL 庫(kù)的 `cursor` 方法創(chuàng)建游標(biāo),然后遍歷解析后的數(shù)據(jù),并使用 SQL 語(yǔ)句將數(shù)據(jù)插入到數(shù)據(jù)庫(kù)表中。
完整的示例代碼如下:
import requests from bs4 import BeautifulSoup import pymysql # 建立數(shù)據(jù)庫(kù)連接 db = pymysql.connect( host='localhost', user='root', password='password', db='mydatabase' ) # 抓取網(wǎng)頁(yè) url = 'http://www.example.com' response = requests.get(url) html = response.text # 解析 HTML soup = BeautifulSoup(html, 'html.parser') data = soup.find_all('a') # 將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù) cursor = db.cursor() for item in data: title = item.string url = item.get('href') sql = f"INSERT INTO mytable (title, url) VALUES ('{title}', '{url}')" cursor.execute(sql) db.commit() # 關(guān)閉數(shù)據(jù)庫(kù)連接 db.close()
注意,這里示例代碼僅為演示使用,并未對(duì) SQL 注入攻擊進(jìn)行防范,請(qǐng)勿直接在生產(chǎn)環(huán)境中使用。同時(shí),您也需要根據(jù)實(shí)際情況修改表名、字段名和 SQL 語(yǔ)句等內(nèi)容。
這只是單純的思路,僅供參考。
到此這篇關(guān)于使用python實(shí)現(xiàn)簡(jiǎn)單爬取網(wǎng)頁(yè)數(shù)據(jù)并導(dǎo)入MySQL中的數(shù)據(jù)庫(kù)的文章就介紹到這了,更多相關(guān)python 爬取網(wǎng)頁(yè)數(shù)據(jù)導(dǎo)入MySQL內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python之virtualenv的簡(jiǎn)單使用方法(必看篇)
下面小編就為大家分享一python之virtualenv的簡(jiǎn)單使用方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2017-11-11Python函數(shù)式編程指南(一):函數(shù)式編程概述
這篇文章主要介紹了Python函數(shù)式編程指南(一):函數(shù)式編程概述,本文講解了什么是函數(shù)式編程概述、什么是函數(shù)式編程、為什么使用函數(shù)式編程、如何辨認(rèn)函數(shù)式風(fēng)格等核心知識(shí),需要的朋友可以參考下2015-06-06python3設(shè)計(jì)模式之簡(jiǎn)單工廠模式
這篇文章主要為大家詳細(xì)介紹了python3設(shè)計(jì)模式之簡(jiǎn)單工廠模式,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-10-10基于pycharm的beautifulsoup4庫(kù)使用方法教程
這篇文章主要介紹了基于pycharm的beautifulsoup4庫(kù)使用方法教程,對(duì)正在學(xué)習(xí)或者工作的你有一點(diǎn)的參考價(jià)值,需要的朋友可以參加一下2022-01-01Python爬蟲中Selenium實(shí)現(xiàn)文件上傳
這篇文章主要介紹了Python爬蟲中Selenium實(shí)現(xiàn)文件上傳,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12手把手教你使用Python創(chuàng)建微信機(jī)器人
微信,一個(gè)日活10億的超級(jí)app,不僅在國(guó)內(nèi)社交獨(dú)領(lǐng)風(fēng)騷,在國(guó)外社交也同樣占有一席之地,今天我們要將便是如何用Python來(lái)生成一個(gè)微信機(jī)器人,感興趣的朋友跟隨小編一起看看吧2019-04-04python如何實(shí)現(xiàn)斐波那契數(shù)列
這篇文章主要介紹了python如何實(shí)現(xiàn)斐波那契數(shù)列問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-08-08python 列表轉(zhuǎn)為字典的兩個(gè)小方法(小結(jié))
這篇文章主要介紹了python 列表轉(zhuǎn)為字典的兩個(gè)小方法(小結(jié)),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-06-06python pandas dataframe 按列或者按行合并的方法
下面小編就為大家分享一篇python pandas dataframe 按列或者按行合并的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04