Python爬蟲獲取數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中的超詳細(xì)教程(一看就會(huì))
1.簡(jiǎn)介介紹
-網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。
-一般在瀏覽器上可以獲取到的,通過(guò)爬蟲也可以獲取到,常見(jiàn)的爬蟲語(yǔ)言有PHP,JAVA,C#,C++,Python,為啥我們經(jīng)常聽(tīng)到說(shuō)的都是Python爬蟲,這是因?yàn)閜ython爬蟲比較簡(jiǎn)單,功能比較齊全。
2.Xpath獲取頁(yè)面信息
通過(guò)Xpath進(jìn)行爬蟲就是獲取到頁(yè)面html后通過(guò)路徑的表達(dá)式來(lái)選取標(biāo)簽節(jié)點(diǎn),沿著路徑選取需要爬取的數(shù)據(jù)。
Xpath常用表達(dá)式:
表達(dá)式 | 描述 |
---|---|
/ | 從根節(jié)點(diǎn)選?。ㄈ∽庸?jié)點(diǎn)) |
// | 選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn) |
. | 選取當(dāng)前節(jié)點(diǎn)。 |
… | 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)。 |
@ | 選取屬性 |
* | 表示任意內(nèi)容(通配符) |
| | 運(yùn)算符可以選取多個(gè)路徑 |
Xpath常用函數(shù):
函數(shù) | 用法 | 解釋 |
---|---|---|
startswith() | xpath(‘//div[starts-with(@id,”celent”)]‘) | #選取id值以celent開頭的div節(jié)點(diǎn) |
contains() | xpath(‘//div[contains(@id,”celent”)]‘) | #選取id值包含celent的div節(jié)點(diǎn) |
and() | xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘) | #選取id值包含celent的div節(jié)點(diǎn) |
text() | _.xpath(’./div/div[4]/a/em/text()’) | #選取em標(biāo)簽下文本內(nèi)容 |
Xpath實(shí)操解析:
# 案例1 # //為從當(dāng)前html中選取節(jié)點(diǎn);[@class="c1text1"]為獲取所有的class為c1text1的節(jié)點(diǎn);/h1[1]為選取的節(jié)點(diǎn)下的第一個(gè)h1節(jié)點(diǎn),如果沒(méi)有[1]則是獲取所有的,可以通過(guò)循環(huán)進(jìn)行獲取數(shù)據(jù) etreeHtml.xpath('//*[@class="c1text1"]/h1[1]/text()') # 案例2 #//為從當(dāng)前html中選取節(jié)點(diǎn);[@class="c1text1"]為獲取所有的class為c1text1的節(jié)點(diǎn);/a為獲取當(dāng)前節(jié)點(diǎn)下的所有a標(biāo)簽節(jié)點(diǎn),得到一個(gè)ObjectList;通過(guò)for循環(huán)獲取里面每個(gè)標(biāo)簽數(shù)據(jù),./@src為獲取當(dāng)前節(jié)點(diǎn)的src屬性值 etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a') for _ in etreeHtml2: etreeHtml.xpath(./@src)
3.通過(guò)Xpath爬蟲實(shí)操
本次實(shí)例以爬取我的CSDN文章列表信息保存到數(shù)據(jù)庫(kù)為案列
3-1.獲取xpath
通過(guò)F12打開開發(fā)者模式,點(diǎn)擊左上角圖標(biāo)可參考下圖,選擇需要爬取數(shù)據(jù)的容器,在右邊選擇復(fù)制選擇xpath就可以得到xpath路徑了(//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div);
完整代碼展示:
# 導(dǎo)入需要的庫(kù) import requests from lxml import etree import pymysql # 文章詳情信息類 class articleData(): def __init__(self, title, abstract, path,date): self.title = title #文章名稱 self.abstract = abstract #文章摘要 self.path = path #文章路徑 self.date = date #發(fā)布時(shí)間 def to_string(self): print("文章名稱:"+self.title +";文章摘要:"+self.abstract +";文章路徑:"+self.path +";發(fā)布時(shí)間:"+self.date) #保存狗狗詳情數(shù)據(jù) #保存數(shù)據(jù) def saveData(DataObject): count = pymysql.connect( host='xx.xx.xx.xx', # 數(shù)據(jù)庫(kù)地址 port=3306, # 數(shù)據(jù)庫(kù)端口 user='xxxxx', # 數(shù)據(jù)庫(kù)賬號(hào) password='xxxxxx', # 數(shù)據(jù)庫(kù)密碼 db='xxxxxxx' # 數(shù)據(jù)庫(kù)名 ) # 創(chuàng)建數(shù)據(jù)庫(kù)對(duì)象 db = count.cursor() # 寫入sql # print("寫入數(shù)據(jù):"+DataObject.to_string()) sql = f"insert into article_detail(title,abstract,alias,path,date) " \ f"values ('{DataObject.title}','{DataObject.abstract}','{DataObject.path}','{DataObject.date}')" # 執(zhí)行sql print(sql) db.execute(sql) # 保存修改內(nèi)容 count.commit() db.close() # 爬取數(shù)據(jù)的方向 def getWebData(): # 網(wǎng)站頁(yè)面路徑 url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343" # 請(qǐng)求頭,模擬瀏覽器請(qǐng)求 header = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36" } # 獲取頁(yè)面所有節(jié)點(diǎn)代碼 html = requests.get(url=url, headers=header) # 打印頁(yè)面代碼查看 # print(html.text) # 如果亂碼可以設(shè)置編碼格式 # html.encoding = 'gb2312' # 通過(guò)xpath獲取數(shù)據(jù)對(duì)應(yīng)節(jié)點(diǎn) etreeHtml = etree.HTML(html.text) dataHtml = etreeHtml.xpath('//*[@class="mainContent"]/div/div/div') # 循環(huán)獲取數(shù)據(jù) for _ in dataHtml: # ''.join()是將內(nèi)容轉(zhuǎn)換為字符串可以后面接replace數(shù)據(jù)進(jìn)行處理 title = ''.join(_.xpath('./article/a/div[1]/h4/text()'))#文章標(biāo)題 abstract = ''.join(_.xpath('./article/a/div[2]/text()'))#文章摘要 path = ''.join(_.xpath('./article/a/@href'))#文章路徑 date = ''.join(_.xpath('./article/a/div[3]/div/div[2]/text()')).replace(' ','').replace('·','').replace('發(fā)布博客','')#發(fā)布時(shí)間 #初始化文章類數(shù)據(jù) article_data = articleData(title,abstract,path,date) article_data.to_string() #打印數(shù)據(jù)看看是否對(duì) #保存數(shù)據(jù)到數(shù)據(jù)庫(kù) # saveData(article_data) if __name__ == "__main__": getWebData()
總結(jié)
到此這篇關(guān)于Python爬蟲獲取數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中的文章就介紹到這了,更多相關(guān)Python爬蟲數(shù)據(jù)保存到數(shù)據(jù)庫(kù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python實(shí)戰(zhàn)小項(xiàng)目之Mnist手寫數(shù)字識(shí)別
MNIST 數(shù)據(jù)集已經(jīng)是一個(gè)被”嚼爛”了的數(shù)據(jù)集, 很多教程都會(huì)對(duì)它”下手”, 幾乎成為一個(gè) “典范”. 不過(guò)有些人可能對(duì)它還不是很了解, 下面通過(guò)一個(gè)小實(shí)例來(lái)帶你了解它2021-10-10python讀取mat文件生成h5文件的實(shí)現(xiàn)
這篇文章主要介紹了python讀取mat文件生成h5文件的實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07Python自動(dòng)化辦公之Excel數(shù)據(jù)的寫入
這篇文章主要為大家詳細(xì)介紹一下Python中excel的寫入模塊- xlsxwriter,并利用該模塊實(shí)現(xiàn)Excel數(shù)據(jù)的寫入,感興趣的小伙伴可以了解一下2022-05-05一文搞懂Python中pandas透視表pivot_table功能
透視表是一種可以對(duì)數(shù)據(jù)動(dòng)態(tài)排布并且分類匯總的表格格式?;蛟S大多數(shù)人都在Excel使用過(guò)數(shù)據(jù)透視表,也體會(huì)到它的強(qiáng)大功能,而在pandas中它被稱作pivot_table,今天通過(guò)本文給大家介紹Python中pandas透視表pivot_table功能,感興趣的朋友一起看看吧2021-11-11Python函數(shù)式編程指南(二):從函數(shù)開始
這篇文章主要介紹了Python函數(shù)式編程指南(二):從函數(shù)開始,本文講解了定義一個(gè)函數(shù)、使用函數(shù)賦值、閉包、作為參數(shù)等內(nèi)容,需要的朋友可以參考下2015-06-06python和pywin32實(shí)現(xiàn)窗口查找、遍歷和點(diǎn)擊的示例代碼
這篇文章主要介紹了python和pywin32實(shí)現(xiàn)窗口查找、遍歷和點(diǎn)擊的示例代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04Pandas提高數(shù)據(jù)分析效率的13個(gè)技巧匯總
這篇文章主要是為大家歸納整理了13個(gè)工作中常用到的pandas使用技巧,方便更高效地實(shí)現(xiàn)數(shù)據(jù)分析,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2022-05-05關(guān)于torch.scatter與torch_scatter庫(kù)的使用整理
這篇文章主要介紹了關(guān)于torch.scatter與torch_scatter庫(kù)的使用整理,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-09-09Python實(shí)現(xiàn)的堆排序算法原理與用法實(shí)例分析
這篇文章主要介紹了Python實(shí)現(xiàn)的堆排序算法,簡(jiǎn)單描述了堆排序的原理,并結(jié)合實(shí)例形式分析了Python實(shí)現(xiàn)堆排序的相關(guān)操作技巧,代碼中備有較為詳細(xì)的注釋便于理解,需要的朋友可以參考下2017-11-11