基于python爬取鏈家二手房信息代碼示例
基本環(huán)境配置
- python 3.6
- pycharm
- requests
- parsel
- time
相關(guān)模塊pip安裝即可
確定目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)
哦豁,這個(gè)價(jià)格..................看到都覺得腦闊疼
通過開發(fā)者工具,可以直接找到網(wǎng)頁(yè)返回的數(shù)據(jù)~
每一個(gè)二手房的數(shù)據(jù),都在網(wǎng)頁(yè)的 li 標(biāo)簽里面,咱們可以獲取網(wǎng)頁(yè)返回的數(shù)據(jù),然后通過解析,就可以獲取到自己想要的數(shù)據(jù)了~
獲取網(wǎng)頁(yè)數(shù)據(jù)
import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.get(url=url, headers=headers)
解析網(wǎng)頁(yè)數(shù)據(jù)
import parsel selector = parsel.Selector(response.text) lis = selector.css('.sellListContent li') dit = {} for li in lis: title = li.css('.title a::text').get() dit['標(biāo)題'] = title positionInfo = li.css('.positionInfo a::text').getall() info = '-'.join(positionInfo) dit['開發(fā)商'] = info houseInfo = li.css('.houseInfo::text').get() dit['房子信息'] = houseInfo followInfo = li.css('.followInfo::text').get() dit['發(fā)布周期'] = followInfo Price = li.css('.totalPrice span::text').get() dit['售價(jià)/萬(wàn)'] = Price unitPrice = li.css('.unitPrice span::text').get() dit['單價(jià)'] = unitPrice csv_writer.writerow(dit) print(dit)
保存數(shù)據(jù)
import csv f = open('二手房信息.csv', mode='a', encoding='utf-8-sig', newline='') csv_writer = csv.DictWriter(f, fieldnames=['標(biāo)題', '開發(fā)商', '房子信息', '發(fā)布周期', '售價(jià)/萬(wàn)', '單價(jià)']) csv_writer.writeheader() csv_writer.writerow(dit) f.close()
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
詳解如何使用pandas進(jìn)行時(shí)間序列數(shù)據(jù)的周期轉(zhuǎn)換
時(shí)間序列數(shù)據(jù)是數(shù)據(jù)分析中經(jīng)常遇到的類型,為了更多的挖掘出數(shù)據(jù)內(nèi)部的信息,我們常常依據(jù)原始數(shù)據(jù)中的時(shí)間周期,將其轉(zhuǎn)換成不同跨度的周期,下面以模擬的K線數(shù)據(jù)為例,演示如何使用pandas來(lái)進(jìn)行周期轉(zhuǎn)換,感興趣的朋友可以參考下2024-05-05python深度學(xué)習(xí)tensorflow卷積層示例教程
這篇文章主要為大家介紹了python深度學(xué)習(xí)tensorflow卷積層示例教程,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06Python實(shí)現(xiàn)的下載網(wǎng)頁(yè)源碼功能示例
這篇文章主要介紹了Python實(shí)現(xiàn)的下載網(wǎng)頁(yè)源碼功能,涉及Python基于http請(qǐng)求與響應(yīng)實(shí)現(xiàn)的網(wǎng)頁(yè)源碼讀取功能相關(guān)操作技巧,需要的朋友可以參考下2017-06-06pandas庫(kù)中to_datetime()方法的使用解析
這篇文章主要介紹了pandas庫(kù)中to_datetime()方法的使用解析,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07音頻處理 windows10下python三方庫(kù)librosa安裝教程
這篇文章主要介紹了音頻處理 windows10下python三方庫(kù)librosa安裝方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-06-06python對(duì)驗(yàn)證碼降噪的實(shí)現(xiàn)示例代碼
這篇文章主要介紹了python對(duì)驗(yàn)證碼降噪的實(shí)現(xiàn)示例代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-11-11