python爬取哈爾濱天氣信息
本文實(shí)例為大家分享了python爬取哈爾濱天氣信息的具體代碼,供大家參考,具體內(nèi)容如下
環(huán)境:
windows7
python3.4(pip install requests;pip install BeautifulSoup4)
代碼: (親測可以正確執(zhí)行)
# coding:utf-8
"""
總結(jié)一下,從網(wǎng)頁上抓取內(nèi)容大致分3步:
1、模擬瀏覽器訪問,獲取html源代碼
2、通過正則匹配,獲取指定標(biāo)簽中的內(nèi)容
3、將獲取到的內(nèi)容寫到文件中
"""
import requests # 用來抓取網(wǎng)頁的html源代碼
import csv # 將數(shù)據(jù)寫入到csv文件中
import random # 取隨機(jī)數(shù)
import time # 時(shí)間相關(guān)操作
import socket # 用于異常處理
import http.client # 用于異常處理
from bs4 import BeautifulSoup # 用來代替正則式取源碼中相應(yīng)標(biāo)簽中的內(nèi)容
# 獲取網(wǎng)頁中的html代碼
def get_content(url, data=None):
header = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
timeout = random.choice(range(80, 180)) # timeout是設(shè)定的一個(gè)超時(shí)時(shí)間,取隨機(jī)數(shù)是因?yàn)榉乐贡痪W(wǎng)站認(rèn)定為網(wǎng)絡(luò)爬蟲
while True:
try:
rep = requests.get(url, headers=header, timeout=timeout)
rep.encoding = 'utf-8' # rep.encoding = ‘utf-8'是將源代碼的編碼格式改為utf-8
break
except socket.timeout as e:
print('3:', e)
time.sleep(random.choice(range(8, 15)))
except socket.error as e:
print('4:', e)
time.sleep(random.choice(range(20, 60)))
except http.client.BadStatusLine as e:
print('5:', e)
time.sleep(random.choice(range(30, 80)))
except http.client.IncompleteRead as e:
print('6:', e)
time.sleep(random.choice(range(5, 15)))
return rep.text
# 獲取html中我們所需要的字段
def get_data(html_text):
final = []
bs = BeautifulSoup(html_text, "html.parser") # 創(chuàng)建BeautifulSoup對(duì)象
body = bs.body # 獲取body部分
data = body.find('div', {'id': '7d'}) # 找到id為7d的div
ul = data.find('ul') # 獲取ul部分
li = ul.find_all('li') # 獲取所有的li
for day in li: # 對(duì)每個(gè)li標(biāo)簽中的內(nèi)容進(jìn)行遍歷
temp = []
date = day.find('h1').string # 找到日期
temp.append(date) # 添加到temp中
inf = day.find_all('p') # 找到li中的所有p標(biāo)簽
temp.append(inf[0].string, ) # 第一個(gè)p標(biāo)簽中的內(nèi)容(天氣狀況)加到temp中
if inf[1].find('span') is None:
temperature_highest = None # 天氣預(yù)報(bào)可能沒有當(dāng)天的最高氣溫(到了傍晚,就是這樣),需要加個(gè)判斷語句,來輸出最低氣溫
else:
temperature_highest = inf[1].find('span').string # 找到最高溫
temperature_highest = temperature_highest.replace('℃', '') # 到了晚上網(wǎng)站會(huì)變,最高溫度后面也有個(gè)℃
temperature_lowest = inf[1].find('i').string # 找到最低溫
temperature_lowest = temperature_lowest.replace('℃', '') # 最低溫度后面有個(gè)℃,去掉這個(gè)符號(hào)
temp.append(temperature_highest) # 將最高溫添加到temp中
temp.append(temperature_lowest) # 將最低溫添加到temp中
final.append(temp) # 將temp加到final中
return final
# 寫入文件csv
def write_data(data, name):
file_name = name
with open(file_name, 'a', errors='ignore', newline='') as f:
f_csv = csv.writer(f)
f_csv.writerows(data)
if __name__ == '__main__':
url = 'http://www.weather.com.cn/weather/101050101.shtml'
html = get_content(url)
result = get_data(html)
write_data(result, 'weather.csv')
講解:
python標(biāo)準(zhǔn)庫-----內(nèi)置函數(shù)open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)
函數(shù)作用:打開一個(gè)文件并返回文件對(duì)象。如果文件不能打開,拋出異常OSError。
file:是一個(gè)字符串的文件名稱,或者是一個(gè)數(shù)組表示的文件名稱。文件名稱可以是相對(duì)當(dāng)前目錄的路徑,也可以是絕對(duì)路徑表示。
mode:是指打開文件的模式。
1)‘r'表示打開文件只讀,不能寫。
2)‘w'表示打開文件只寫,并且清空文件。
3)‘x'表示獨(dú)占打開文件,如果文件已經(jīng)存打開就會(huì)失敗。
4)‘a(chǎn)'表示打開文件寫,不清空文件,在文件后尾追加的方式寫入。
5)‘b'表示二進(jìn)制的模式打開文件。
6)‘t'表示文本模式,默認(rèn)情況下就是這種模式。
7)‘+'打開文件更新(讀取或?qū)懭耄?/p>
8)缺省時(shí)的模式就相當(dāng)于'rt'。比如'w+b'就是打開文件進(jìn)入讀寫,把文件清空;'r+b'打開文件,但不把文件 清空。
參數(shù)buffering是一個(gè)可選的參數(shù),用來表示緩沖區(qū)的策略選擇。設(shè)置為0時(shí),表示不使用緩沖區(qū),直接讀寫,僅在二進(jìn)制模式下有效。設(shè)置為1時(shí),表示在文本模式下使用行緩沖區(qū)方式。設(shè)置為大于1時(shí),表示緩沖區(qū)的設(shè)置大小。如果參數(shù)buffering沒有給出,使用默認(rèn)時(shí),會(huì)采用下面策略來選擇:
1)對(duì)于二進(jìn)制文件模式時(shí),采用固定塊內(nèi)存緩沖區(qū)方式,內(nèi)存塊的大小根據(jù)系統(tǒng)設(shè)備的分配的磁盤塊來決定,如果獲取系統(tǒng)磁盤塊的大小失敗,就使用內(nèi)部常量io.DEFAULT_BUFFER_SIZE定義的大小。一般的操作系統(tǒng)上,塊的大小是4096或者8192字節(jié)大小。
2)對(duì)于交互的文本文件(采用isatty()判斷為True)時(shí),采用一行緩沖區(qū)的方式。其它文本文件使用跟二進(jìn)制一樣的方式。
參數(shù)encoding是指明對(duì)文件編碼,僅適用于文本文件。如果不明編碼方式,默認(rèn)是使用locale.getpreferredencoding()函數(shù)返回的編碼方式。
參數(shù)errors是用來指明編碼和解碼錯(cuò)誤時(shí)怎么樣處理。不能在二進(jìn)制的模式下使用。
1)當(dāng)指明為'strict'時(shí),編碼出錯(cuò)則拋出異常ValueError。
2)當(dāng)指明為'ignore'時(shí),忽略錯(cuò)誤。
3)當(dāng)指明為'replace'時(shí),使用某字符進(jìn)行替代模式,比如使用'?'來替換出錯(cuò)的。
4)其它相應(yīng)還有surrogateescape/xmlcharrefreplacs/backslashreplace。
參數(shù)newline是用來控制文本模式之下,一行的結(jié)束字符??梢允荖one,'',\n,\r,\r\n等。
1)當(dāng)在讀取模式下,如果新行符為None,那么就作為通用換行符模式工作,意思就是說當(dāng)遇到\n,\r或\r\n都可以作為換行標(biāo)識(shí),并且統(tǒng)一轉(zhuǎn)換為\n作為文本輸入的換行符。當(dāng)設(shè)置為空''時(shí),也是通用換行符模式工作,但不作轉(zhuǎn)換為\n,輸入什么樣的,就保持原樣全輸入。當(dāng)設(shè)置為其它相應(yīng)字符時(shí),就會(huì)判斷到相應(yīng)的字符作為換行符,并保持原樣輸入到文本。
2)當(dāng)在輸出模式時(shí),如果新行符為None,那么所有輸出文本都是采用\n作為換行符。如果設(shè)置為''或者\(yùn)n時(shí),不作任何的替換動(dòng)作。如果是其它字符,會(huì)在字符后面添加\n作為換行符。
以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python簡單實(shí)現(xiàn)阿拉伯?dāng)?shù)字和羅馬數(shù)字的互相轉(zhuǎn)換功能示例
這篇文章主要介紹了Python簡單實(shí)現(xiàn)阿拉伯?dāng)?shù)字和羅馬數(shù)字的互相轉(zhuǎn)換功能,涉及Python針對(duì)字符串與列表的遍歷、運(yùn)算等相關(guān)操作技巧,需要的朋友可以參考下2018-04-04
基于python模擬TCP3次握手連接及發(fā)送數(shù)據(jù)
這篇文章主要介紹了基于python模擬TCP3次握手連接及發(fā)送數(shù)據(jù),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-11-11
使用python flask框架開發(fā)圖片上傳接口的案例詳解
剛領(lǐng)導(dǎo)安排任務(wù),需求是這樣的開發(fā)一個(gè)支持多格式圖片上傳的接口,并且將圖片壓縮,支持在線預(yù)覽圖片,下面小編分享下使用python flask框架開發(fā)圖片上傳接口的案例詳解,感興趣的朋友一起看看吧2022-04-04
Tensorflow限制CPU個(gè)數(shù)實(shí)例
今天小編就為大家分享一篇Tensorflow限制CPU個(gè)數(shù)實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-02-02
詳解DeBug Python神級(jí)工具PySnooper
這篇文章主要介紹了詳解DeBug Python神級(jí)工具PySnooper,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07
Python計(jì)算兩個(gè)日期相差天數(shù)的方法示例
這篇文章主要介紹了Python計(jì)算兩個(gè)日期相差天數(shù)的方法,結(jié)合簡單實(shí)例形式分析了Python日期時(shí)間的轉(zhuǎn)換與運(yùn)算相關(guān)操作技巧,需要的朋友可以參考下2017-05-05
Python3 多線程(連接池)操作MySQL插入數(shù)據(jù)
本文將結(jié)合實(shí)例代碼,介紹Python3 多線程(連接池)操作MySQL插入數(shù)據(jù),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-06-06

