Python實(shí)現(xiàn)爬蟲爬取NBA數(shù)據(jù)功能示例
本文實(shí)例講述了Python實(shí)現(xiàn)爬蟲爬取NBA數(shù)據(jù)功能。分享給大家供大家參考,具體如下:
爬取的網(wǎng)站為:stat-nba.com,這里爬取的是NBA2016-2017賽季常規(guī)賽至2017年1月7日的數(shù)據(jù)
改變url_header和url_tail即可爬取特定的其他數(shù)據(jù)。
源代碼如下:
#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
import time
import urllib
from bs4 import BeautifulSoup
import re
from pyExcelerator import *
def getURLLists(url_header,url_tail,pages):
"""
獲取所有頁面的URL列表
"""
url_lists = []
url_0 = url_header+'0'+url_tail
print url_0
url_lists.append(url_0)
for i in range(1,pages+1):
url_temp = url_header+str(i)+url_tail
url_lists.append(url_temp)
return url_lists
def getNBAAllData(url_lists):
"""
獲取所有2017賽季NBA常規(guī)賽數(shù)據(jù)
"""
datasets = ['']
for item in url_lists:
data1 = getNBASingleData(item)
datasets.extend(data1)
#去掉數(shù)據(jù)里的空元素
for item in datasets[:]:
if len(item) == 0:
datasets.remove(item)
return datasets
def getNBASingleData(url):
"""
獲取1個(gè)頁面NBA常規(guī)賽數(shù)據(jù)
"""
# url = 'http://stat-nba.com/query_team.php?QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017'
# html = requests.get(url).text
html = urllib.urlopen(url).read()
# print html
soup = BeautifulSoup(html)
data = soup.html.body.find('tbody').text
list_data = data.split('\n')
# with open('nba_data.txt','a') as fp:
# fp.write(data)
# for item in list_data[:]:
# if len(item) == 0:
# list_data.remove(item)
return list_data
def saveDataToExcel(datasets,sheetname,filename):
book = Workbook()
sheet = book.add_sheet(sheetname)
sheet.write(0,0,u'序號')
sheet.write(0,1,u'球隊(duì)')
sheet.write(0,2,u'時(shí)間')
sheet.write(0,3,u'結(jié)果')
sheet.write(0,4,u'主客')
sheet.write(0,5,u'比賽')
sheet.write(0,6,u'投籃命中率')
sheet.write(0,7,u'命中數(shù)')
sheet.write(0,8,u'出手?jǐn)?shù)')
sheet.write(0,9,u'三分命中率')
sheet.write(0,10,u'三分命中數(shù)')
sheet.write(0,11,u'三分出手?jǐn)?shù)')
sheet.write(0,12,u'罰球命中率')
sheet.write(0,13,u'罰球命中數(shù)')
sheet.write(0,14,u'罰球出手?jǐn)?shù)')
sheet.write(0,15,u'籃板')
sheet.write(0,16,u'前場籃板')
sheet.write(0,17,u'后場籃板')
sheet.write(0,18,u'助攻')
sheet.write(0,19,u'搶斷')
sheet.write(0,20,u'蓋帽')
sheet.write(0,21,u'失誤')
sheet.write(0,22,u'犯規(guī)')
sheet.write(0,23,u'得分')
num = 24
row_cnt = 0
data_cnt = 0
data_len = len(datasets)
print 'data_len:',data_len
while(data_cnt< data_len):
row_cnt += 1
print '序號:',row_cnt
for col in range(num):
# print col
sheet.write(row_cnt,col,datasets[data_cnt])
data_cnt += 1
book.save(filename)
def writeDataToTxt(datasets):
fp = open('nba_data.txt','w')
line_cnt = 1
for i in range(len(datasets)-1):
#球隊(duì)名稱對齊的操作:如果球隊(duì)名字過短或者為76人隊(duì)是 球隊(duì)名字后面加兩個(gè)table 否則加1個(gè)table
if line_cnt % 24 == 2 and len(datasets[i]) < 5 or datasets[i] == u'費(fèi)城76人':
fp.write(datasets[i]+'\t\t')
else:
fp.write(datasets[i]+'\t')
line_cnt += 1
if line_cnt % 24 == 1:
fp.write('\n')
fp.close()
if __name__ == "__main__":
pages = int(1132/150)
url_header = 'http://stat-nba.com/query_team.php?page='
url_tail = '&QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017#label_show_result'
url_lists = getURLLists(url_header,url_tail,pages)
datasets = getNBAAllData(url_lists)
writeDataToTxt(datasets)
sheetname = 'nba normal data 2016-2017'
str_time = time.strftime('%Y-%m-%d',time.localtime(time.time()))
filename = 'nba_normal_data'+str_time+'.xls'
saveDataToExcel(datasets,sheetname,filename)
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設(shè)計(jì)有所幫助。
- python模擬新浪微博登陸功能(新浪微博爬蟲)
- Python爬蟲實(shí)現(xiàn)簡單的爬取有道翻譯功能示例
- Python實(shí)現(xiàn)爬取百度貼吧帖子所有樓層圖片的爬蟲示例
- Python使用Scrapy爬蟲框架全站爬取圖片并保存本地的實(shí)現(xiàn)代碼
- python爬蟲爬取淘寶商品信息(selenum+phontomjs)
- python爬蟲爬取某站上海租房圖片
- Python爬蟲實(shí)例_城市公交網(wǎng)絡(luò)站點(diǎn)數(shù)據(jù)的爬取方法
- 使用python爬蟲實(shí)現(xiàn)網(wǎng)絡(luò)股票信息爬取的demo
- Python實(shí)現(xiàn)爬取知乎神回復(fù)簡單爬蟲代碼分享
- python爬蟲實(shí)戰(zhàn)之爬取京東商城實(shí)例教程
- Python爬蟲爬取新浪微博內(nèi)容示例【基于代理IP】
相關(guān)文章
pyecharts繪制時(shí)間輪播圖柱形圖+餅圖+玫瑰圖+折線圖
這篇文章主要介紹了pyecharts繪制時(shí)間輪播圖柱形圖+餅圖+玫瑰圖+折線圖,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,感興趣的小伙伴可以參考一下2022-06-06
Python深度學(xué)習(xí)之Unet?語義分割模型(Keras)
這篇文章主要介紹了語義分割任務(wù)中Unet一個(gè)有意思的模型-Keras。Keras是一個(gè)由Python編寫的開源人工神經(jīng)網(wǎng)絡(luò)庫,可進(jìn)行深度學(xué)習(xí)模型的設(shè)計(jì)、調(diào)試、評估、應(yīng)用和可視化。感興趣的小伙伴快來跟隨小編一起學(xué)習(xí)一下吧2021-12-12
Python腳本啟動應(yīng)用并輸入賬號或密碼的操作命令
這篇文章主要介紹了Python腳本啟動應(yīng)用并輸入賬號或密碼,安裝所需要的模塊pyautogui、subprocess、psutil等,可以通過pip安裝,下面以安裝pyautogui為例cmd命令行中輸入,需要的朋友可以參考下2024-05-05
Python小整數(shù)對象池和字符串intern實(shí)例解析
這篇文章主要介紹了Python小整數(shù)對象池和字符串intern實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-03-03
一文帶你了解Python列表生成式應(yīng)用的八重境界
在Python中有非常多且好用的技巧,其中使用最多的是列表生成式,往往可以將復(fù)雜的邏輯用簡單的語言來實(shí)現(xiàn),本文重點(diǎn)介紹列表生成式應(yīng)用的八重境界2022-09-09

