用Python程序抓取網(wǎng)頁的HTML信息的一個小實例
抓取網(wǎng)頁數(shù)據(jù)的思路有好多種,一般有:直接代碼請求http、模擬瀏覽器請求數(shù)據(jù)(通常需要登錄驗證)、控制瀏覽器實現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況,放一個讀取簡單網(wǎng)頁數(shù)據(jù)的小例子:
目標數(shù)據(jù)
將ittf網(wǎng)站上這個頁面上所有這些選手的超鏈接保存下來。
數(shù)據(jù)請求
真的很喜歡符合人類思維的庫,比如requests,如果是要直接拿網(wǎng)頁文本,一句話搞定:
doc = requests.get(url).text
解析html獲得數(shù)據(jù)
以beautifulsoup為例,包含獲取標簽、鏈接,以及根據(jù)html層次結(jié)構(gòu)遍歷等方法。參考見這里。下面這個片段,從ittf網(wǎng)站上獲取指定頁面上指定位置的鏈接。
url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page) doc = requests.get(url).text soup = BeautifulSoup(doc) atags = soup.find_all('a') rank_link_pre = 'http://www.ittf.com/ittf_ranking/' mlfile = open(linkfile,'a') for atag in atags: #print atag if atag!=None and atag.get('href') != None: if "WR_Table_3_A2_Details.asp" in atag['href']: link = rank_link_pre + atag['href'] links.append(link) mlfile.write(link+'\n') print 'fetch link: '+link mlfile.close()
相關(guān)文章
Python中使用pprint函數(shù)進行格式化輸出的教程
這篇文章主要介紹了Python中使用pprint函數(shù)進行格式化輸出的教程,包括能夠控制輸出寬度等非常有用的特性,需要的朋友可以參考下2015-04-04pytorch和tensorflow計算Flops和params的詳細過程
這篇文章主要介紹了pytorch和tensorflow計算Flops和params,本文通過實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-08-08詳解Numpy中的數(shù)組拼接、合并操作(concatenate, append, stack, hstack, vstac
這篇文章主要介紹了詳解Numpy中的數(shù)組拼接、合并操作(concatenate, append, stack, hstack, vstack, r_, c_等),具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-05-05Python 面向?qū)ο箪o態(tài)方法、類方法、屬性方法知識點小結(jié)
這篇文章主要介紹了Python 面向?qū)ο箪o態(tài)方法、類方法、屬性方法,總結(jié)分析了Python 面向?qū)ο蟪绦蛟O(shè)計中靜態(tài)方法、類方法、屬性方法相關(guān)概念、知識點、操作技巧與使用注意事項,需要的朋友可以參考下2020-03-03使用Python快速實現(xiàn)文件共享并通過內(nèi)網(wǎng)穿透技術(shù)公網(wǎng)訪問
數(shù)據(jù)共享作為和連接作為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用,不僅在商業(yè)和辦公場景有廣泛的應(yīng)用,對于個人用戶也有很強的實用意義,今天,筆者就為大家介紹,如何使用python這樣的簡單程序語言,在自己的電腦上搭建一個共享文件服務(wù)器,需要的朋友可以參考下2023-10-10簡單實現(xiàn)Python爬取網(wǎng)絡(luò)圖片
這篇文章主要教大家如何簡單實現(xiàn)Python爬取網(wǎng)絡(luò)圖片,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-04-04