python批量獲取html內(nèi)body內(nèi)容的實(shí)例
現(xiàn)在有一批完整的關(guān)于介紹城市美食、景點(diǎn)等的html頁(yè)面,需要將里面body的內(nèi)容提取出來(lái)
方法:利用python插件beautifulSoup獲取htmlbody標(biāo)簽的內(nèi)容,并批量處理。
# -*- coding:utf8 -*- from bs4 import BeautifulSoup import os import os.path import sys reload(sys) sys.setdefaultencoding('utf8') def printPath(level,path): global allFileNum #所有文件夾,第一個(gè)字段是此目錄的級(jí)別 dirList = [] #所有文件 fileList = [] #返回一個(gè)列表,其中包含在目錄條目的名稱(chēng) files = os.listdir(path) #先添加目錄級(jí)別 dirList.append(str(level)) for f in files: if(os.path.isdir(path+'/'+f)): #排除隱藏文件夾,因?yàn)殡[藏文件夾過(guò)多 if(f[0] == '.'): pass else: #添加隱藏文件夾 dirList.append(f) if(os.path.isfile(path+'/'+f)): #添加文件 fileList.append(f) return (dirList,fileList) #將文件html文件抓取并寫(xiě)入指定txt文件 def getAndInsert(rootdir,savepath,path): global file_num f_list = os.listdir(rootdir+'/'+path) for i in f_list: temp = os.path.splitext(i)[0] for num in range(1,11): if(i==str(num)+'.html'): #print rootdir+'/'+path+'/'+i objFile = open(rootdir+'/'+path+'/'+i) soup = BeautifulSoup(objFile) arr = [] for child in soup.body: arr.append(child) if os.path.exists(savepath+'/'+path): pass else: os.makedirs(savepath+'/'+path) f = open(savepath+'/'+path+'/'+temp+'.txt','w') for k,v in enumerate(arr): if k!=1: f.write(str(v)) f.close() print path+'/'+i+' is running' file_num = file_num + 1 rootdir = '../zips2' dirList,fileList = printPath(1,rootdir) savepath = "../testC" file_num = 0 for fn in dirList: if(fn == '1'): pass else: getAndInsert(rootdir,savepath,fn) print fn+' is ending' print '一共完成'+str(file_num)+'個(gè)城市的提取'
以上這篇python批量獲取html內(nèi)body內(nèi)容的實(shí)例就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python實(shí)現(xiàn)簡(jiǎn)易信息分類(lèi)存儲(chǔ)軟件
這篇文章主要介紹的是通過(guò)Python制作一個(gè)簡(jiǎn)易的文件分類(lèi)存儲(chǔ)文件,可以實(shí)現(xiàn)信息的增刪改查以及內(nèi)容的導(dǎo)出和回復(fù),文中的示例代碼對(duì)我們的學(xué)習(xí)有一定的價(jià)值,感興趣的同學(xué)可以了解一下2021-12-12信號(hào)生成及DFT的python實(shí)現(xiàn)方式
今天小編就為大家分享一篇信號(hào)生成及DFT的python實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02python簡(jiǎn)單幾步獲取各種DOS命令顯示的內(nèi)容詳解流程
你會(huì)用python獲取各種DOS命令顯示的內(nèi)容核心嗎?說(shuō)的可不是返回值,是用system()函數(shù)調(diào)用windows操作系統(tǒng)的DOS命令來(lái)做點(diǎn)事情,需要的朋友可以參考下2021-10-10Python多線程編程(二):?jiǎn)?dòng)線程的兩種方法
這篇文章主要介紹了Python多線程編程(一):?jiǎn)?dòng)線程的兩種方法,本文講解了將函數(shù)傳遞進(jìn)Thread對(duì)象、繼承自threading.Thread類(lèi)兩種方法,需要的朋友可以參考下2015-04-04python爬取新聞門(mén)戶(hù)網(wǎng)站的示例
短期目前旨在爬取所有新聞門(mén)戶(hù)網(wǎng)站的新聞,每個(gè)門(mén)戶(hù)網(wǎng)站爬蟲(chóng)開(kāi)箱即用,并自動(dòng)保存到同目錄下的 csv/excel 文件中,禁止將所得數(shù)據(jù)商用。2021-04-04python實(shí)現(xiàn)對(duì)一個(gè)完整url進(jìn)行分割的方法
這篇文章主要介紹了python實(shí)現(xiàn)對(duì)一個(gè)完整url進(jìn)行分割的方法,涉及Python操作URL的相關(guān)技巧,非常具有實(shí)用價(jià)值,需要的朋友可以參考下2015-04-04Python HTMLTestRunner庫(kù)安裝過(guò)程解析
這篇文章主要介紹了Python HTMLTestRunner庫(kù)安裝過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05Selenium執(zhí)行完畢未關(guān)閉chromedriver/geckodriver進(jìn)程的解決辦法(java版+python版
這篇文章主要介紹了Selenium執(zhí)行完畢未關(guān)閉chromedriver/geckodriver進(jìn)程的解決辦法(java版+python版),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12淺談Django學(xué)習(xí)migrate和makemigrations的差別
這篇文章主要介紹了淺談Django學(xué)習(xí)migrate和makemigrations的差別,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01一文帶你了解Python中不同數(shù)據(jù)對(duì)象的空值校驗(yàn)方法
空值校驗(yàn)在數(shù)據(jù)處理和應(yīng)用程序開(kāi)發(fā)中是一個(gè)非常重要的任務(wù),Python提供了多種方式來(lái)檢查不同數(shù)據(jù)對(duì)象(如字符串、列表、字典、集合等)是否為空或包含空值,下面就跟隨小編一起來(lái)學(xué)習(xí)一下吧2024-01-01