python對(duì)網(wǎng)頁(yè)文本的格式化實(shí)例方法
1、一個(gè)網(wǎng)頁(yè)通常包含文本信息。對(duì)于不同的文本類型,我們可以選擇合適的HTML語(yǔ)義元素進(jìn)行標(biāo)記。
2、em元素用于標(biāo)記和強(qiáng)調(diào)部分內(nèi)容,small元素用于注釋和署名文本。
實(shí)例
<body> <h1>論語(yǔ)學(xué)而篇第一</h1> <p><small> <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>(<time>前551年9月28日-前479年4月11日</time>) </small></p> <h2>本篇引語(yǔ)</h2> <p>《學(xué)而》是《論語(yǔ)》第一篇的篇名?!墩撜Z(yǔ)》中各篇一般都是以第一章的前二三個(gè)字作為該篇的篇名?!秾W(xué)而》一篇包括16章,內(nèi)容涉及諸多方面。其中重點(diǎn)是 <strong>「吾日三省吾身」;「節(jié)用而愛(ài)人,使民以時(shí)」;「禮之用,和為貴」以及仁、孝、信等</strong>道德范疇。</p> <h2>原文</h2> <p>子曰:「<mark>學(xué)而時(shí)習(xí)之,不亦說(shuō)乎?</mark>有朋自遠(yuǎn)方來(lái),不亦樂(lè)乎?人不知,而不慍,不亦君子乎?」 </p> </body>
知識(shí)點(diǎn)擴(kuò)展:
Python int與string之間的轉(zhuǎn)化
string–>int
1、10進(jìn)制string轉(zhuǎn)化為int
int(‘12')
2、16進(jìn)制string轉(zhuǎn)化為int
int(‘12', 16)
int–>string
1、int轉(zhuǎn)化為10進(jìn)制string
str(18)
2、int轉(zhuǎn)化為16進(jìn)制string
hex(18)
2 . 由于鏈家網(wǎng)上面選中第二頁(yè)的時(shí)候,只是在頁(yè)面后面多了一個(gè)“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的網(wǎng)頁(yè)只需要循環(huán)更新requests 的頁(yè)面URL
3 . 增加了一個(gè)循環(huán)之后,可以打印所有的爬取結(jié)果
from lxml import etree import requests import string url = 'http://sh.lianjia.com/ershoufang/' region = 'pudong' price = 'p23' finalURL = url+region+price def spider_room(finallyURL): r= requests.get(finallyURL) html = requests.get(finalURL).content.decode('utf-8') dom_tree = etree.HTML(html) # all the messages all_message = dom_tree.xpath("http://ul[@class='js_fang_list']/li") for index in range(len(all_message)): print(all_message[index].xpath('string(.)').strip()) return for i in range(20): finallyURL = finalURL + '/d'+str(i) spider_room(finallyURL)
4 . 爬取了20頁(yè)的內(nèi)容,可是內(nèi)容的結(jié)果輸出的形式并沒(méi)有改變
以上就是python對(duì)網(wǎng)頁(yè)文本的格式化實(shí)例方法的詳細(xì)內(nèi)容,更多關(guān)于python爬蟲中網(wǎng)頁(yè)文本的格式化的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python Pingouin數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)探索
Pingouin庫(kù)基于pandas、scipy和statsmodels,為用戶提供了執(zhí)行常見統(tǒng)計(jì)分析的功能,它支持各種統(tǒng)計(jì)方法和假設(shè)檢驗(yàn),例如 t-tests、ANOVA、correlation analysis 等,本文通過(guò)一些示例代碼,以更全面地了解如何使用Pingouin庫(kù)進(jìn)行統(tǒng)計(jì)分析,2024-01-01python taipy庫(kù)輕松地將數(shù)據(jù)和機(jī)器學(xué)習(xí)模型轉(zhuǎn)為功能性Web應(yīng)用
taipy 是一個(gè)開源的 Python 庫(kù),任何具有基本 Python 技能的人都可以使用,對(duì)于數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師和 Python 程序員來(lái)說(shuō),它是一個(gè)方便的工具,借助 Taipy,你可以輕松地將數(shù)據(jù)和機(jī)器學(xué)習(xí)模型轉(zhuǎn)變?yōu)楣δ苄缘?nbsp;Web 應(yīng)用程序2024-01-01python開發(fā)環(huán)境PyScripter中文亂碼問(wèn)題解決方案
PyScripter是一個(gè)使用Delphi開發(fā)的開源的Python集成開發(fā)環(huán)境(IDE),PyScripter支持Python2.4、2.5、2.6、2.7、3.0、3.1、3.2,而且可以根據(jù)需要切換。2016-09-09