python實現從web抓取文檔的方法
更新時間:2014年09月26日 09:28:02 投稿:shichen2014
這篇文章主要介紹了python實現從web抓取文檔的方法,以抓取人人網頁面為例講述了完整的web文檔抓取方法,需要的朋友可以參考下
本文實例講述了Python實現從Web的一個URL中抓取文檔的方法,分享給大家供大家參考。具體方法分析如下:
實例代碼如下:
import urllib
doc = urllib.urlopen("http://www.python.org").read()
print doc#直接打印出網頁
def reporthook(*a):
print a
#將http://www.renren.com網頁保存到renre.html中,
#每讀取一個塊調用一字reporthook函數
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook)
#將http://www.renren.com網頁保存到renre.html中
urllib.urlretrieve("http://www.renren.com",'renren.html')
程序運行結果如下:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> ..........................網頁內容 </body> </html> (0, 8192, -1) (1, 8192, -1) (2, 8192, -1)
其中urllib.urlopen返回一個類文件對象。
希望本文所述對大家的Python程序設計有所幫助。
相關文章
Python3.6+Django2.0以上 xadmin站點的配置和使用教程圖解
django自帶的admin站點雖然功能強大,但是界面不是很好看。這篇文章主要介紹了Python3.6+Django2.0以上 xadmin站點的配置和使用 ,本文圖文并茂給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2019-06-06
使用matlab或python將txt文件轉為excel表格
這篇文章主要介紹了matlab或python代碼將txt文件轉為excel表格,本文通過matlab代碼和python 代碼給大家詳細介紹,需要的朋友可以參考下2019-11-11
最新解決'nvidia-smi' 不是內部或外部命令也不是可運行的程序
使用cmd查看電腦顯卡的信息,調用nvidia-smi查看顯卡使用情況報錯,提示'nvidia-smi' 不是內部或外部命令,也不是可運行的程序,本文給大家分享完美解決方案,感興趣的朋友跟隨小編一起看看吧2023-01-01

