利用Python抓取行政區(qū)劃碼的方法
前言
國(guó)家統(tǒng)計(jì)局網(wǎng)站上有相對(duì)比較齊的行政區(qū)劃碼,對(duì)于一些網(wǎng)站來說這是非?;A(chǔ)的數(shù)據(jù),所以寫了個(gè)Python程序?qū)⑦@部分?jǐn)?shù)據(jù)抓取下來。
注意:抓取下來以后還要進(jìn)行簡(jiǎn)單的人工的整理
示例代碼:
# -*- coding:utf-8 -*- ''' 獲取國(guó)家統(tǒng)計(jì)局上的行政區(qū)劃碼 ''' import requests,re base_url = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201504/t20150415_712722.html' def get_xzqh(): html_data = requests.get(base_url).content pattern = re.compile('<p class="MsoNormal" style=".*?"><span lang="EN-US" style=".*?">(\d+)<span>.*?</span></span><span style=".*?">(.*?)</span></p>') areas = re.findall(pattern,html_data) print "code,name,level" for area in areas: print area[0],area[1].decode('utf-8').replace(u' ',''),area[1].decode('utf-8').count(u' ') if __name__=='__main__': get_xzqh()
注意事項(xiàng):
另外,關(guān)于國(guó)家地區(qū)表的信息,還有另外一種獲取渠道,那就是QQ軟件自帶的國(guó)家地區(qū)信息表。(文件名為LocList.xml
),一般的存儲(chǔ)位置為:C:\Program Files\Tencent\QQ\I18N\2052
如需中文版安裝中文版QQ即可獲取,如需英文版則安裝英文版QQ。國(guó)際版在1033目錄。
code都是按照ISO3166標(biāo)準(zhǔn)寫的,極易導(dǎo)入數(shù)據(jù)庫。
總結(jié)
以上就是利用Python獲取行政區(qū)劃碼的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家學(xué)習(xí)或者使用python能有所幫助,如果有疑問大家可以留言交流。
- Python使用正則表達(dá)式抓取網(wǎng)頁圖片的方法示例
- python正則匹配抓取豆瓣電影鏈接和評(píng)論代碼分享
- python正則表達(dá)式抓取成語網(wǎng)站
- Python實(shí)現(xiàn)并行抓取整站40萬條房?jī)r(jià)數(shù)據(jù)(可更換抓取城市)
- 詳解python3百度指數(shù)抓取實(shí)例
- python實(shí)現(xiàn)多線程抓取知乎用戶
- Python使用Srapy框架爬蟲模擬登陸并抓取知乎內(nèi)容
- 基于python實(shí)現(xiàn)的抓取騰訊視頻所有電影的爬蟲
- 編寫Python爬蟲抓取暴走漫畫上gif圖片的實(shí)例分享
- Python抓取電影天堂電影信息的代碼
- python制作爬蟲并將抓取結(jié)果保存到excel中
- Python使用正則表達(dá)式實(shí)現(xiàn)文本替換的方法
- Python正則抓取網(wǎng)易新聞的方法示例
相關(guān)文章
python實(shí)現(xiàn)圖片變亮或者變暗的方法
這篇文章主要介紹了python實(shí)現(xiàn)圖片變亮或者變暗的方法,涉及Python中Image模塊操作圖片的相關(guān)技巧,需要的朋友可以參考下2015-06-06python numpy實(shí)現(xiàn)多次循環(huán)讀取文件 等間隔過濾數(shù)據(jù)示例
這篇文章主要介紹了python numpy實(shí)現(xiàn)多次循環(huán)讀取文件 等間隔過濾數(shù)據(jù)示例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-03-03Python?numpy生成矩陣基礎(chǔ)用法實(shí)例代碼
矩陣是matrix類型的對(duì)象,該類繼承自numpy.ndarray,任何針對(duì)ndarray的操作,對(duì)矩陣對(duì)象同樣有效,下面這篇文章主要給大家介紹了關(guān)于Python?numpy生成矩陣基礎(chǔ)的相關(guān)資料,需要的朋友可以參考下2022-08-08python實(shí)現(xiàn)簡(jiǎn)單爬蟲功能的示例
本文主要是介紹python實(shí)現(xiàn)簡(jiǎn)單爬蟲功能的示例,主要實(shí)現(xiàn)了把我們想要的圖片爬蟲到本地的一個(gè)示例,有需要的朋友可以了解一下。2016-10-10python實(shí)現(xiàn)while循環(huán)打印星星的四種形狀
今天小編就為大家分享一篇python實(shí)現(xiàn)while循環(huán)打印星星的四種形狀,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-11-11python 實(shí)現(xiàn)Flask中返回圖片流給前端展示
今天小編就為大家分享一篇python 實(shí)現(xiàn)Flask中返回圖片流給前端展示,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01Python?mistune庫靈活的Markdown解析器使用實(shí)例探索
本文將深入介紹Python?Mistune,包括其基本概念、安裝方法、示例代碼以及一些高級(jí)用法,以幫助大家充分利用這一工具來處理Markdown文本2024-01-01python常見進(jìn)制轉(zhuǎn)換方法示例代碼
Python為我們提供了強(qiáng)大的內(nèi)置函數(shù)和格式化數(shù)字的方法去實(shí)現(xiàn)進(jìn)制轉(zhuǎn)換的功能,下面這篇文章主要給大家介紹了關(guān)于python常見進(jìn)制轉(zhuǎn)換方法的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-05-05