Python爬取京東的商品分類與鏈接

更新時間：2016年08月26日 09:23:57 作者：Rookie_C

這篇文章主要介紹利用python爬取京東商品分類以及對應的連接，這個功能不是很復雜，沒有爬取里面的隱藏的東西。算是給新手一個示例教程吧，有需要的可以參考借鑒。

前言

本文主要的知識點是使用Python的BeautifulSoup進行多層的遍歷。

如圖所示。只是一個簡單的哈，不是爬取里面的隱藏的東西。

示例代碼

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()

運行這段代碼以及達到了我們的目的。

我們來解讀一下這段代碼。

首先我們要訪問到京東的首頁。

然后通過BeautifulSoup對訪問到的首頁進行解析。

這個時候，我們就要定位元素，來獲取我們需要的東西了。

在瀏覽器中通過F12，我們可以看到下圖所示的東西：

我們來看看下面這句代碼：

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

這一行代碼完全滿足我們的需求，首先用find方法，定位到了class=“dd-inner”的div，然后使用find_all對該標簽下所有的a標簽。

最后，我想打印出所有的商品分類以及對應的鏈接，于是，我使用了i.get_text()和i.get('href')的方法終于獲取到了商品分類和對應的鏈接。

總結

其實不是很難，主要是要用對方法。筆者因為是初學方法沒有用對?；瞬畈欢鄡商鞎r間才搞定。這里也是告訴大家，可以使用find().find_all()的方法進行多層的遍歷。以上就是我利用Python爬取京東的商品分類與鏈接的一些經(jīng)驗，希望對大家學習python能有所幫助。

您可能感興趣的文章:

caffe的python接口deploy生成caffemodel分類新的圖片
這篇文章主要為大家介紹了caffe的python接口生成deploy文件學習以及用訓練好的模型（caffemodel）來分類新的圖片示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2022-06-06
Python繪圖系統(tǒng)之自定義一個坐標列表控件
這篇文章主要為大家詳細介紹了Python如何編寫一個繪圖系統(tǒng),可以實現(xiàn)自定義一個坐標列表控件,文中的示例代碼講解詳細,感興趣的可以了解一下
2023-08-08
高性能web服務器框架Tornado簡單實現(xiàn)restful接口及開發(fā)實例
Tornado和現(xiàn)在的主流Web服務器框架（包括大多數(shù)Python的框架）有著明顯的區(qū)別：它是非阻塞式服務器，而且速度相當快。得利于其非阻塞的方式和對epoll的運用，Tornado每秒可以處理數(shù)以千計的連接，這意味著對于實時Web服務來說，Tornado是一個理想的Web框架。
2014-07-07
關于python3.9安裝wordcloud出錯的問題及解決辦法
這篇文章主要介紹了關于python3.9安裝wordcloud出錯的問題及解決辦法,本文給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-11-11
python實現(xiàn)mysql的單引號字符串過濾方法
這篇文章主要介紹了python實現(xiàn)mysql的單引號字符串過濾方法,以一個較為詳細的實例形式分析了Python針對MySQL的操作及字符串過濾的技巧,具有一定參考借鑒價值,需要的朋友可以參考下
2015-11-11
python 對象真假值的實例(哪些視為False)
這篇文章主要介紹了python 對象真假值的實例(哪些視為False)，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-12-12
python 刪除指定時間間隔之前的文件實例
下面小編就為大家分享一篇python 刪除指定時間間隔之前的文件實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-04-04
使用Python自動化破解自定義字體混淆信息的方法實例
今天小編就為大家分享一篇關于使用Python自動化破解自定義字體混淆信息的方法實例，小編覺得內(nèi)容挺不錯的，現(xiàn)在分享給大家，具有很好的參考價值，需要的朋友一起跟隨小編來看看吧
2019-02-02
python集合刪除多種方法詳解
這篇文章主要介紹了python集合刪除多種方法詳解,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-02-02
python自動下載圖片的方法示例
這篇文章主要介紹了python自動下載圖片的方法示例，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-03-03