快捷導航

python如何爬取網(wǎng)頁中的文字

更新時間：2020年07月28日 15:32:46 作者：Ly

在本篇文章里小編給大家整理的是關(guān)于python如何爬取網(wǎng)頁中的文字的相關(guān)實例內(nèi)容，需要的朋友們可以學習下。

用Python進行爬取網(wǎng)頁文字的代碼：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下載一個網(wǎng)頁
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模擬瀏覽器發(fā)送http請求
response = requests.get(url)
# 編碼方式
response.encoding='utf-8'
# 目標小說主頁的網(wǎng)頁源碼
html = response.text
print(html)

1、編寫爬蟲思路：

確定下載目標，找到網(wǎng)頁，找到網(wǎng)頁中需要的內(nèi)容。對數(shù)據(jù)進行處理。保存數(shù)據(jù)。

2、知識點說明：

1）確定網(wǎng)絡(luò)中需要的信息，打開網(wǎng)頁后使用F12打開開發(fā)者模式。

在Network中可以看到很多信息，我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件后可以看到response，文字信息都包含在response中。

對于需要輸入的信息，可以使用ctrl+f，進行搜索。查看信息前后包含哪些特定字段。

對于超鏈接的提取，可以使用最左邊的箭頭點擊超鏈接，這時Elements會打開有該條超鏈接的信息，從中判斷需要提取的信息。從下載小說來看，在目錄頁提取出小說的鏈接和章節(jié)名。

2）注意編碼格式

輸入字符集一定要設(shè)置成utf-8。頁面大多為GBK字符集。不設(shè)置會亂碼。

內(nèi)容擴展：

接下來我們了解一下爬取網(wǎng)頁信息的步驟。

想要獲得我們所需的數(shù)據(jù)分三步

第一步：使用BeautifulSoup解析網(wǎng)頁

Soup = BeautifulSoup(html,'lxml')

第二步：描述想要爬去信息的東西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字，如何去定位。

第三步：從標簽中獲得你想要的信息

<p>Something</p>

從標簽中獲取我們需要的信息，去掉一些沒有用的結(jié)構(gòu)，并且把我們獲取的信息按照一定格式裝在數(shù)據(jù)容器中，方便我們?nèi)ゲ樵儭?/p>

以上就是python如何爬取網(wǎng)頁中的文字的詳細內(nèi)容，更多關(guān)于python爬取網(wǎng)頁文字的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

相關(guān)文章

python批量修改xml屬性的實現(xiàn)方式
這篇文章主要介紹了python批量修改xml屬性的實現(xiàn)方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-03-03
利用python求積分的實例
今天小編就為大家分享一篇利用python求積分的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-07-07
python config文件的讀寫操作示例
這篇文章主要介紹了python config文件的讀寫操作,結(jié)合簡單示例形式分析了Python針對config文件的設(shè)置、讀取、寫入相關(guān)操作技巧,需要的朋友可以參考下
2019-09-09
淺談django不使用restframework自定義接口與使用的區(qū)別
這篇文章主要介紹了淺談django不使用restframework自定義接口與使用的區(qū)別，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-07-07
Python基本數(shù)據(jù)結(jié)構(gòu)與用法詳解【列表、元組、集合、字典】
這篇文章主要介紹了Python基本數(shù)據(jù)結(jié)構(gòu)與用法,結(jié)合實例形式分析了Python基本數(shù)據(jù)結(jié)構(gòu)中的列表、元組、集合、字典相關(guān)概念、使用方法及推導式、遍歷等相關(guān)使用技巧,需要的朋友可以參考下
2019-03-03
Python實現(xiàn)帶參數(shù)的用戶驗證功能裝飾器示例
這篇文章主要介紹了Python實現(xiàn)帶參數(shù)的用戶驗證功能裝飾器,結(jié)合實例形式分析了Python用戶驗證裝飾器具體定義及使用技巧,需要的朋友可以參考下
2018-12-12
淺談python中對于json寫入txt文件的編碼問題
今天小編就為大家分享一篇淺談python中對于json寫入txt文件的編碼問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-06-06
詳解python播放音頻的三種方法
這篇文章主要介紹了python播放音頻的三種方法，每種方法通過實例代碼給大家介紹的非常詳細，具有一定的參考借鑒價值,需要的朋友可以參考下
2019-09-09
用Python刪除本地目錄下某一時間點之前創(chuàng)建的所有文件的實例
下面小編就為大家分享一篇用Python刪除本地目錄下某一時間點之前創(chuàng)建的所有文件的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2017-12-12
Python本地與全局命名空間用法實例
這篇文章主要介紹了Python本地與全局命名空間用法,實例分析了Python命名空間的相關(guān)使用技巧,需要的朋友可以參考下
2015-06-06