欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python3讀取文件指定行的三種方法

 更新時(shí)間:2021年05月24日 10:51:25   作者:Dechin''s  
考慮到深度學(xué)習(xí)領(lǐng)域中的數(shù)據(jù)規(guī)模一般都比較大,尤其是訓(xùn)練集,這個(gè)限制條件對(duì)應(yīng)到實(shí)際編程中就意味著,我們很有可能無(wú)法將整個(gè)數(shù)據(jù)文件的內(nèi)容全部都加載到內(nèi)存中。那么就需要一些特殊的處理方式,本文將要介紹的是從文件中只讀取特定行的內(nèi)容的3種解決方案。

行遍歷實(shí)現(xiàn)

在python中如果要將一個(gè)文件完全加載到內(nèi)存中,通過(guò)file.readlines()即可,但是在文件占用較高時(shí),我們是無(wú)法完整的將文件加載到內(nèi)存中的,這時(shí)候就需要用到python的file.readline()進(jìn)行迭代式的逐行讀?。?/p>

filename = 'hello.txt'

with open(filename, 'r') as file:
    line = file.readline()
    counts = 1
    while line:
        if counts >= 50000000:
            break
        line = file.readline()
        counts += 1

這里我們的實(shí)現(xiàn)方式是先用一個(gè)with語(yǔ)句打開(kāi)一個(gè)文件,然后用readline()函數(shù)配合while循環(huán)逐行加載,最終通過(guò)一個(gè)序號(hào)標(biāo)記來(lái)結(jié)束循環(huán)遍歷,輸出文件第50000000行的內(nèi)容。該代碼的執(zhí)行效果如下:

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 

real    0m10.359s
user    0m10.062s
sys     0m0.296s

可以看到這里的耗時(shí)為10s多一些。

linecache實(shí)現(xiàn)

雖然在python的readline函數(shù)中并沒(méi)有實(shí)現(xiàn)讀取指定行內(nèi)容的方案,但是在另一個(gè)庫(kù)linecache中是實(shí)現(xiàn)了的,由于使用的方式較為簡(jiǎn)單,這里直接放上代碼示例供參考:

filename = 'hello.txt'

import linecache
text = linecache.getline(filename, 50000000)

該代碼的執(zhí)行結(jié)果如下:

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 

real    0m11.904s
user    0m5.672s
sys     0m6.231s

雖然在實(shí)現(xiàn)方式上簡(jiǎn)化了許多,但是我們發(fā)現(xiàn)這個(gè)實(shí)現(xiàn)的用時(shí)超過(guò)了11s,還不如我們自己手動(dòng)實(shí)現(xiàn)的循環(huán)遍歷方案。因此如果是對(duì)于性能有一定要求的場(chǎng)景,是不建議采用這個(gè)方案的。

命令行sed獲取

我們知道用Linux系統(tǒng)本身自帶的sed指令也是可以獲取到文件指定行或者是指定行范圍的數(shù)據(jù)的,其執(zhí)行指令為:sed -n 50000000p filename即表示讀取文件的第50000000行的內(nèi)容。同時(shí)結(jié)合python的話,我們可以在python代碼中執(zhí)行系統(tǒng)指令并獲取輸出結(jié)果:

filename = 'hello.txt'

import os
result = os.popen('sed -n {}p {}'.format(50000000, filename)).read()

需要注意的是,如果直接運(yùn)行os.system()是沒(méi)有返回值的,只有os.popen()是有返回值的,并且需要在尾巴加上一個(gè)read()的選項(xiàng)。該代碼的執(zhí)行結(jié)果如下:

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 

real    0m2.532s
user    0m0.032s
sys     0m0.020s

可以看到直接使用sed指令的執(zhí)行速度很快,但是用這種方法并不是一本萬(wàn)利的,比如以下這個(gè)例子:

filename = 'hello.txt'

import os
result = os.popen('sed -n {}p {}'.format(500, filename)).read()

我們把讀取第50000000行內(nèi)容改為讀取第500行的內(nèi)容,再運(yùn)行一次程序:

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 

real    0m2.540s
user    0m0.037s
sys     0m0.013s

然而我們發(fā)現(xiàn)這個(gè)速度并沒(méi)有因?yàn)橐x取的行數(shù)減少了而變少,而是幾乎保持不變的。

總結(jié)概要

本文通過(guò)4個(gè)測(cè)試案例分析了在python中讀取文件指定行內(nèi)容的方案,并得到了一些運(yùn)行耗時(shí)的數(shù)據(jù)。從需求上來(lái)說(shuō),如果是對(duì)于小規(guī)模的數(shù)據(jù),比如幾百行規(guī)模的數(shù)據(jù),建議使用readline循環(huán)遍歷來(lái)操作,速度也相當(dāng)不錯(cuò),或者是linecache中的函數(shù)實(shí)現(xiàn)也是可以的,甚至可以直接用readlines將整個(gè)文本內(nèi)容加載到內(nèi)存中。但是對(duì)于數(shù)據(jù)規(guī)模比較大的場(chǎng)景,比如超過(guò)了千萬(wàn)行的級(jí)別,那么使用sed指令的方式對(duì)指定行內(nèi)容進(jìn)行讀取的方式,應(yīng)該是所有方式中最快速的。

本文首發(fā)鏈接為:https://www.cnblogs.com/dechinphy/p/lbl.html

作者ID:DechinPhy

以上就是python3讀取文件指定行的三種方法的詳細(xì)內(nèi)容,更多關(guān)于python讀取文件指定行的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • YOLOV5代碼詳解之損失函數(shù)的計(jì)算

    YOLOV5代碼詳解之損失函數(shù)的計(jì)算

    YOLOV4出現(xiàn)之后不久,YOLOv5橫空出世,YOLOv5在YOLOv4算法的基礎(chǔ)上做了進(jìn)一步的改進(jìn),檢測(cè)性能得到進(jìn)一步的提升,這篇文章主要給大家介紹了關(guān)于YOLOV5代碼詳解之損失函數(shù)計(jì)算的相關(guān)資料,需要的朋友可以參考下
    2022-03-03
  • 基于tkinter中ttk控件的width-height設(shè)置方式

    基于tkinter中ttk控件的width-height設(shè)置方式

    這篇文章主要介紹了基于tkinter中ttk控件的width-height設(shè)置方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-05-05
  • python 如何使用find和find_all爬蟲(chóng)、找文本的實(shí)現(xiàn)

    python 如何使用find和find_all爬蟲(chóng)、找文本的實(shí)現(xiàn)

    這篇文章主要介紹了python 如何使用find和find_all,爬蟲(chóng)、找文本,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • Python Tkinter Canvas畫(huà)布控件詳解

    Python Tkinter Canvas畫(huà)布控件詳解

    Canvas 控件具有兩個(gè)功能,首先它可以用來(lái)繪制各種圖形,比如弧形、線條、橢圓形、多邊形和矩形等,其次 Canvas 控件還可以用來(lái)展示圖片。本文將具體介紹一直Tkinter中的畫(huà)布控件,需要的可以參考一下
    2022-01-01
  • Python使用shutil模塊實(shí)現(xiàn)文件拷貝

    Python使用shutil模塊實(shí)現(xiàn)文件拷貝

    這篇文章主要介紹了Python使用shutil模塊實(shí)現(xiàn)文件拷貝,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-07-07
  • 面向新手解析python Beautiful Soup基本用法

    面向新手解析python Beautiful Soup基本用法

    這篇文章主要介紹了面向新手解析python Beautiful Soup基本用法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-07-07
  • Python全棧之文件函數(shù)和函數(shù)參數(shù)

    Python全棧之文件函數(shù)和函數(shù)參數(shù)

    這篇文章主要為大家介紹了Python的文件函數(shù)和函數(shù)參數(shù),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助
    2021-12-12
  • python使用xlsx和pandas處理Excel表格的操作步驟

    python使用xlsx和pandas處理Excel表格的操作步驟

    python的神器pandas庫(kù)就可以非常方便地處理excel,csv,矩陣,表格 等數(shù)據(jù),下面這篇文章主要給大家介紹了關(guān)于python使用xlsx和pandas處理Excel表格的操作步驟,文中通過(guò)圖文介紹的非常詳細(xì),需要的朋友可以參考下
    2023-01-01
  • vscode autopep8無(wú)法格式化python代碼問(wèn)題解決

    vscode autopep8無(wú)法格式化python代碼問(wèn)題解決

    這篇文章主要為大家介紹了vscode autopep8無(wú)法格式化python代碼問(wèn)題解決,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-09-09
  • Python實(shí)現(xiàn)打印九九乘法表的不同方法總結(jié)

    Python實(shí)現(xiàn)打印九九乘法表的不同方法總結(jié)

    這篇文章主要為大家介紹了Python實(shí)現(xiàn)打印九九乘法表的幾種不同方法,文中的示例代碼講解詳細(xì),簡(jiǎn)潔易懂,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下
    2022-11-11

最新評(píng)論