python實現(xiàn)遞歸查找某個路徑下所有文件中的中文字符

更新時間：2019年08月31日 11:01:30 作者：weiguang1111

這篇文章主要為大家詳細介紹了python實現(xiàn)遞歸查找某個路徑下所有文件中的中文字符，具有一定的參考價值，感興趣的小伙伴們可以參考一下

本文實例為大家分享了python實現(xiàn)遞歸查找某個路徑下所有文件中的中文字符，供大家參考，具體內(nèi)容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 處理前進行相關的處理，包括轉(zhuǎn)換成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的編碼范圍是：\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds經(jīng)過相關處理后得到中文的文本
  for s in zh.split():
    out.add(s) # 經(jīng)過相關處理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打開文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判斷是否是文件夾，不是文件夾才打開ssgsg判斷是否是文件夾，不是文件夾才打開
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

在Django中使用MQTT的方法
這篇文章主要介紹了在Django中使用MQTT的方法，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2021-05-05
Pandas中resample方法詳解
這篇文章主要介紹了Pandas中resample方法詳解，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-07-07
Python連接SQL?server數(shù)據(jù)庫并進行簡單查詢的操作詳解
SQL?Server是微軟推出的重量級的數(shù)據(jù)庫,本文將給大家詳細介紹了一下Python連接SQL?server數(shù)據(jù)庫詳細流程,并通過代碼示例給大家講解的非常清除,具有一定的參考價值,需要的朋友可以參考下
2024-02-02
Python實現(xiàn)光速定位并提取兩個文件的不同之處
如果你經(jīng)常與Excel或Word打交道，那么從兩份表格/文檔中找到不一樣的元素是一件讓人很頭疼的工作。本文就將以兩份真實的Excel/Word文件為例，講解如何使用Python光速對比并提取文件中的不同之處
2022-08-08
pandas中提取DataFrame某些列的一些方法
dataframe是pandas包的重要對象,熟練掌握dataframe的基本操作是很有必要的,下面這篇文章主要給大家介紹了關于pandas中提取DataFrame某些列的一些方法,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
2022-06-06
Django框架反向解析操作詳解
這篇文章主要介紹了Django框架反向解析操作,結(jié)合實例形式詳細分析了Django框架相關定義、原理、使用方法及操作注意事項,需要的朋友可以參考下
2019-11-11
Django使用原生SQL查詢數(shù)據(jù)庫詳解
本文介紹了Django ORM的優(yōu)缺點，然后介紹了使用原生SQL進行查詢的優(yōu)點，包括更靈活、更高效等。接著介紹了如何在Django中使用原生SQL進行查詢，包括利用Django的connection對象進行查詢以及使用Django的CursorWrapper類進行封裝。最后提醒了使用原生SQL查詢的注意事項。
2023-04-04
Django 如何實現(xiàn)文件上傳下載
這篇文章主要介紹了Django 如何實現(xiàn)文件上傳下載，幫助大家更好的理解和學習使用Django框架，感興趣的朋友可以了解下
2021-04-04
pybind11和numpy進行交互的方法
這篇文章主要介紹了pybind11和numpy進行交互的方法，本文通過實例代碼給大家介紹的非常詳細，具有一定的參考借鑒價值 ,需要的朋友可以參考下
2019-07-07
Linux RedHat下安裝Python2.7開發(fā)環(huán)境
這篇文章主要為大家詳細介紹了Linux RedHat下安裝Python2.7、pip、ipython環(huán)境、eclipse和PyDev環(huán)境，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2017-05-05