欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python針對不同文本長度的處理方案總結(jié)與對比

 更新時間:2025年02月23日 10:29:34   作者:大霸王龍  
這篇文章主要為大家詳細(xì)介紹了Python如何針對不同文本長度的處理方案,結(jié)合層次化編碼和檢索優(yōu)化策略,感興趣的小伙伴可以參考一下

直接上代碼+注釋

有意嘗試可交流

效果正在驗證中。

1.短文本處理(<500tokens)

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')  # 384維小型模型

def process_short(text):
    """直接全文本編碼"""
    return model.encode(text, convert_to_tensor=True)

# 示例
short_text = "自然語言處理的基礎(chǔ)概念"  # 長度約15 tokens
vector = process_short(short_text)

2. 中長文本處理 (500-2000 tokens)

from langchain_text_splitters import RecursiveCharacterTextSplitter

def process_medium(text):
    """重疊分塊策略"""
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,
        chunk_overlap=50,
        separators=["\n\n", "\n", "。", "!", "?"]
    )
    chunks = splitter.split_text(text)
    return [model.encode(chunk) for chunk in chunks]

# 示例
medium_text = "機器學(xué)習(xí)發(fā)展歷史...(約1500字)"  # 約1800 tokens
chunk_vectors = process_medium(medium_text)

3. 長文本處理 (2000-20000 tokens)

import spacy

def process_long(text):
    """語義分塊+摘要增強"""
    # 加載語義分割模型
    nlp = spacy.load("zh_core_web_sm") 
    doc = nlp(text)
    
    # 按段落分割
    chunks = [sent.text for sent in doc.sents]
    
    # 生成章節(jié)摘要
    summary_model = SentenceTransformer('uer/sbert-base-chinese-nli')
    summaries = [summary_model.encode(chunk[:200]) for chunk in chunks]
    
    return chunks, summaries

# 示例
long_text = "人工智能技術(shù)白皮書...(約2萬字)"  # 約20000 tokens
text_chunks, summary_vecs = process_long(long_text)

4. 超長文本處理 (20000-200000 tokens)

import faiss
import numpy as np

class HierarchicalIndex:
    def __init__(self):
        # 兩級索引結(jié)構(gòu)
        self.summary_index = faiss.IndexFlatL2(384)
        self.chunk_index = faiss.IndexIVFPQ(
            faiss.IndexFlatL2(384), 384, 100, 16, 8
        )
        self.metadata = []

    def add_document(self, text):
        # 生成段落級摘要
        chunks, summaries = process_long(text)
        
        # 構(gòu)建索引
        summary_vecs = np.array(summaries).astype('float32')
        chunk_vecs = np.array([model.encode(c) for c in chunks]).astype('float32')
        
        self.summary_index.add(summary_vecs)
        self.chunk_index.add(chunk_vecs)
        self.metadata.extend(chunks)

    def search(self, query, k=5):
        # 先檢索摘要層
        query_vec = model.encode(query).astype('float32')
        _, sum_indices = self.summary_index.search(np.array([query_vec]), 10)
        
        # 精搜相關(guān)塊
        target_chunks = [self.chunk_index.reconstruct(i) for i in sum_indices]
        target_chunks = np.array(target_chunks).astype('float32')
        _, chunk_indices = self.chunk_index.search(target_chunks, k)
        
        return [self.metadata[i] for i in chunk_indices]

# 使用示例
hindex = HierarchicalIndex()
hindex.add_document("某領(lǐng)域技術(shù)文檔...(約15萬字)")  # 約200000 tokens
results = hindex.search("深度學(xué)習(xí)在醫(yī)療影像的應(yīng)用")

5. 海量文本處理 (>200000 tokens)

import dask.dataframe as dd
from dask.distributed import Client

def process_extreme(file_path):
    """分布式處理方案"""
    client = Client(n_workers=4)  # 啟動Dask集群
    
    # 分塊讀取
    df = dd.read_parquet(file_path, chunksize=100000)  
    
    # 并行編碼
    df['vector'] = df['text'].map_partitions(
        lambda s: s.apply(model.encode),
        meta=('vector', object)
    )
    
    # 構(gòu)建分布式索引
    df.to_parquet("encoded_data.parquet", engine="pyarrow")
    
# 示例(處理100萬條文本)
process_extreme("massive_data.parquet")

性能優(yōu)化對照表=

文本長度處理策略索引類型響應(yīng)時間內(nèi)存消耗
<500直接編碼FlatIndex<10ms1MB
2000重疊分塊IVF+PQ50-100ms50MB
20000語義分塊+摘要索引二級索引200-500ms300MB
200000層次化索引IVFOPQ+ProductQuant1-2s2GB
>200000分布式處理分片索引10s+集群資源

關(guān)鍵處理技術(shù)

  • 滑動窗口:通過chunk_overlap保留上下文連續(xù)性
  • 語義分塊:使用spacy進行句子邊界檢測
  • 層次化索引:摘要層加速粗篩,塊層保證精度
  • 量化壓縮:PQ算法減少內(nèi)存占用(精度損失

以上就是Python針對不同文本長度的處理方案總結(jié)與對比的詳細(xì)內(nèi)容,更多關(guān)于Python文本處理的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Python中使用partial改變方法默認(rèn)參數(shù)實例

    Python中使用partial改變方法默認(rèn)參數(shù)實例

    這篇文章主要介紹了Python中使用partial改變方法默認(rèn)參數(shù)實例,本文直接給出使用實例,代碼中包含詳細(xì)注釋,需要的朋友可以參考下
    2015-04-04
  • Python中pygal繪制雷達圖代碼分享

    Python中pygal繪制雷達圖代碼分享

    這篇文章主要介紹了Python中pygal繪制雷達圖代碼分享,具有一定借鑒價值,需要的朋友可以參考下。
    2017-12-12
  • Python之py2exe打包工具詳解

    Python之py2exe打包工具詳解

    下面小編就為大家?guī)硪黄狿ython之py2exe打包工具詳解。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-06-06
  • Python實現(xiàn)多圖繪制系統(tǒng)的示例代碼

    Python實現(xiàn)多圖繪制系統(tǒng)的示例代碼

    這篇文章主要為大家詳細(xì)介紹了Python如何實現(xiàn)制作一個多圖繪制系統(tǒng),文中的示例代碼簡潔易懂,具有一定的借鑒價值,感興趣的小伙伴可以學(xué)習(xí)一下
    2023-09-09
  • Python的Django框架中消息通知的計數(shù)器實現(xiàn)教程

    Python的Django框架中消息通知的計數(shù)器實現(xiàn)教程

    通知的計數(shù)器非常有用,新通知時+1和讀過通知后的-1是最基本的功能,這里我們就來看一下Python的Django框架中消息通知的計數(shù)器實現(xiàn)教程
    2016-06-06
  • Python類定義和類繼承詳解

    Python類定義和類繼承詳解

    這篇文章主要介紹了Python類定義和類繼承詳解,本文講解了類的私有屬性、類的方法、私有的類方法、類的專有方法、類的定義、類的單繼承、類的多繼承等內(nèi)容,需要的朋友可以參考下
    2015-05-05
  • 使用Python實現(xiàn)屏幕錄制與鍵盤監(jiān)聽功能

    使用Python實現(xiàn)屏幕錄制與鍵盤監(jiān)聽功能

    在Python中,我們可以借助多個強大的庫來實現(xiàn)豐富的功能,比如屏幕錄制和鍵盤監(jiān)聽,今天,我們將通過結(jié)合PIL、OpenCV、pynput以及threading等庫,來實現(xiàn)一個簡單的屏幕錄制工具,該工具能夠通過監(jiān)聽鍵盤事件來控制錄制的開始與結(jié)束,需要的朋友可以參考下
    2024-12-12
  • 利用PyQt中的QThread類實現(xiàn)多線程

    利用PyQt中的QThread類實現(xiàn)多線程

    本文主要給大家分享的是python實現(xiàn)多線程及線程間通信的簡單方法,非常的實用,有需要的小伙伴可以參考下
    2020-02-02
  • Python中計時程序運行時間的幾種常用方法

    Python中計時程序運行時間的幾種常用方法

    這篇文章主要介紹了Python中計時程序運行時間的幾種常用方法,分別是一般方法、基于上下文管理器和基于裝飾器,每種方法都有其適用場景和優(yōu)缺點,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2025-04-04
  • Django序列化中SerializerMethodField的使用詳解

    Django序列化中SerializerMethodField的使用詳解

    這篇文章主要介紹了Django序列化中SerializerMethodField的使用,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2025-03-03

最新評論