快捷導(dǎo)航

Python?PaddleNLP開源實現(xiàn)快遞單信息抽取

更新時間：2022年06月10日 11:51:08 作者：Python全棧工程師

這篇文章主要為大家介紹了Python?PaddleNLP開源項目實現(xiàn)對快遞單信息抽取，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪

前言

近幾年，制造業(yè)作為國民經(jīng)濟主體，是國家創(chuàng)造力、競爭力和綜合國力的重要體現(xiàn)。作為制造強國建設(shè)的主攻方向，可以說，智能制造發(fā)展水平關(guān)乎我國未來制造業(yè)的全球地位。

制造業(yè)與物流結(jié)合緊密，隨著制造業(yè)的高速發(fā)展，對自動化率、全產(chǎn)業(yè)鏈協(xié)同和生產(chǎn)效率再提高等方向均提出了更高的要求，需要物流倉儲能夠匹配相應(yīng)的生產(chǎn)節(jié)奏。

同時，據(jù)統(tǒng)計，我國制造業(yè)生產(chǎn)成本中，物流占比高達三成，降低物流成本成為了制造業(yè)利潤提升的關(guān)鍵一環(huán)。

今天，我將基于智能制造 - 精益物流場景，跟大家分享一下，從快遞單信息抽取到智能立體庫，盤點兩大通用的開源產(chǎn)業(yè)落地方案。

5 條標注數(shù)據(jù)，搞定物流快遞單信息抽取

據(jù)統(tǒng)計，2021 年國內(nèi)快遞件數(shù)超 1000 億件。作為勞動密集型產(chǎn)業(yè)，固有模式下出現(xiàn)的快遞人員短缺、配送效率疲軟、物流承載有限等問題，儼然成為物流行業(yè)面臨的最直接挑戰(zhàn)。利用智能化手段來提高工作效率、提升用戶體驗，是物流行業(yè)最強烈且迫切的需求。

在下單環(huán)節(jié)，“買賣東西一時爽，信息輸入超麻煩”、“門牌號、手機號碼，這輸錯一個數(shù)字就是千差萬別”、“名字還有生僻字，找都找不到” 都道出了不少人的心聲，特別是每天都需處理大量訂單的商家和物流工作人員更是苦不堪言，而這個問題可以靠 NLP 信息抽取技術(shù)來解決。

基于此，飛槳自然語言處理模型庫 PaddleNLP 開源了通用信息抽取技術(shù) UIE，能夠大大加快快遞單信息結(jié)構(gòu)化效率。可輕松實現(xiàn)從用戶提供的文字信息中快速抽取姓名、電話、省、市、區(qū)、詳細地址等內(nèi)容，形成結(jié)構(gòu)化的信息，降低客戶填單成本。

圖 1：物流快遞單信息抽取

信息抽取是一個行業(yè)應(yīng)用價值很高的技術(shù)，卻因為任務(wù)多樣、領(lǐng)域多樣、數(shù)據(jù)獲取和標注成本高，導(dǎo)致落地成本居高不下。

因此，中科院軟件所和百度共同提出了大一統(tǒng)諸多任務(wù)的通用信息抽取技術(shù) UIE（Universal Information Extraction），在實體、關(guān)系、事件和情感等 4 個信息抽取任務(wù)、13 個數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下，均取得了 SOTA 性能，這項成果發(fā)表在 ACL’22 [1]。

前陣子，百度飛槳的 PaddleNLP 結(jié)合文心大模型中的知識增強 NLP 大模型 ERNIE 3.0，發(fā)揮了 UIE 在中文任務(wù)上的強大潛力，開源了首個面向通用信息抽取的產(chǎn)業(yè)級技術(shù)方案，不需要標注數(shù)據(jù)（或僅需少量標注數(shù)據(jù)），即可快速完成各類信息抽取任務(wù)。

圖 2：傳統(tǒng)方案 vs UIE 統(tǒng)一建模方案

在物流快遞單信息抽取任務(wù)中，僅標注了 5 條樣本，F(xiàn)1 值即提升 18 個點，達到 93% 。相對于傳統(tǒng)序列標注方案動輒標注幾百條、幾千條的高額標注成本。可以說，PaddleNLP 開源的通用信息抽取工具簡直是國貨之光！

這么酷炫的技術(shù)能力，如何快速應(yīng)用到業(yè)務(wù)中呢？

通過調(diào)用 paddlenlp.Taskflow API 即可實現(xiàn)零樣本（zero-shot）抽取多種類型的信息，話不多說，直接上代碼，看效果：

# 快遞單信息抽取
from?paddlenlp?import?Taskflow
schema?=?['姓名',?'省份',?'城市',?'縣區(qū)']
ie("北京市海淀區(qū)上地十街10號18888888888張三")
>>>?[{'姓名': [{'text':?'張三',?'start':?24,?'end':?26,?'probability':?0.97369767177317}],
? ?'城市': [{'text':?'北京市',?'start':?0,?'end':?3,?'probability':?0.9992830142165161}],
? ?'縣區(qū)': [{'text':?'海淀區(qū)',?'start':?3,?'end':?6,?'probability':?0.9997933003097614}]}]

對于復(fù)雜目標，可以標注少量數(shù)據(jù)（Few-shot）進行模型訓(xùn)練，以進一步提升效果。PaddleNLP 打通了從數(shù)據(jù)標注 - 訓(xùn)練 - 部署全流程，不僅能夠方便地進行定制化訓(xùn)練，在部署階段我們也提供了基于 ONNXRuntime 引擎部署、半精度（FP16）推理等多種加速方案，滿足 CPU、GPU 等不同場景下的部署需求。

所有源碼及模型均已開源，大家可以嘗鮮使用，star 鼓勵。

此外，PaddleNLP 還開源了物流快遞單信息抽取產(chǎn)業(yè)實踐范例，通過完整的代碼實現(xiàn)，提供從數(shù)據(jù)準備到模型調(diào)優(yōu)的全過程解析，堪稱產(chǎn)業(yè)落地的 “自動導(dǎo)航” 。百度高工還將帶來手把手進行全流程代碼實踐，輕松直達項目 POC 階段。

智能立體庫盤點

物流行業(yè)的貨物存儲庫有從單一存儲特性的立體庫向多功能智能化物流倉轉(zhuǎn)化的發(fā)展趨勢，包括賦能智慧物流集收貨、配送、分揀、客戶化定制等功能一體的智能物流庫，賦能智能制造集存儲、線邊自動補給、集成自動化生產(chǎn)工藝為一體的多功能物流庫。

針對這一趨勢下的多功能智能化物流倉進行智能盤點，相較傳統(tǒng)物流倉而言，其難度也增加了不少，主要包括：前端工藝、安全管理制約、存儲點動態(tài)監(jiān)控、全流程多點監(jiān)控等，如圖 3 所示。

圖 3：多功能智能化物流倉的智能盤點難度

飛槳零門檻 AI 開發(fā)平臺 EasyDL 可從 0 到 1 快速構(gòu)建針對多功能智能化物流倉的智能盤點的 AI 模型，最快 15 分鐘即可完成模型訓(xùn)練。

使用流程下圖所示。

圖 4: AI 模型訓(xùn)練及部署流程

無需關(guān)注模型細節(jié)，即便是沒有任何 AI 基礎(chǔ)，也能快速上手使用！使用 EasyDL - 圖像分割任務(wù)進行模型訓(xùn)練，最終模型效果可以達到 99.9%，充分滿足產(chǎn)業(yè)應(yīng)用的需求。

圖 5: 模型效果

物流行業(yè)自動化近年來蓬勃發(fā)展，智能化立體庫、自動碼垛、自動搬運、自動裝車、智能分揀等相關(guān)設(shè)備在各行業(yè)應(yīng)用廣泛。在產(chǎn)品在途、在庫信息查詢、產(chǎn)品溯源等各個環(huán)節(jié)中，AI 技術(shù)都發(fā)揮了至關(guān)重要的作用，大大節(jié)約了物流成本，提高了物流效率和盤點效率。

即刻上手使用 EasyDL，快速構(gòu)建屬于你的 AI 盤點模型吧！

以上就是Python PaddleNLP信息抽取提取快遞單信息的詳細內(nèi)容，更多關(guān)于Python PaddleNLP信息抽取的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: