Python?PaddleNLP開源實(shí)現(xiàn)快遞單信息抽取
前言
近幾年,制造業(yè)作為國(guó)民經(jīng)濟(jì)主體,是國(guó)家創(chuàng)造力、競(jìng)爭(zhēng)力和綜合國(guó)力的重要體現(xiàn)。作為制造強(qiáng)國(guó)建設(shè)的主攻方向,可以說(shuō),智能制造發(fā)展水平關(guān)乎我國(guó)未來(lái)制造業(yè)的全球地位。
制造業(yè)與物流結(jié)合緊密,隨著制造業(yè)的高速發(fā)展,對(duì)自動(dòng)化率、全產(chǎn)業(yè)鏈協(xié)同和生產(chǎn)效率再提高等方向均提出了更高的要求,需要物流倉(cāng)儲(chǔ)能夠匹配相應(yīng)的生產(chǎn)節(jié)奏。
同時(shí),據(jù)統(tǒng)計(jì),我國(guó)制造業(yè)生產(chǎn)成本中,物流占比高達(dá)三成,降低物流成本成為了制造業(yè)利潤(rùn)提升的關(guān)鍵一環(huán)。
今天,我將基于智能制造 - 精益物流場(chǎng)景,跟大家分享一下,從快遞單信息抽取到智能立體庫(kù), 盤點(diǎn)兩大通用的開源產(chǎn)業(yè)落地方案。
5 條標(biāo)注數(shù)據(jù),搞定物流快遞單信息抽取
據(jù)統(tǒng)計(jì),2021 年國(guó)內(nèi)快遞件數(shù)超 1000 億件。作為勞動(dòng)密集型產(chǎn)業(yè),固有模式下出現(xiàn)的快遞人員短缺、配送效率疲軟、物流承載有限等問(wèn)題,儼然成為物流行業(yè)面臨的最直接挑戰(zhàn)。利用智能化手段來(lái)提高工作效率、提升用戶體驗(yàn),是物流行業(yè)最強(qiáng)烈且迫切的需求。
在下單環(huán)節(jié),“買賣東西一時(shí)爽,信息輸入超麻煩”、“門牌號(hào)、手機(jī)號(hào)碼,這輸錯(cuò)一個(gè)數(shù)字就是千差萬(wàn)別”、“名字還有生僻字,找都找不到” 都道出了不少人的心聲,特別是每天都需處理大量訂單的商家和物流工作人員更是苦不堪言,而這個(gè)問(wèn)題可以靠 NLP 信息抽取技術(shù)來(lái)解決。
基于此,飛槳自然語(yǔ)言處理模型庫(kù) PaddleNLP 開源了通用信息抽取技術(shù) UIE,能夠大大加快快遞單信息結(jié)構(gòu)化效率。 可輕松實(shí)現(xiàn)從用戶提供的文字信息中快速抽取姓名、電話、省、市、區(qū)、詳細(xì)地址等內(nèi)容,形成結(jié)構(gòu)化的信息,降低客戶填單成本。
圖 1:物流快遞單信息抽取
信息抽取是一個(gè)行業(yè)應(yīng)用價(jià)值很高的技術(shù),卻因?yàn)槿蝿?wù)多樣、領(lǐng)域多樣、數(shù)據(jù)獲取和標(biāo)注成本高,導(dǎo)致落地成本居高不下。
因此,中科院軟件所和百度共同提出了大一統(tǒng)諸多任務(wù)的通用信息抽取技術(shù) UIE(Universal Information Extraction),在實(shí)體、關(guān)系、事件和情感等 4 個(gè)信息抽取任務(wù)、13 個(gè)數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下,均取得了 SOTA 性能,這項(xiàng)成果發(fā)表在 ACL’22 [1]。
前陣子,百度飛槳的 PaddleNLP 結(jié)合文心大模型中的知識(shí)增強(qiáng) NLP 大模型 ERNIE 3.0,發(fā)揮了 UIE 在中文任務(wù)上的強(qiáng)大潛力,開源了首個(gè)面向通用信息抽取的產(chǎn)業(yè)級(jí)技術(shù)方案,不需要標(biāo)注數(shù)據(jù)(或僅需少量標(biāo)注數(shù)據(jù)),即可快速完成各類信息抽取任務(wù)。
圖 2:傳統(tǒng)方案 vs UIE 統(tǒng)一建模方案
在物流快遞單信息抽取任務(wù)中,僅標(biāo)注了 5 條樣本,F(xiàn)1 值即提升 18 個(gè)點(diǎn),達(dá)到 93% 。相對(duì)于傳統(tǒng)序列標(biāo)注方案動(dòng)輒標(biāo)注幾百條、幾千條的高額標(biāo)注成本??梢哉f(shuō),PaddleNLP 開源的通用信息抽取工具簡(jiǎn)直是國(guó)貨之光!
這么酷炫的技術(shù)能力,如何快速應(yīng)用到業(yè)務(wù)中呢?
通過(guò)調(diào)用 paddlenlp.Taskflow API 即可實(shí)現(xiàn)零樣本(zero-shot)抽取多種類型的信息,話不多說(shuō),直接上代碼,看效果:
# 快遞單信息抽取 from?paddlenlp?import?Taskflow schema?=?['姓名',?'省份',?'城市',?'縣區(qū)'] ie("北京市海淀區(qū)上地十街10號(hào)18888888888張三") >>>?[{'姓名': [{'text':?'張三',?'start':?24,?'end':?26,?'probability':?0.97369767177317}], ? ?'城市': [{'text':?'北京市',?'start':?0,?'end':?3,?'probability':?0.9992830142165161}], ? ?'縣區(qū)': [{'text':?'海淀區(qū)',?'start':?3,?'end':?6,?'probability':?0.9997933003097614}]}]
對(duì)于復(fù)雜目標(biāo),可以標(biāo)注少量數(shù)據(jù)(Few-shot)進(jìn)行模型訓(xùn)練,以進(jìn)一步提升效果。PaddleNLP 打通了從數(shù)據(jù)標(biāo)注 - 訓(xùn)練 - 部署全流程,不僅能夠方便地進(jìn)行定制化訓(xùn)練,在部署階段我們也提供了基于 ONNXRuntime 引擎部署、半精度(FP16)推理等多種加速方案,滿足 CPU、GPU 等不同場(chǎng)景下的部署需求。
所有源碼及模型均已開源,大家可以嘗鮮使用,star 鼓勵(lì)。
此外,PaddleNLP 還開源了物流快遞單信息抽取產(chǎn)業(yè)實(shí)踐范例,通過(guò)完整的代碼實(shí)現(xiàn),提供從數(shù)據(jù)準(zhǔn)備到模型調(diào)優(yōu)的全過(guò)程解析,堪稱產(chǎn)業(yè)落地的 “自動(dòng)導(dǎo)航” 。 百度高工還將帶來(lái)手把手進(jìn)行全流程代碼實(shí)踐,輕松直達(dá)項(xiàng)目 POC 階段。
智能立體庫(kù)盤點(diǎn)
物流行業(yè)的貨物存儲(chǔ)庫(kù)有從單一存儲(chǔ)特性的立體庫(kù)向多功能智能化物流倉(cāng)轉(zhuǎn)化的發(fā)展趨勢(shì),包括賦能智慧物流集收貨、配送、分揀、客戶化定制等功能一體的智能物流庫(kù),賦能智能制造集存儲(chǔ)、線邊自動(dòng)補(bǔ)給、集成自動(dòng)化生產(chǎn)工藝為一體的多功能物流庫(kù)。
針對(duì)這一趨勢(shì)下的多功能智能化物流倉(cāng)進(jìn)行智能盤點(diǎn),相較傳統(tǒng)物流倉(cāng)而言,其難度也增加了不少,主要包括:前端工藝、安全管理制約、存儲(chǔ)點(diǎn)動(dòng)態(tài)監(jiān)控、全流程多點(diǎn)監(jiān)控等,如圖 3 所示。
圖 3:多功能智能化物流倉(cāng)的智能盤點(diǎn)難度
飛槳零門檻 AI 開發(fā)平臺(tái) EasyDL 可從 0 到 1 快速構(gòu)建針對(duì)多功能智能化物流倉(cāng)的智能盤點(diǎn)的 AI 模型,最快 15 分鐘即可完成模型訓(xùn)練。
使用流程下圖所示。
圖 4: AI 模型訓(xùn)練及部署流程
無(wú)需關(guān)注模型細(xì)節(jié),即便是沒(méi)有任何 AI 基礎(chǔ),也能快速上手使用!使用 EasyDL - 圖像分割任務(wù)進(jìn)行模型訓(xùn)練,最終模型效果可以達(dá)到 99.9%,充分滿足產(chǎn)業(yè)應(yīng)用的需求。
圖 5: 模型效果
物流行業(yè)自動(dòng)化近年來(lái)蓬勃發(fā)展,智能化立體庫(kù)、自動(dòng)碼垛、自動(dòng)搬運(yùn)、自動(dòng)裝車、智能分揀等相關(guān)設(shè)備在各行業(yè)應(yīng)用廣泛。在產(chǎn)品在途、在庫(kù)信息查詢、產(chǎn)品溯源等各個(gè)環(huán)節(jié)中,AI 技術(shù)都發(fā)揮了至關(guān)重要的作用,大大節(jié)約了物流成本,提高了物流效率和盤點(diǎn)效率。
即刻上手使用 EasyDL,快速構(gòu)建屬于你的 AI 盤點(diǎn)模型吧!
以上就是Python PaddleNLP信息抽取提取快遞單信息的詳細(xì)內(nèi)容,更多關(guān)于Python PaddleNLP信息抽取的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
解讀MaxPooling1D和GlobalMaxPooling1D的區(qū)別
這篇文章主要介紹了MaxPooling1D和GlobalMaxPooling1D的區(qū)別及說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-12-12Python 統(tǒng)計(jì)列表中重復(fù)元素的個(gè)數(shù)并返回其索引值的實(shí)現(xiàn)方法
這篇文章主要介紹了Python 統(tǒng)計(jì)列表中重復(fù)元素的個(gè)數(shù)并返回其索引值,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-05-05Python中set與frozenset方法和區(qū)別詳解
這篇文章主要介紹了Python中set與frozenset方法和區(qū)別詳解的相關(guān)資料,需要的朋友可以參考下2016-05-05一文詳解如何配置Pycharm進(jìn)行遠(yuǎn)程開發(fā)
在搞深度學(xué)習(xí)的時(shí)候,我們?cè)诒镜亻_發(fā),但是需要在服務(wù)器去運(yùn)行工程,所以需要使用Pycharm進(jìn)行遠(yuǎn)程配置,下面這篇文章主要給大家介紹了關(guān)于如何配置Pycharm進(jìn)行遠(yuǎn)程開發(fā)的相關(guān)資料,需要的朋友可以參考下2024-02-02