PaddleOCR 發(fā)版 v2.6,帶來全新升級的 PP-StructureV2 智能文檔分析系統(tǒng),實現(xiàn)一鍵 PDF 轉(zhuǎn) Word。歡迎廣大開發(fā)者使用 NVIDIA 與飛槳共同深度適配的 NGC 飛槳容器在 NVIDIA GPU 上體驗!
1. PaddleOCR v2.6 版本升級
隨著企業(yè)數(shù)字化進程不斷加速,PDF 轉(zhuǎn) Word 的功能、紙質(zhì)文本的電子化存儲、文件復(fù)原與二次編輯、信息檢索等應(yīng)用都有著強烈的企業(yè)需求。目前市面上已有一些軟件,但普遍需要繁瑣的安裝注冊操作,大多還存在額度限制。此外,最終轉(zhuǎn)換效果也依賴于版面形態(tài),無法做到針對性適配。
針對開發(fā)者的需求,飛槳文字識別套件 PaddleOCR 全新發(fā)布 PP-StructureV2 智能文檔分析系統(tǒng),支持一行命令實現(xiàn) PDF 轉(zhuǎn) Word 功能,文字、表格、標(biāo)題、圖片都可完整恢復(fù),一鍵實現(xiàn) PDF 編輯自由!
文檔分析示例
PP-StructureV2 智能文檔分析系統(tǒng)升級點包括以下 2 方面:
系統(tǒng)功能升級:新增圖像矯正和版面復(fù)原模塊,支持標(biāo)準格式 PDF 和圖片格式 PDF 解析!
系統(tǒng)性能優(yōu)化:
版面分析:發(fā)布輕量級版面分析模型,速度提升 11 倍,平均 CPU 耗時僅需 41ms!
表格識別:設(shè)計 3 大優(yōu)化策略,預(yù)測耗時不變情況下,模型精度提升 6%。
關(guān)鍵信息抽?。涸O(shè)計視覺無關(guān)模型結(jié)構(gòu),語義實體識別精度提升 2.8%,關(guān)系抽取精度提升超過 9.1%。
GitHub 傳送門:
https://github.com/PaddlePaddle/PaddleOCR
1.1 PP-StructureV2 智能文檔分析系統(tǒng)優(yōu)化策略概述
PP-StructureV2 系統(tǒng)流程圖如下所示,文檔圖像首先經(jīng)過圖像矯正模塊,判斷整圖方向并完成轉(zhuǎn)正,隨后可以完成版面信息分析與關(guān)鍵信息抽取 2 類任務(wù)。
在版面分析任務(wù)中,圖像首先經(jīng)過版面分析模型,將圖像劃分為文本、表格、圖像等不同區(qū)域,隨后對這些區(qū)域分別進行識別,如,將表格區(qū)域送入表格識別模塊進行結(jié)構(gòu)化識別,將文本區(qū)域送入 OCR 引擎進行文字識別,最后使用版面恢復(fù)模塊將其恢復(fù)為與原始圖像布局一致的 Word 或者 PDF 格式的文件。
在關(guān)鍵信息抽取任務(wù)中,首先使用 OCR 引擎提取文本內(nèi)容,然后由語義實體識別模塊獲取圖像中的語義實體,最后經(jīng)關(guān)系抽取模塊獲取語義實體之間的對應(yīng)關(guān)系,從而提取需要的關(guān)鍵信息。
從算法改進思路來看,對系統(tǒng)中的 3 個關(guān)鍵子模塊,共進行了 8 個方面的改進:
版面分析
PP-PicoDet:輕量級版面分析模型
FGD:兼顧全局與局部特征的模型蒸餾算法
表格識別
PP-LCNet: CPU 友好型輕量級骨干網(wǎng)絡(luò)
CSP-PAN:輕量級高低層特征融合模塊
SLAHead:結(jié)構(gòu)與位置信息對齊的特征解碼模塊
關(guān)鍵信息抽取
VI-LayoutXLM:視覺特征無關(guān)的多模態(tài)預(yù)訓(xùn)練模型結(jié)構(gòu)
TB-YX:考慮閱讀順序的文本行排序邏輯
UDML:聯(lián)合互學(xué)習(xí)知識蒸餾策略
最終,與 PP-StructureV1 相比:
版面分析模型參數(shù)量減少 95%,推理速度提升 11 倍,精度提升 0.4%;
表格識別預(yù)測耗時不變,模型精度提升 6%,端到端 TEDS 提升 2%;
關(guān)鍵信息抽取模型速度提升 2.8 倍,語義實體識別模型精度提升 2.8%;關(guān)系抽取模型精度提升 9.1%。
PP-StructureV2 優(yōu)化詳細策略解析三日課回放,可以掃描下方二維碼,加入 PaddleOCR 官方交流群獲取。除此之外,入群福利還包括:社區(qū)開發(fā)者基于 PP-StructureV2 開發(fā)的 PDF2Word 應(yīng)用程序、《動手學(xué) OCR》電子書、10 個 OCR 場景應(yīng)用垂類模型等。
PP-StructureV2 技術(shù)報告:
https://arxiv.org/abs/2210.05391v2
2. NGC 飛槳容器介紹
如果您希望體驗 PaddleOCRv2.6 的新特性,歡迎使用 NGC 飛槳容器。NVIDIA 與百度飛槳共同開發(fā)了 NGC 飛槳容器,將最新版本的飛槳與最新的 NVIDIA 的軟件棧(如 CUDA)進行了無縫的集成與性能優(yōu)化,最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計算能力。這樣,用戶不僅可以快速開啟 AI 應(yīng)用,專注于創(chuàng)新和應(yīng)用本身,還能夠在 AI 訓(xùn)練和推理任務(wù)上獲得飛槳+NVIDIA 帶來的飛速體驗。
最佳的開發(fā)環(huán)境搭建工具 - 容器技術(shù)。
容器其實是一個開箱即用的服務(wù)器。極大降低了深度學(xué)習(xí)開發(fā)環(huán)境的搭建難度。例如你的開發(fā)環(huán)境中包含其他依賴進程(redis,MySQL,Ngnix,selenium-hub等等),或者你需要進行跨操作系統(tǒng)級別的遷移。
容器鏡像方便了開發(fā)者的版本化管理
容器鏡像是一種易于復(fù)現(xiàn)的開發(fā)環(huán)境載體
容器技術(shù)支持多容器同時運行
最好的 PaddlePaddle 容器
NGC 飛槳容器針對 NVIDIA GPU 加速進行了優(yōu)化,并包含一組經(jīng)過驗證的庫,可啟用和優(yōu)化 NVIDIA GPU 性能。此容器還可能包含對 PaddlePaddle 源代碼的修改,以最大限度地提高性能和兼容性。此容器還包含用于加速 ETL (DALI, RAPIDS)、訓(xùn)練(cuDNN, NCCL)和推理 (TensorRT)工作負載的軟件。
PaddlePaddle 容器具有以下優(yōu)點:
適配最新版本的 NVIDIA 軟件棧(例如最新版本 CUDA),更多功能,更高性能。
更新的 Ubuntu 操作系統(tǒng),更好的軟件兼容性
按月更新
滿足 NVIDIA NGC 開發(fā)及驗證規(guī)范,質(zhì)量管理
通過飛槳官網(wǎng)快速獲取
環(huán)境準備
使用 NGC 飛槳容器需要主機系統(tǒng)(Linux)安裝以下內(nèi)容:
Docker 引擎
NVIDIA GPU 驅(qū)動程序
NVIDIA 容器工具包
有關(guān)支持的版本,請參閱 NVIDIA 框架容器支持矩陣和 NVIDIA 容器工具包文檔。
不需要其他安裝、編譯或依賴管理。無需安裝 NVIDIA CUDA Toolkit。
3. 飛槳與 NVIDIA NGC 合作介紹
目前飛槳已擁有超過 470 萬的開發(fā)者。而在過去五年,飛槳與 NVIDIA 團隊緊密合作,雙方深度融合,做了大量適配工作。
今年,NVIDIA 在國內(nèi)也已經(jīng)設(shè)立了專門的工程團隊支持,賦能飛槳生態(tài)。
而為了讓更多的開發(fā)者能用上基于 NVIDIA 最新的高性能硬件和軟件棧。當(dāng)前,NVIDIA 團隊正在進行全新一代 GPU 的適配工作,以及提高飛槳對 CUDA Operation API 的使用率,讓飛槳的開發(fā)者擁有優(yōu)秀的用戶體驗及極致性能。
以上的各種適配,僅僅是讓飛槳的開發(fā)者擁有高性能的推理訓(xùn)練成為可能。但是,這些離行業(yè)開發(fā)者還很遠,門檻還很高,難度還很大。
為此,我們將剛剛這些集成和優(yōu)化工作,整合到三大產(chǎn)品線中。其中 NGC 飛槳容器最為閃亮。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4978瀏覽量
102987 -
存儲
+關(guān)注
關(guān)注
13文章
4296瀏覽量
85799 -
gpu
+關(guān)注
關(guān)注
28文章
4729瀏覽量
128890 -
飛槳
+關(guān)注
關(guān)注
0文章
33瀏覽量
2284
原文標(biāo)題:在 NVIDIA NGC 上體驗一鍵 PDF 轉(zhuǎn) Word
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論