RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Camelot:超強(qiáng)大的PDF表格提取器

科技綠洲 ? 來(lái)源:Python實(shí)用寶典 ? 作者:Python實(shí)用寶典 ? 2023-10-30 09:44 ? 次閱讀

如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。

Python 第三方模塊 Camelot 能夠精準(zhǔn)識(shí)別PDF中的表格信息,并提取為pandas數(shù)據(jù)結(jié)構(gòu),而且還能導(dǎo)出為多種格式:JSON,Excel,HTML和Sqlite。

下面給大家介紹這個(gè)模塊的使用方法:

1.準(zhǔn)備

開(kāi)始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒(méi)有,可以訪問(wèn)這篇文章:超詳細(xì)Python安裝指南 進(jìn)行安裝。

如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.

此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點(diǎn):Python 編程的最好搭檔—VSCode 詳細(xì)指南。

請(qǐng)選擇以下任一種方式輸入命令安裝依賴(lài)

  1. Windows 環(huán)境 打開(kāi) Cmd (開(kāi)始-運(yùn)行-CMD)。
  2. MacOS 環(huán)境 打開(kāi) Terminal (command+空格輸入Terminal)。
  3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install camelot-py[cv]

2.使用

最簡(jiǎn)單的使用方式如下:

import camelot
# 1.讀取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.導(dǎo)出pdf所有的表格為csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行,導(dǎo)入camelot這個(gè)模塊。

第二行,以stream的模式讀取當(dāng)前目錄的foo.pdf文件。

第三行,將所有表格數(shù)據(jù)導(dǎo)出為 foo.csv 文件,并保存在當(dāng)前文件夾下。

相當(dāng)簡(jiǎn)單,請(qǐng)注意,read_pdf 的 flavor 參數(shù)是可選的,如果你不帶這個(gè)參數(shù),請(qǐng)注意需要安裝 ghostscript 這個(gè)驅(qū)動(dòng),因?yàn)樗J(rèn)使用 ghostscript 去用 lattice 模式。

3.進(jìn)階

3.1 處理背景線:

圖片

可以看到,很多表格的線都隱藏在背景中。這種表格默認(rèn)是不支持的,這時(shí)候我們需要讓程序能夠自動(dòng)識(shí)別這樣的表格:

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 參數(shù)即可。

3.2 指定表格區(qū)域

某些情況下無(wú)法正確識(shí)別到PDF中的表格,此時(shí)手動(dòng)設(shè)定左上角和右下角的邊界可能是有效果的:

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式為 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在PDF坐標(biāo)空間中,頁(yè)面的左下角是原點(diǎn),坐標(biāo)為(0,0)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • PDF
    PDF
    +關(guān)注

    關(guān)注

    1

    文章

    168

    瀏覽量

    33691
  • 數(shù)據(jù)結(jié)構(gòu)

    關(guān)注

    3

    文章

    573

    瀏覽量

    40121
  • 提取器
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    8123
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    [分享]超強(qiáng)的壓縮內(nèi)存

     和大家分享一款超強(qiáng)的壓縮內(nèi)存  
    發(fā)表于 05-27 14:18

    關(guān)于從Labview表格提取一列數(shù)值生成數(shù)組問(wèn)題

    我把txt文件里的內(nèi)容分別導(dǎo)入到如圖所示的表格中,一共4列,現(xiàn)在我想把最后一列也就是數(shù)據(jù)值提取出來(lái),生成一個(gè)數(shù)組。能不能通過(guò)不寫(xiě)入EXCEL,再提取完成。
    發(fā)表于 04-27 21:16

    如何將文件pdf轉(zhuǎn)換成excel格式的表格

    機(jī)制能夠準(zhǔn)確讀取各種文件內(nèi)容,并可以非常準(zhǔn)確地全文件識(shí)別轉(zhuǎn)化中文、英文、表格。除了具備較好的轉(zhuǎn)換效果之外,迅捷PDF轉(zhuǎn)換還在此基礎(chǔ)上集成了較好的批量PDF轉(zhuǎn)換功能。換句話說(shuō),用戶(hù)可以
    發(fā)表于 11-08 16:18

    NLPIR在文本信息提取方面的優(yōu)勢(shì)介紹

    ,NLPIR平臺(tái)KGB知識(shí)圖譜在文本信息提取的優(yōu)勢(shì): 1、能夠解析不同格式文檔和圖片KGB知識(shí)圖譜引擎,能夠?qū)Σ煌姹竞透袷降奈臋n進(jìn)行解析:TXT、DOC、EXCEL、PPT、PDF、XML等,對(duì)于圖片,OCR
    發(fā)表于 09-12 15:33

    word表格小技巧

    word表格小技巧 一、快速插入表格   拖動(dòng)“插入表格”能插入的最大表格跟該圖標(biāo)位置、顯示分辨率有關(guān)。如使用800×600分辨率時(shí)最大為18行×28
    發(fā)表于 01-08 09:56 ?1574次閱讀

    Matlab經(jīng)典超強(qiáng)教程

    電子發(fā)燒友網(wǎng)站提供《Matlab經(jīng)典超強(qiáng)教程.pdf》資料免費(fèi)下載
    發(fā)表于 07-15 15:21 ?37次下載

    LabVIEW中表格控件使用

    LabVIEW中表格控件使用,學(xué)習(xí)使用表格控件使用基礎(chǔ)
    發(fā)表于 07-25 10:33 ?0次下載

    Python的PDF表格提取-Camelot

    Python 第三方模塊 Camelot 能夠精準(zhǔn)識(shí)別PDF中的表格信息,并提取為pandas數(shù)據(jù)結(jié)構(gòu),而且還能導(dǎo)出為多種格式:JSON,Excel,HTML和Sqlite。
    的頭像 發(fā)表于 02-24 11:04 ?2190次閱讀
    Python的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>-<b class='flag-5'>Camelot</b>

    如何提取Word文檔表格保存到Excel

    據(jù)提取到Excel表中。例如,提取word文檔中的財(cái)務(wù)數(shù)據(jù)、考勤數(shù)據(jù)等,將數(shù)據(jù)存儲(chǔ)到 Excel表中,本次項(xiàng)目我們專(zhuān)門(mén)針對(duì)word文檔中的表格數(shù)據(jù)進(jìn)行解析與提取。
    的頭像 發(fā)表于 02-24 16:00 ?2776次閱讀
    如何<b class='flag-5'>提取</b>Word文檔<b class='flag-5'>表格</b>保存到Excel

    Camelot:Python超強(qiáng)大PDF表格提取

    如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。 Python 第三方模塊 Camelot 能夠精準(zhǔn)識(shí)別PDF中的
    的頭像 發(fā)表于 10-21 10:57 ?1526次閱讀
    <b class='flag-5'>Camelot</b>:Python<b class='flag-5'>超強(qiáng)大</b>的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>

    Camelot模塊的使用方法

    如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。 Python 第三方模塊 Camelot 能夠精準(zhǔn)識(shí)別PDF中的
    的頭像 發(fā)表于 11-01 10:02 ?1023次閱讀
    <b class='flag-5'>Camelot</b>模塊的使用方法

    wps能不能用vlookup函數(shù)與數(shù)組結(jié)合提取多列數(shù)據(jù)

    WPS表格是一個(gè)功能強(qiáng)大的電子表格軟件,它提供了一系列函數(shù),包括VLOOKUP函數(shù),用于在表格中查找和提取數(shù)據(jù)。VLOOKUP函數(shù)能夠根據(jù)某
    的頭像 發(fā)表于 12-01 11:07 ?1512次閱讀

    何為T(mén)eable多維表格數(shù)據(jù)庫(kù),它僅僅是一個(gè)在線的智能表格嗎?

    表格是一種創(chuàng)新的數(shù)據(jù)管理和協(xié)作工具,它結(jié)合了傳統(tǒng)電子表格的直觀界面與關(guān)系數(shù)據(jù)庫(kù)的強(qiáng)大功能。用戶(hù)不僅可以像在Excel中一樣在二維表格內(nèi)記錄和編輯數(shù)據(jù),還能享受到基于數(shù)據(jù)結(jié)構(gòu)的靈活管理
    的頭像 發(fā)表于 10-14 16:13 ?421次閱讀

    多維表格屬于低代碼平臺(tái)嗎?

    Teable多維表格數(shù)據(jù)庫(kù)是一款功能強(qiáng)大的云端數(shù)據(jù)庫(kù)和協(xié)作工具,結(jié)合了電子表格的靈活性和數(shù)據(jù)庫(kù)的強(qiáng)大功能,適用企業(yè)內(nèi)部項(xiàng)目管理 數(shù)據(jù)收集與整理 內(nèi)容管理與創(chuàng)意協(xié)作 客戶(hù)關(guān)系管理 項(xiàng)目跟
    的頭像 發(fā)表于 10-17 14:22 ?231次閱讀

    傳統(tǒng)電子表格Excel和Teable多維表格數(shù)據(jù)庫(kù)的區(qū)別?

    傳統(tǒng)Excel是一款功能強(qiáng)大的電子表格軟件,它的數(shù)據(jù)處理 分析以及圖表制作等功能給工作帶來(lái)了很多便利,但也有自身的局限性,本文介紹的多維表格Teable數(shù)據(jù)庫(kù)將在傳統(tǒng)電子表格Excel
    的頭像 發(fā)表于 10-23 16:44 ?335次閱讀
    RM新时代网站-首页