從 PDF、掃描文件、DOCX 檔案及圖片中擷取文字與結構,可直接用於摘要、搜尋或後續分析。
npx clawhub@latest install ocr-docuOCR and Documents 能從 PDF、掃描文件以及 DOCX 等常見辦公室格式中提取可用的文字與結構。它結合了針對原生數位 PDF 的快速文字提取功能,以及專為圖片密集或掃描輸入設計的 OCR 處理流程,最終輸出乾淨的純文字或結構化的 Markdown。當您需要將文件內容導入摘要生成、搜尋、索引建立,或任何需要可讀文字的下游工作流程時,請安裝此技能。
使用 PyMuPDF 或 pdfminer,直接從原生數位 PDF 中提取文字,無需 OCR 額外處理,並盡可能保留原始版面配置。
將掃描的 PDF 及文件照片透過 Tesseract 或相容的 OCR 服務進行處理,以從影像型內容中還原文字。
透過 python-docx 讀取 Microsoft Word 檔案,將段落與標題結構擷取為純文字或 Markdown 格式輸出。
將擷取的內容標準化為純文字或結構化 Markdown,使輸出結果可立即供摘要生成、索引建立或其他下游技能使用。
根據執行階段偵測到的文件類型,自動選擇適當的擷取器——直接文字層、OCR 或特定格式解析器。
使用 OCR and Documents 掃描發票或已填寫的表單,並回傳結構化欄位,例如廠商名稱、金額及到期日,以供後續處理或儲存使用。
從多頁 PDF 中擷取文字,並將每一頁的內容傳遞給摘要技能,無需手動複製貼上即可生成涵蓋整份文件的摘要。
解析 Word 文件並將其內容轉換為 Markdown 格式,使其可用於知識庫、靜態網站,或在純文字工作流程中進行進一步編輯。
從混合的 PDF 和 DOCX 檔案集合中批次擷取文字,產生適合向量或全文搜尋索引的乾淨、標準化文字區塊。
Python 環境(或同等工具)以及以下一個或多個函式庫,具體取決於您的文件類型:
npx clawhub@latest install ocr-docunpx clawhub@latest install ocr-docu登入後撰寫評價
尚無評價。來分享你的使用體驗吧!