PDF、スキャン文書、DOCXファイル、画像からテキストと構造を抽出し、要約・検索・下流分析にすぐに活用できる形式で提供します。
npx clawhub@latest install ocr-docuOCR and Documents は、PDF、スキャン済みドキュメント、DOCX などの一般的なオフィス形式から、使用可能なテキストと構造を抽出します。デジタルネイティブな PDF に対する高速テキスト抽出と、画像が多いまたはスキャンされた入力に対する OCR パイプラインを組み合わせ、クリーンなプレーンテキストまたは構造化されたマークダウンを出力します。要約、検索、インデックス作成、または読み取り可能なテキストを必要とするその他のダウンストリームワークフローにドキュメントコンテンツを供給する必要がある場合は、このスキルをインストールしてください。
PyMuPDFまたはpdfminerを使用して、OCRのオーバーヘッドなしにボーンデジタルPDFから直接テキストを抽出し、レイアウトを可能な限り忠実に保持します。
スキャンされたPDFやドキュメントの写真を、Tesseractまたは互換性のあるOCRサービスを通じて処理し、画像ベースのコンテンツからテキストを抽出します。
python-docxを使用してMicrosoft Wordファイルを読み込み、段落と見出しの構造をクリーンなテキストまたはマークダウン形式で出力します。
抽出されたコンテンツをプレーンテキストまたは構造化Markdownに正規化し、要約・インデックス作成・その他の下流スキルですぐに利用できる出力を実現します。
実行時に検出されたドキュメントの種類に基づいて、直接テキストレイヤー、OCR、またはフォーマット固有のパーサーなど、適切な抽出ツールを自動的に選択します。
スキャンした請求書または記入済みフォームを OCR and Documents でOCR処理し、ベンダー名、金額、支払期日などの構造化フィールドを抽出して、後続の処理やストレージに活用します。
複数ページのPDFからテキストを抽出し、各ページのコンテンツを要約スキルに渡すことで、手動でのコピー&ペーストなしにドキュメント全体の要約を実現します。
Word ドキュメントを解析してその内容をマークダウンに変換し、ナレッジベース、静的サイト、またはテキストベースのワークフローでの編集にすぐに活用できるようにします。
混在するPDFおよびDOCXファイルのコレクションからテキストを一括抽出し、ベクター検索またはフルテキスト検索インデックス作成に適した、クリーンで正規化されたテキストチャンクを生成します。
Python環境(または同等のツール)に加えて、ドキュメントの種類に応じて以下のライブラリを1つ以上使用します:
npx clawhub@latest install ocr-docunpx clawhub@latest install ocr-docuレビューを書くにはログイン
まだレビューはありません。最初の体験をシェアしましょう!