Estrai testo e struttura da PDF, documenti scansionati, file DOCX e immagini — pronti per la sintesi, la ricerca o l'analisi successiva.
npx clawhub@latest install ocr-docuOCR and Documents estrae testo utilizzabile e struttura da PDF, documenti scansionati e formati Office comuni come DOCX. Combina un'estrazione rapida del testo per PDF nativi digitali con pipeline OCR per input ricchi di immagini o scansionati, producendo testo normale pulito o markdown strutturato. Installa questa skill quando hai bisogno di inserire il contenuto di documenti in flussi di lavoro di riepilogo, ricerca, indicizzazione o qualsiasi processo a valle che richieda testo leggibile.
Utilizza PyMuPDF o pdfminer per estrarre il testo direttamente da PDF nativamente digitali senza il sovraccarico dell'OCR, preservando il layout nel modo più fedele possibile.
Instrada PDF scansionati e foto di documenti attraverso Tesseract o un servizio OCR compatibile per recuperare il testo da contenuti basati su immagini.
Legge i file Microsoft Word tramite python-docx, estraendo la struttura di paragrafi e intestazioni in testo pulito o output in markdown.
Normalizza il contenuto estratto in testo semplice o markdown strutturato, rendendo l'output immediatamente utilizzabile da attività di riepilogo, indicizzazione o altre competenze a valle.
Seleziona automaticamente l'estrattore appropriato — livello di testo diretto, OCR o parser specifico per formato — in base al tipo di documento rilevato in fase di esecuzione.
Esegui l' OCR and Documents su una fattura scansionata o un modulo compilato e restituisci campi strutturati come nome del fornitore, importo e data di scadenza per l'elaborazione o l'archiviazione successiva.
Estrai il testo da un PDF di più pagine e passa il contenuto di ogni pagina a una skill di riepilogo, consentendo riassunti sull'intero documento senza copia-incolla manuale.
Analizza un documento Word e converte il suo contenuto in markdown, rendendolo pronto per una knowledge base, un sito statico o ulteriori modifiche in un flusso di lavoro basato su testo.
Estrai in batch il testo da una raccolta di file PDF e DOCX misti per produrre blocchi di testo puliti e normalizzati, adatti all'indicizzazione tramite ricerca vettoriale o full-text.
Ambiente Python (o strumenti equivalenti) più una o più delle seguenti librerie in base ai tipi di documento:
npx clawhub@latest install ocr-docunpx clawhub@latest install ocr-docuAccedi per scrivere una recensione
Nessuna recensione ancora. Sii il primo a condividere la tua esperienza!