Extraia texto e estrutura de PDFs, documentos digitalizados, arquivos DOCX e imagens — prontos para sumarização, busca ou análise posterior.
npx clawhub@latest install ocr-docuOCR and Documents extrai texto utilizável e estrutura de PDFs, documentos digitalizados e formatos comuns de escritório como DOCX. Ele combina extração rápida de texto para PDFs nativamente digitais com pipelines de OCR para entradas com muitas imagens ou digitalizadas, gerando texto simples e limpo ou markdown estruturado. Instale esta skill quando precisar alimentar conteúdo de documentos em fluxos de trabalho de sumarização, pesquisa, indexação ou qualquer pipeline downstream que exija texto legível.
Utiliza PyMuPDF ou pdfminer para extrair texto diretamente de PDFs nativamente digitais sem a sobrecarga do OCR, preservando o layout da forma mais fiel possível.
Encaminha PDFs digitalizados e fotos de documentos pelo Tesseract ou por um serviço de OCR and Documents compatível para recuperar texto de conteúdo baseado em imagem.
Lê arquivos do Microsoft Word via python-docx, extraindo a estrutura de parágrafos e títulos em texto limpo ou saída em markdown.
Normaliza o conteúdo extraído em texto simples ou markdown estruturado, tornando a saída imediatamente utilizável por habilidades de sumarização, indexação ou outras etapas subsequentes.
Seleciona automaticamente o extrator apropriado — camada de texto direto, OCR ou parser específico por formato — com base no tipo de documento detectado em tempo de execução.
Realize OCR em uma fatura digitalizada ou formulário preenchido e retorne campos estruturados, como nome do fornecedor, valor e data de vencimento, para processamento ou armazenamento posterior.
Extraia texto de um PDF de várias páginas e envie o conteúdo de cada página para uma habilidade de resumo, permitindo resumos abrangentes do documento sem copiar e colar manualmente.
Analise um documento Word e converta seu conteúdo para markdown, deixando-o pronto para uma base de conhecimento, site estático ou edição adicional em um fluxo de trabalho baseado em texto.
Extraia em lote o texto de uma coleção de arquivos PDF e DOCX mistos para produzir fragmentos de texto limpos e normalizados, adequados para indexação em busca vetorial ou de texto completo com OCR and Documents.
Ambiente Python (ou ferramentas equivalentes) mais uma ou mais das seguintes bibliotecas, dependendo dos tipos de documento:
npx clawhub@latest install ocr-docunpx clawhub@latest install ocr-docuFaça login para escrever uma avaliação
Nenhuma avaliação ainda. Seja o primeiro a compartilhar sua experiência!