Extraheer tekst en structuur uit PDF's, gescande documenten, DOCX-bestanden en afbeeldingen — klaar voor samenvatting, zoeken of verdere analyse.
npx clawhub@latest install ocr-docuOCR and Documents geeft uw AI-assistent de mogelijkheid om bruikbare tekst te lezen en te extraheren uit een breed scala aan documentformaten — waaronder digitaal geboren PDF's, gescande papierdocumenten en DOCX-bestanden. Of u nu ruwe tekst, gestructureerde markdown of specifieke velden uit een factuur of rapport nodig heeft, deze skill verwerkt documenten voor tot schone uitvoer waarop andere skills en workflows kunnen reageren.
De skill selecteert de juiste extractiestrategie op basis van het documenttype. Tekstgebaseerde PDF's worden snel verwerkt met bibliotheken zoals PyMuPDF of pdfminer. Gescande documenten en bestanden met veel afbeeldingen worden doorgestuurd via een OCR-pipeline (bijv. Tesseract of een compatibele OCR-service). DOCX-bestanden worden verwerkt met python-docx. De geëxtraheerde inhoud wordt vervolgens genormaliseerd naar platte tekst of gestructureerde markdown, klaar voor samenvatting, indexering, archivering of verdere analyse door vervolgskills.
Zorg ervoor dat uw omgeving Python heeft geïnstalleerd samen met de relevante bibliotheken (PyMuPDF, Tesseract en/of python-docx), afhankelijk van de documenttypen die u wilt ondersteunen. Zodra uw omgeving gereed is, verbindt u de skill met uw MyClaw-assistent instantie. Voer npx clawhub@latest install ocr-and-documents uit in uw terminal, of klik op Installeren bovenaan deze pagina voor installatie met één klik.
npx clawhub@latest install ocr-docunpx clawhub@latest install ocr-docuInloggen om een beoordeling te schrijven
Nog geen beoordelingen. Wees de eerste om je ervaring te delen!