从 PDF、扫描文件、DOCX 文件和图像中提取文本与结构——可直接用于摘要生成、搜索或下游分析。
npx clawhub@latest install ocr-docuOCR and Documents 可从 PDF、扫描文档以及 DOCX 等常见办公格式中提取可用的文本和结构。它将针对原生数字 PDF 的快速文本提取与适用于图像密集型或扫描输入的 OCR 流水线相结合,输出干净的纯文本或结构化 Markdown。当您需要将文档内容输入到摘要生成、搜索、索引或任何需要可读文本的下游工作流时,请安装此技能。
使用 PyMuPDF 或 pdfminer 直接从原生数字 PDF 中提取文本,无需 OCR 处理开销,同时尽可能完整地保留原有排版布局。
将扫描的 PDF 文件和文档照片通过 Tesseract 或兼容的 OCR 服务进行处理,以从基于图像的内容中提取文本。
通过 python-docx 读取 Microsoft Word 文件,将段落和标题结构提取为纯文本或 Markdown 格式输出。
将提取的内容规范化为纯文本或结构化 Markdown 格式,使输出结果可立即用于摘要生成、索引构建或其他下游技能。
根据运行时检测到的文档类型,自动选择合适的提取器——直接文本层、OCR 或特定格式解析器。
使用 OCR and Documents 对扫描的发票或已填写的表单进行识别,并返回结构化字段(如供应商名称、金额和到期日期),以供后续处理或存储。
从多页PDF中提取文本,并将每一页的内容传递给摘要技能,从而无需手动复制粘贴即可生成整篇文档的摘要。
解析 Word 文档并将其内容转换为 Markdown 格式,使其可用于知识库、静态网站,或在基于文本的工作流中进行进一步编辑。
批量从混合 PDF 和 DOCX 文件集合中提取文本,生成适合向量或全文搜索索引的干净、规范化文本块。
Python 环境(或等效工具),以及根据您的文档类型所需的以下一个或多个库:
npx clawhub@latest install ocr-docunpx clawhub@latest install ocr-docu登录后撰写评价
暂无评价。来分享你的使用体验吧!