什么是 Chunkr?
Chunkr 是一款由 Lumina AI Inc. 维护的开源 PDF 数据提取工具。它通过集成视觉模型与 OCR 技术,将非结构化的文档转化为适用于 LLM(大语言模型)和 RAG(检索增强生成)的高质量结构化数据。
核心功能与能力:
- 多格式支持: 能够高效处理 PDF、DOC、PPT 及 XLS 等多种主流文档格式。
- 深度布局分析: 利用视觉模型精准提取文档边界框,实现智能分块处理。
- 全要素提取: 支持对纯文本、复杂表格、图像以及手写内容的识别与转换。
- 灵活部署: 兼容 GPU 与 CPU 运行环境,并提供从免费试用到商业定价的多种方案。
快速开始
您可以通过以下渠道获取 Chunkr:
- 官方网站: https://chunkr.ai/
- GitHub 仓库: https://github.com/lumina-ai-inc/chunkr
正文完
