分享一个开源、免费的智能图像文字识别工具,借助LLM大语言模型,可以对PDF文件智能分块,高效处理PDF文件。
一、介绍
功能特性:
- PDF 到图像的转换
- 使用 Tesseract 的 OCR
- 使用(本地或基于 API)进行LLMs高级纠错
- 智能文本分块,实现高效处理
- 提供Markdown 格式选项
- 页眉和页码抑制(可选)
- 最终产出的质量评估
- 支持本地LLMs和基于云的 API 提供商(OpenAI、Anthropic)
- 用于提高性能的异步处理
- 用于进程跟踪和调试的详细日志记录
- 用于本地LLM推理的 GPU 加速
二、项目地址
Github: https://github.com/Dicklesworthstone/llm_aided_ocr
参考:
最新评论
我的是ipv4网络,如何使用直播源啊!
我今天试了,不想啊,我的是新疆昌吉移动的网络。
收不到验证码电报
现在充值29起了