分享一个开源、免费的智能图像文字识别工具,借助LLM大语言模型,可以对PDF文件智能分块,高效处理PDF文件。
一、介绍
功能特性:
- PDF 到图像的转换
- 使用 Tesseract 的 OCR
- 使用(本地或基于 API)进行LLMs高级纠错
- 智能文本分块,实现高效处理
- 提供Markdown 格式选项
- 页眉和页码抑制(可选)
- 最终产出的质量评估
- 支持本地LLMs和基于云的 API 提供商(OpenAI、Anthropic)
- 用于提高性能的异步处理
- 用于进程跟踪和调试的详细日志记录
- 用于本地LLM推理的 GPU 加速
二、项目地址
Github: https://github.com/Dicklesworthstone/llm_aided_ocr
参考:
最新评论
不是个人的吧,华为应用商店里有公司名称,可以搜到的
怎么获取下载密码不对啊?
你给钱了吗在这叫
夸克和百度给了你钱吧?这么多不限速的网盘不用,限速限的一坨屎一样的网盘拼命推荐