LLM-Aided OCR: 开源免费的图像文字识别工具

分享一个开源、免费的智能图像文字识别工具,借助LLM大语言模型,可以对PDF文件智能分块,高效处理PDF文件。

一、介绍

功能特性:

  • PDF 到图像的转换
  • 使用 Tesseract 的 OCR
  • 使用(本地或基于 API)进行LLMs高级纠错
  • 智能文本分块,实现高效处理
  • 提供Markdown 格式选项
  • 页眉和页码抑制(可选)
  • 最终产出的质量评估
  • 支持本地LLMs和基于云的 API 提供商(OpenAI、Anthropic)
  • 用于提高性能的异步处理
  • 用于进程跟踪和调试的详细日志记录
  • 用于本地LLM推理的 GPU 加速

二、项目地址

Github: https://github.com/Dicklesworthstone/llm_aided_ocr

参考:

qingwuyun-banner.jpeg
赞(1)
未经允许禁止转载:优米格 » LLM-Aided OCR: 开源免费的图像文字识别工具

评论 抢沙发

合作&反馈&投稿

商务合作、问题反馈、投稿,欢迎联系

广告合作侵权联系