marker——快速精准的将PDF转Markdown

有些时候,我们需要将PDF转换成Markdown格式,但是通常情况下是无法直接转的。一般来说,我们需要先将PDF文档先OCR识别一下,然后再转换成markdown。需要注意的是,由于 PDF 格式的复杂性和多样性,有一些特殊的符号以及公式 往往在处理的时候会出问题。

今天要介绍的项目是marker,就可以很好的解决这个问题,marker是一款基于深度学习模型的将PDF转换成Markdown格式的工具。官方github地址如下:https://github.com/VikParuchuri/marker 。目前已经拥有9.2k star。

marker的原理是利于深度学习模型,检测页面布局,阅读顺序,然后格式化文本块并且对完整的文本再进行处理。这里说一下marker的特点:

  • 支持广泛的文档(针对书籍和科学论文进行了优化,对于一些复杂的公式有更好的支持)
    支持多种语言转换。
  • 可以删除页眉、页脚以及其他页面元素。
  • 能够格式化表格和代码块,保持排版整齐。
  • 可以提取并保存 PDF 中的图像。
  • 支持 GPU、CPU 或者 MPS(多处理器系统)进行转换,以满足不同硬件环境下的需求。
    这里说来说一下marker的安装方法
  1. 安装Python,需要注意的需要安装的Python版本必须大于等于3.9
  2. 然后安装 Pytorch ,执行命令 pip3 install torch torchvision
  3. 然后安装marker 。执行命令 pip3 install marker-pdf

更详细的使用文档,可以参考github上的文档:https://github.com/VikParuchuri/marker?tab=readme-ov-file 。另外文档上也提供了marker 和nougat 的对比测试结果
创作不易,如果您觉得这篇文章对你有帮助,不妨给我点个赞,这将是我继续分享优质内容的动力。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇