Docly PDF：AI赋能中文古籍修复工具，数字化保护传统文化 - Docly PDF Tools-ai pdf editor | pdf summarizer, chat with pdf, pdf text extraction | AI PDF Editor for Summaries, Extraction and Editing

整理古籍的时候，最怕什么？不是看不懂繁体竖排，而是扫描件糊成一片，或者PDF里全是图片，没法直接复制、做笔记。更头疼的是，一页页翻完一百多页的手抄本，最后要提炼要点，跟大海捞针一样。

Docly PDF 最近被一些文献专业的朋友拿来做测试，看能不能帮上忙。它的核心逻辑是：把 PDF 当活文档处理，而不是一张静态图片。这跟很多普通阅读器有本质区别。

扫描件里的竖排繁体字，能认出来吗？

实测下来，Docly 用 AI 做文字提取，对常规民国竖排铅印本、影印本的识别率相当不错。它不会把“之乎者也”拆得乱七八糟，段落衔接也基本正确。

但如果是手写批注、虫蛀破损严重的地方，AI 会犹豫，偶尔跳字或把偏旁认错。这不是工具的问题——所有 OCR 对手写古籍都有这个瓶颈。我遇到最明显的问题是：遇到“己已巳”这种形近字，AI 默认识别为常见字，不会像古籍专家那样根据上下文去猜。

结论：用于扫描清晰、字口完整的刻本，效果很好。水渍、模糊、手写密集的稿本，需要人工校对。

大部分古籍 PDF 动辄上百页，你只是想确认这本《某县志》卷十五有没有提到河道治理。用普通软件得先翻目录、再定位。

Docly 的摘要功能在古籍场景里反而很实用——它不要求你提前标注文本，直接把整个 PDF 吞进去，输出一段几百字的提要。我试了一本《农政全书》的影印本，AI 没提徐光启的生平（这不是我要的），但准确列出了“水利”“荒政”“种植”三个核心板块的分布位置。

不过，AI 更适合提取“事实信息”（哪一年、哪个人、哪种作物），对“观念性内容”（序言里的议论、跋文里的感慨）概括得比较平淡。如果你的研究重点是文本背后的思想脉络，摘要只能当导航，不能替代阅读。

很多人不知道，古籍扫描件裁切后，页眉页脚经常混进现代图书馆的印章、索书号。复制出来的全文里突然夹一句“南京图书馆藏”，很烦人。

Docly 可以分区域提取文本。我把扫描件里正文区域单独圈出来，让 AI 只识别标题和正文，忽略页眉的“卷三”、页脚的“第 25 页”。处理一册 80 页的《管子》校注本，比手动删除快了三倍以上。

局限性在于：如果原书板框倾斜、版心文字与注疏挤在一起，AI 的区域识别会出错，需要手动调整。对排版干净的书，几乎零操心。

先说适合的：你是地方文史爱好者、在读的研究生、图书馆做数字化整理的工作人员。你手里有大量扫描版 PDF，想快速知道每本书讲了什么，或者从一百本地方志里捞出含关键词的段落。Docly 能省你大量翻纸的时间。

不太适合的：做版本校勘的专家。AI 没有版本学概念，不会因为某个字被墨钉盖住就去查他本校记。它也不会生成本书与异本的对照表——那是专业古籍软件的事。

另外，如果你的 PDF 是纯图像格式、做了双层 PDF 但底层文字质量很差，Docly 的 AI 提取效果也会打折。最好先用它自带的扫描增强功能提亮对比度，再跑文本识别。

别指望 AI 一次性做完整套古籍修复和数字化。Docly PDF 目前最适合的定位是：古籍的快速预筛和笔记生成器。先让它把所有 PDF 跑一遍摘要和关键词，标记出高价值文档，再针对重点篇幅进行人工精读和校对。这样搭配，效率比单纯堆人力高很多，也比盲目迷信 AI 靠谱。

如果你手头正好有一批民国或晚清的善本扫描件，可以先用一部分样本试试 Docly 的识别极限。找到它擅长和翻车的边界，比读十篇测评更有用。