BookTrans Desk:把阅读从消费变成生产
一个 PDF / EPUB 阅读与翻译工具,核心目标不是翻译,而是把文本转化为可继续工作的结构:笔记、引用、知识卡片。
Why this project exists
我每年阅读大量 PDF 和 EPUB 格式的书籍、论文和报告。传统的阅读方式是线性的:从头读到尾,偶尔做几个标记。但这种方式的问题是,读完后很难快速定位关键内容,更难把阅读成果转化为可复用的知识。
BookTrans Desk 的出发点:阅读不应该只是消费,而应该是生产。 读一本书应该产出:结构化笔记、可引用的段落、知识卡片、甚至新的写作素材。
Starting point
最初的需求很简单:一个能同时显示原文和翻译的阅读器。但很快发现,翻译只是需求的一小部分。更大的需求是:
- 如何在阅读时快速提取关键段落?
- 如何把提取的内容组织成结构化笔记?
- 如何让这些笔记与原始文本保持关联?
- 如何导出为可用的格式(Markdown、卡片、引用)?
First principles
Layout-aware 提取:不是简单地把 PDF 转成纯文本,而是保留段落、标题、列表等结构信息。这样提取的内容才有上下文。 原文-笔记双链:笔记必须能链接回原文位置,原文也必须能显示关联的笔记。这是"双链笔记"思想在阅读场景中的应用。 渐进式处理:不需要一次性处理整本书。可以逐章阅读、逐段提取、逐步积累。 输出导向:阅读的最终目标是产出,而不是读完。所以工具的设计要围绕"如何高效产出"来展开。Key decisions
PDF 处理策略:使用 layout-aware 的 PDF 提取技术,识别段落、标题、页眉页脚等结构,而不是简单地把页面当成图片处理。 翻译策略:不追求全文翻译,而是支持"按需翻译"——选中一段文字后即时翻译,翻译结果与原文并排显示。 笔记格式:笔记使用 Markdown 格式,可以直接导入 Obsidian 或其他笔记系统。 与 Thesis Writing 的关系:BookTrans Desk 的笔记可以直接用于 Thesis Writing 的素材积累。System architecture
BookTrans Desk 的核心模块:
文档解析器:处理 PDF/EPUB 文件,提取结构化文本。 阅读界面:支持原文/翻译并排显示,支持高亮、批注、提取。 笔记管理器:把提取的内容组织成结构化笔记,支持标签和搜索。 导出引擎:把笔记导出为 Markdown、卡片、引用等格式。Phase timeline
Phase 1:基础阅读器。支持 PDF 打开、翻页、文本选择。 Phase 2:翻译集成。支持选中翻译、翻译结果并排显示。 Phase 3:笔记系统。支持高亮、批注、提取、结构化笔记。 Phase 4:导出功能。支持导出为 Markdown、卡片、引用。 当前:功能完善阶段,持续优化阅读体验。What changed
从"读完就忘"变成了"读即产出"。现在阅读一本书会同时产生:
- 结构化笔记(按章节组织)
- 知识卡片(关键概念和引用)
- 写作素材(可直接用于后续文章)
具体变化:
- 从线性阅读升级为结构化阅读
- 从被动消费升级为主动提取
- 从孤立笔记升级为与原文关联的双链笔记
- 从手动整理升级为自动导出
Current status
当前状态:active / 功能完善。
核心功能已完成:
- PDF/EPUB 阅读与结构化提取
- 按需翻译与并排显示
- 高亮、批注、提取
- 结构化笔记与标签
- Markdown 导出
仍待完善:
- EPUB 格式支持的稳定性
- 大规模文档的性能优化
- 与更多笔记系统的集成
Impact
对个人工作流的影响:阅读效率大幅提升。以前读一本书可能需要一周,且读后很快遗忘。现在可以在阅读过程中同时完成笔记整理,读完后直接获得可用的知识资产。
复用价值:layout-aware 提取和结构化笔记的模式可以应用于任何需要深度阅读的场景。
What I learned
关于阅读工具:好的阅读工具不是让你读得更快,而是让你读得更深。速度不重要,提取和关联才重要。 关于翻译:翻译不是目的,理解才是。工具应该支持"按需翻译",而不是默认全文翻译。 关于笔记:笔记的价值在于关联。孤立的笔记很快会被遗忘,但与原文关联、与其他笔记关联的内容会长期保持可用。Next
- 优化 EPUB 支持的稳定性
- 增加更多导出格式(卡片、思维导图)
- 探索与 conanxin.com 写作系统的集成
- 验证大规模文档(数百页 PDF)的性能