🧪 Skills

Pdf Ocr

PDF扫描件转Word文档。支持中文OCR识别，自动裁掉页眉页脚，保留插图，彩色章节封面页保留为图片。使用百度OCR API（免费额度1000次/月）。当用户要求

v1.0.0

⭐ —

❤️ 0

⬇️ 1.2k

👁 1

Save 📁 Collect

Share

Description

name: pdf-ocr description: PDF扫描件转Word文档。支持中文OCR识别，自动裁掉页眉页脚，保留插图，彩色章节封面页保留为图片。使用百度OCR API（免费额度1000次/月）。当用户要求把扫描PDF转成文字/Word时触发。

PDF扫描件 OCR 转换技能 📄

配置

百度 OCR API Key: vOBOM7tO0lL8cKMJdZy453Ai
百度 OCR Secret Key: bib8MvDPTfXXdPz4JyzIyDCvCeKxtpyu
免费额度: 1000次/月（1次=1页），592页以内一次免费跑完
接口: 通用文字识别（高精度版）accurate_basic

依赖安装

pip install pymupdf python-docx pillow

使用方法

python3 {baseDir}/scripts/pdf_to_docx.py <PDF路径> [输出目录]

输出文件在 [输出目录]/xxx_全文_ocr.docx，文件较大时用脚本压缩图片：

python3 {baseDir}/scripts/compress_docx.py <docx路径> <输出路径>

处理策略

页面类型	判断方式	处理方式
正文页	默认	裁掉顶部6%（页眉）+底部4%（页脚），OCR识别文字
插图页	OCR无文字输出	保留为图片嵌入Word
彩色封面/章节页	彩色像素占比>25%	保留为图片，加灰色标注

已知限制

图文混排页（图表里有文字）：OCR会把图表内文字识别为正文，需人工替换
- 解决：用户找到问题页，告知PDF页码，截图后手动替换
白底目录页：不会被自动识别为特殊页，会被OCR识别（效果一般）
- 解决：转换后人工替换目录页为图片

实战案例（《预测之书》592页）

处理时间：约20分钟（含0.6s/页间隔）
输出原始大小：303MB（嵌入144张图片）
压缩后大小：3.4MB（图片降分辨率至600px宽，质量60%）
识别效果：正文准确率高，图表页需人工处理
每50页自动保存一次进度，防止中途崩溃

注意事项

免费版 QPS=2，脚本已加0.6秒/页间隔
裁剪比例（页眉6%/页脚4%）可在脚本顶部调整
OCR完成后建议抽查几页校对准确率
原始高清版保留在服务器，压缩版用于分发

Reviews (0)

Sign in to write a review.

No reviews yet. Be the first to review!

Comments (0)

Sign in to join the discussion.

No comments yet. Be the first to share your thoughts!

Compatible Platforms

Links

📂 Source Code

Pricing

Free

Related Configs

self-improving-agent

Captures learnings, errors, and corrections to enable continuous improvement. Use when: (1) A command or operation fails unexpectedly, (2) User corrects Clau...

❤️ 2.0k ⬇️ 218k

Self Improving Agent

Captures learnings, errors, and corrections to enable continuous improvement. And also 50+ models for image generation, video generation, text-to-speech, spe...

❤️ 2.0k ⬇️ 206k

Find Skills

Search, discover, and install skills from the open agent skills ecosystem to extend agent capabilities for specific tasks or domains.

❤️ 814 ⬇️ 199k

Summarize

--- name: summarize description: Summarize URLs or files with the summarize CLI (web, PDFs, images, audio, YouTube). homepage: https://summarize.sh metadata: {"clawdbot":{"emoji":"🧾","requires":{"b

❤️ 609 ⬇️ 160k