🧪 Skills
Document Processor
PDF和Word文档处理技能,支持PDF-Word相互转换、页面提取、去水印、合并拆分等操作
v1.0.0
Description
name: document-processor description: PDF和Word文档处理技能,支持PDF-Word相互转换、页面提取、去水印、合并拆分等操作 tools:
- exec
- read
- write
- edit
文档处理技能 📄
专业的PDF和Word文档处理工具集,支持多种文档格式转换和编辑操作。
功能特性
1. PDF处理
- ✅ PDF页面提取(提取指定页面生成新PDF)
- ✅ PDF转Word(保留格式)
- ✅ PDF合并/拆分
- ✅ PDF去水印
- ✅ PDF压缩优化
- ✅ PDF添加水印/页眉页脚
- ✅ OCR页码识别(识别扫描件PDF中的页码)
2. Word处理
- ✅ Word转PDF
- ✅ Word文档合并
- ✅ Word内容提取
- ✅ Word格式清理
3. OCR功能
- ✅ 扫描件PDF文字识别
- ✅ 多语言支持(中英文等)
- ✅ 页码自动识别和映射
- ✅ 批量OCR处理
4. 其他功能
- ✅ 图片提取(从PDF中提取图片)
- ✅ 批量处理(处理多个文件)
工具依赖
本技能需要以下Python库:
- PyPDF2 - PDF处理
- python-docx - Word文档处理
- pdf2docx - PDF转Word
- Pillow - 图片处理
- pdfplumber - 高级PDF处理
安装命令:
pip install PyPDF2 python-docx pdf2docx pillow pdfplumber
使用示例
1. PDF页面提取
# 提取第14-29页
python3 pdf_extractor.py "input.pdf" "output_pages_14-29.pdf" -s 14 -e 29
# 提取特定页面
python3 pdf_extractor.py "input.pdf" "output_specific.pdf" -p "1,3,5-7,10"
2. PDF转Word
python3 pdf_to_word.py "document.pdf" "document.docx"
3. Word转PDF
python3 word_to_pdf.py "document.docx" "document.pdf"
4. PDF去水印
python3 remove_watermark.py "input.pdf" "output_no_watermark.pdf"
5. 批量PDF转Word
python3 batch_pdf_to_word.py "/path/to/pdf/folder" "/path/to/output/folder"
脚本文件
本技能包含以下Python脚本:
核心脚本
pdf_extractor.py- PDF页面提取工具pdf_to_word.py- PDF转Word工具word_to_pdf.py- Word转PDF工具pdf_ocr.py- PDF OCR和页码识别工具remove_watermark.py- PDF去水印工具pdf_merger.py- PDF合并工具pdf_splitter.py- PDF拆分工具
实用工具
batch_processor.py- 批量处理工具pdf_compressor.py- PDF压缩工具image_extractor.py- 图片提取工具install_dependencies.py- 依赖安装工具test_skill.py- 技能测试工具
使用指南
当用户需要处理文档时:
- 识别需求:确定用户需要什么功能(转换、提取、编辑等)
- 检查依赖:确保所需Python库已安装
- 选择脚本:根据需求选择合适的脚本
- 执行操作:运行相应的Python脚本
- 验证结果:检查输出文件是否满足要求
高级功能
OCR页码识别
# 分析PDF页码结构
python3 pdf_ocr.py analyze "input.pdf" --start 1 --end 50 --language chi_sim+eng
# 根据标注页码提取页面
python3 pdf_ocr.py extract "input.pdf" "output.pdf" --start-label 14 --end-label 29 --language chi_sim+eng
自定义水印
# 添加文本水印
python3 add_watermark.py "input.pdf" "output.pdf" --text "CONFIDENTIAL" --position "center"
# 添加图片水印
python3 add_watermark.py "input.pdf" "output.pdf" --image "watermark.png" --opacity 0.3
批量处理
# 批量转换文件夹内所有PDF为Word
python3 batch_processor.py --input-dir "./pdfs" --output-dir "./docs" --operation "pdf2word"
# 批量提取所有PDF的封面
python3 batch_processor.py --input-dir "./pdfs" --output-dir "./covers" --operation "extract" --pages "1"
错误处理
- 文件不存在时提供清晰错误信息
- 格式不支持时建议转换方法
- 权限问题提示解决方案
- 内存不足时建议分批处理
性能优化
- 大文件处理时显示进度条
- 支持多线程批量处理
- 提供压缩选项减少文件大小
- 缓存中间结果避免重复处理
安全注意事项
- 验证输入文件格式
- 限制文件大小防止内存溢出
- 清理临时文件
- 不处理加密或受保护的PDF
- 用户确认后再执行删除操作
技能维护者:文档处理团队
最后更新:2026-03-01
版本:1.0.0
状态:✅ 生产就绪
Reviews (0)
Sign in to write a review.
No reviews yet. Be the first to review!
Comments (0)
No comments yet. Be the first to share your thoughts!