🧪 Skills

Image Content Extractor

统一图片内容提取技能。智能识别终端/文档/通用模式,自动提取内容生成Markdown。

v2.0.0
❤️ 0
⬇️ 82
👁 1
Share

Description


name: image-content-extractor description: 统一图片内容提取技能。智能识别终端/文档/通用模式,自动提取内容生成Markdown。 version: 2.0.0 author: miliger created: 2026-03-06 updated: 2026-03-06

图片内容提取技能 v2.0

统一图片内容提取技能,集成terminal-ocr功能,支持智能模式检测,自动提取内容并生成Markdown格式。

🎯 核心特性

⭐ 三大模式支持

  • 终端模式(Terminal) - 专门处理终端/命令行截图

    • 自动识别命令、路径、错误信息
    • 等宽字体优化
    • 命令高亮显示
  • 文档模式(Document) - 专门处理文档截图

    • 智能标题检测(数字编号/中文编号/Markdown标题)
    • 列表识别和格式化
    • 代码块检测
  • 通用模式(General) - 适用于各种类型图片

    • 自动检测图片类型
    • 通用结构分析
    • 灵活配置

⭐ 智能功能

  • 自动模式检测 - 根据图片特征自动选择最佳模式
  • 智能分块 - 基于内容边界自动分割超长图片
  • 智能合并 - 自动检测重叠内容,精准拼接
  • 结构识别 - 标题/段落/列表/代码块自动识别

⭐ 技术优势

  • 统一代码库 - 一个技能,多模式支持
  • 模块化设计 - core(核心)+ modes(模式)架构
  • 高可扩展 - 易于添加新模式
  • 知识库集成 - 自动更新QMD索引

🚀 使用方式

基础使用

# 自动检测模式(推荐)
python3 scripts/extract.py /path/to/image.png

# 指定模式
python3 scripts/extract.py /path/to/terminal.png --mode terminal
python3 scripts/extract.py /path/to/document.png --mode document
python3 scripts/extract.py /path/to/image.png --mode general

# 保存到文件
python3 scripts/extract.py /path/to/image.png -o output.md

# 保存到知识库
python3 scripts/extract.py /path/to/image.png \
    -k -c testing -t "测试用例设计"

# 详细输出
python3 scripts/extract.py /path/to/image.png -v

批量处理

# 批量处理整个目录
python3 scripts/extract.py /path/to/images/ \
    --batch \
    -k -c knowledge

# 指定模式批量处理
python3 scripts/extract.py /path/to/screenshots/ \
    --batch \
    --mode terminal \
    -k -c terminal-logs

AI调用方式

用户:[发送终端截图]
AI:[自动检测terminal模式] → 提取命令 → 格式化输出

用户:[发送DeepSeek分享截图]
AI:[自动检测document模式] → 提取内容 → 生成Markdown

用户:[发送普通图片]
AI:[使用general模式] → 提取文本 → 结构化输出

🛠️ 技术架构

文件结构

image-content-extractor/
├── SKILL.md                    # 本文档
├── README.md                   # 快速开始
├── package.json                # 技能元数据
├── install.sh                  # 安装脚本
├── config/
│   └── extractor-config.json   # 配置文件
├── core/                       # 核心模块
│   ├── __init__.py
│   ├── ocr.py                  # OCR引擎管理
│   ├── preprocess.py           # 图片预处理
│   ├── merge.py                # 内容合并
│   └── structure.py            # 结构分析
├── modes/                      # 模式模块
│   ├── __init__.py
│   ├── terminal.py             # 终端模式
│   ├── document.py             # 文档模式
│   └── general.py              # 通用模式
└── scripts/
    └── extract.py              # 主入口

处理流程

1. 图片输入
   ↓
2. 自动模式检测(可选)
   ↓
3. 模式特定预处理
   ↓
4. 智能分块
   ↓
5. OCR识别(Tesseract + AI备用)
   ↓
6. 智能合并
   ↓
7. 结构分析
   ↓
8. Markdown生成
   ↓
9. 模式特定后处理
   ↓
10. 输出/知识库集成

💡 使用场景

场景1:终端命令行截图

输入:终端截图(黑色背景,白色文字)
AI:[terminal模式] → 提取命令 → 高亮显示

输出示例:
```bash
$ npm install

/usr/local/bin

❌ Error: Package not found


### 场景2:DeepSeek分享截图

输入:DeepSeek长截图(43,936像素) AI:[document模式] → 识别8大模块 → 生成Markdown

输出:

测试用例设计指南

提取时间: 2026-03-06 09:20

目录

  1. 测试用例设计技术
  2. 三端测试方案 ...

### 场景3:知识库建设

输入:批量技术文档截图 AI:[batch模式] → 自动分类 → 更新索引 → Git提交

结果:

  • 自动识别10个文档
  • 分类到knowledge/testing
  • 更新QMD索引

## 🔧 配置选项

### extractor-config.json

```json
{
  "ocr": {
    "engine": "tesseract",
    "languages": ["chi_sim", "eng"],
    "fallback_to_ai": true,
    "config": "--psm 6 --oem 3",
    "timeout": 30
  },
  "preprocessing": {
    "block_height": 2000,
    "overlap_height": 100,
    "min_block_height": 500,
    "contrast_enhancement": 1.5,
    "binary_threshold": 150
  },
  "structure_detection": {
    "detect_headers": true,
    "detect_lists": true,
    "detect_code_blocks": true,
    "detect_tables": true
  },
  "output": {
    "format": "markdown",
    "add_toc": true,
    "add_metadata": true
  },
  "knowledge_base": {
    "auto_index": true,
    "auto_commit": false,
    "default_category": "uncategorized"
  }
}

📈 性能指标

指标 目标 实际
识别准确率 > 95% 待测试
处理速度 < 15秒/图 待测试
模式检测准确率 > 90% 待测试
最大图片尺寸 50000px
批量处理 支持

🎓 最佳实践

1. 图片质量优化

  • 分辨率 ≥ 1500px宽度
  • 对比度清晰(黑白对比最佳)
  • 避免压缩过度

2. 模式选择

  • 终端截图:使用terminal模式(或auto)
  • 文档截图:使用document模式(或auto)
  • 不确定类型:使用auto模式

3. 知识库集成

  • 选择合适的分类(如testing、ai-system等)
  • 添加描述性标题
  • 定期更新索引

4. 批量处理

  • 按类型分目录处理
  • 使用统一的分类命名
  • 检查处理结果

🔄 与旧版本对比

terminal-ocr(旧版)

  • 仅支持终端截图
  • 单一模式
  • 独立维护

image-content-extractor v2.0(新版)

  • ✅ 支持终端/文档/通用三种模式
  • ✅ 自动模式检测
  • ✅ 统一代码库
  • ✅ 模块化架构
  • ✅ 更易维护和扩展

📝 更新日志

v2.0.0 (2026-03-06) - 统一版本

  • ✅ 集成terminal-ocr功能
  • ✅ 三大模式支持(terminal/document/general)
  • ✅ 自动模式检测
  • ✅ 模块化架构(core + modes)
  • ✅ 统一配置和接口
  • ✅ 批量处理支持

v1.0.0 (2026-03-06) - 初始版本

  • ✅ 基础内容提取
  • ✅ Markdown输出
  • ✅ 知识库集成

🚀 未来规划

短期(v2.1)

  • 支持PDF文件
  • 云端OCR集成(百度/腾讯)
  • 实时预览

中期(v2.5)

  • 更多模式支持(表格/图表)
  • AI内容摘要
  • 多语言支持

长期(v3.0)

  • 在线编辑器
  • 团队协作
  • 智能推荐

🔗 相关链接

  • terminal-ocr技能(已集成)
  • 知识库系统(QMD)
  • ClawHub(待发布)

图片内容提取技能 v2.0 - 统一版本,更强大更灵活 版本:2.0.0 创建:2026-03-06 更新:2026-03-06

📄 许可证与版权声明

MIT License

Copyright (c) 2026 思捷娅科技 (SJYKJ)

免费使用、修改和重新分发时,需注明出处。

出处

商业使用授权

  • 小微企业(<10人):¥999/年
  • 中型企业(10-50人):¥4,999/年
  • 大型企业(>50人):¥19,999/年
  • 企业定制版:¥99,999一次性(源码买断)

详情请查看:LICENSE

Reviews (0)

Sign in to write a review.

No reviews yet. Be the first to review!

Comments (0)

Sign in to join the discussion.

No comments yet. Be the first to share your thoughts!

Compatible Platforms

Pricing

Free

Related Configs