🧪 Skills

Local OCR

本地离线 HLA 分型报告 OCR 解析。支持多种医院报告格式(8204-, 8316-, 8273-, 20251102xxxx, 密集表头等),自动识别并提取样本信息与等位基因数据。

v1.0.0
❤️ 0
⬇️ 36
👁 1
Share

Description


name: local-ocr description: 本地离线 HLA 分型报告 OCR 解析。支持多种医院报告格式(8204-, 8316-, 8273-, 20251102xxxx, 密集表头等),自动识别并提取样本信息与等位基因数据。 version: 1.0.0 allowed-tools:

  • exec
  • read
  • write
  • edit

Local OCR Skill

本技能提供离线、隐私安全的 HLA 分型报告图片解析功能。使用 EasyOCR 进行中文+英文识别,无需联网,不上传任何数据。

Capabilities

  • 多格式自动检测:识别至少 3 种主要报告布局
  • Y 轴行排序:确保上下等位基因正确对应
  • 元数据提取:样本编号、姓名、性别、年龄、关系
  • OCR 错误修正.:01601G;:
  • 隐私保护:完全本地处理,无外部 API

Usage

调用方式:

exec: python3 scripts/hla_ocr.py <image_path>

输出 JSON 结构:

{
  "status": "success",
  "image": "filename.jpg",
  "samples": [
    {
      "id": "8204-0",
      "name": "张三",
      "gender": "男",
      "age": "35",
      "relation": "患者",
      "type": "-",
      "alleles": {
        "HLA-A": "02:06/02:07",
        "HLA-B": "46:01/51:01",
        "HLA-C": "01:02/14:02",
        "HLA-DRB1": "09:01/14:05",
        "HLA-DQB1": "03:03/05:03",
        "HLA-DPB1": "02:01/05:01"
      }
    }
  ]
}

Supported Formats

格式特征 示例前缀 说明
Meta 行含角色+ID 8204-, 8304-, 8316-, 8273- 一行包含“患者/供者”和样本编号
分离行格式 20251102xxxx 姓名行、ID行、性别年龄行分离
密集表头 无固定前缀 表头 + 姓名列 + 12 列数据(每位点 2 等位基因)

Installation

确保已安装:

  • Python 3.12+
  • EasyOCR:pip install easyocr opencv-python
  • 中文语言包:首次运行自动下载

Notes

  • 首次运行会下载 EasyOCR 模型 (~100MB),请耐心等待。
  • 图片分辨率建议 ≥ 800px 宽以保证识别精度。
  • 输出等位基因格式统一为 XX:XX(两位数字+冒号+两位数字,01G 特殊处理)。

Reviews (0)

Sign in to write a review.

No reviews yet. Be the first to review!

Comments (0)

Sign in to join the discussion.

No comments yet. Be the first to share your thoughts!

Compatible Platforms

Pricing

Free

Related Configs