🧪 Skills
Local OCR
本地离线 HLA 分型报告 OCR 解析。支持多种医院报告格式(8204-, 8316-, 8273-, 20251102xxxx, 密集表头等),自动识别并提取样本信息与等位基因数据。
v1.0.0
Description
name: local-ocr description: 本地离线 HLA 分型报告 OCR 解析。支持多种医院报告格式(8204-, 8316-, 8273-, 20251102xxxx, 密集表头等),自动识别并提取样本信息与等位基因数据。 version: 1.0.0 allowed-tools:
- exec
- read
- write
- edit
Local OCR Skill
本技能提供离线、隐私安全的 HLA 分型报告图片解析功能。使用 EasyOCR 进行中文+英文识别,无需联网,不上传任何数据。
Capabilities
- ✅ 多格式自动检测:识别至少 3 种主要报告布局
- ✅ Y 轴行排序:确保上下等位基因正确对应
- ✅ 元数据提取:样本编号、姓名、性别、年龄、关系
- ✅ OCR 错误修正:
.→:,016→01G,;→: - ✅ 隐私保护:完全本地处理,无外部 API
Usage
调用方式:
exec: python3 scripts/hla_ocr.py <image_path>
输出 JSON 结构:
{
"status": "success",
"image": "filename.jpg",
"samples": [
{
"id": "8204-0",
"name": "张三",
"gender": "男",
"age": "35",
"relation": "患者",
"type": "-",
"alleles": {
"HLA-A": "02:06/02:07",
"HLA-B": "46:01/51:01",
"HLA-C": "01:02/14:02",
"HLA-DRB1": "09:01/14:05",
"HLA-DQB1": "03:03/05:03",
"HLA-DPB1": "02:01/05:01"
}
}
]
}
Supported Formats
| 格式特征 | 示例前缀 | 说明 |
|---|---|---|
| Meta 行含角色+ID | 8204-, 8304-, 8316-, 8273- | 一行包含“患者/供者”和样本编号 |
| 分离行格式 | 20251102xxxx | 姓名行、ID行、性别年龄行分离 |
| 密集表头 | 无固定前缀 | 表头 + 姓名列 + 12 列数据(每位点 2 等位基因) |
Installation
确保已安装:
- Python 3.12+
- EasyOCR:
pip install easyocr opencv-python - 中文语言包:首次运行自动下载
Notes
- 首次运行会下载 EasyOCR 模型 (~100MB),请耐心等待。
- 图片分辨率建议 ≥ 800px 宽以保证识别精度。
- 输出等位基因格式统一为
XX:XX(两位数字+冒号+两位数字,01G特殊处理)。
Reviews (0)
Sign in to write a review.
No reviews yet. Be the first to review!
Comments (0)
No comments yet. Be the first to share your thoughts!