腾讯云护照识别(多国多地区)(MLIDPassportOCR)接口调用技能。当用户需要识别护照图片中中国大陆、港澳台地区或其他国家/地区的护照信息(护照ID、姓名、出生日期、性别、有效期、发行国、国籍、国家地区代码、MRZ码等)时,应使用此技能。支持图片Base64和URL两种输入方式,支持护照图片人像照片裁剪功...
腾讯云通用票据识别高级版(VatInvoiceOCR)接口调用技能。当用户需要识别发票图片中增值税专用发票、增值税普通发票、增值税电子专票、增值税电子普票、电子发票(普通/增值税专用)的全字段信息时,应使用此技能。支持识别发票图片中的发票代码、发票号码、开票日期、合计金额、校验码、税率、合计税额、价税合计、购买方...
腾讯云试题批改Agent(SubmitQuestionMarkAgentJob/DescribeQuestionMarkAgentJob)接口调用技能。当用户需要对试卷图片或试题图片中的K12试卷或试题进行自动批改、手写答案识别、知识点分析时,应使用此技能。支持整卷图片批改和单题图片批改,提供题目切题、正误判定、...
腾讯云身份证识别(IDCardOCR)接口调用技能。当用户需要识别身份证图片中中国大陆居民二代身份证正反面信息(姓名、性别、民族、出生日期、住址、身份证号、签发机关、有效期限等)时,应使用此技能。支持图片Base64和URL两种输入方式,同时支持身份证图片照片裁剪和多种告警功能。
Extract text from images and scanned documents using PaddleOCR - supports 100+ languages
腾讯云广告文字识别(AdvertiseOCR)接口调用技能。当用户需要从图片中识别文字内容时,应使用此技能。支持中英文、横排、竖排及倾斜场景的图片文字识别,支持90度、180度、270度翻转场景的图片识别,返回文本框位置与文字内容。支持图片Base64和URL两种输入方式。
支持双引擎的PDF OCR识别技能,可从影印版PDF文件和图片文件中提取文字内容
使用极速数据 VIN 识别 API,对车辆挡风玻璃或行驶证上的车架号图片进行识别,返回 VIN 及品牌、厂家信息。
腾讯云表格识别v3(RecognizeTableAccurateOCR)接口调用技能。当用户需要从表格图片或PDF中识别常规表格、无线表格、多表格的内容,提取每个单元格的文字信息,或将表格图片识别结果导出为Excel文件时,应使用此技能。支持中英文表格图片、旋转表格图片、嵌套表格图片等复杂场景,识别效果优于表格识...
Translate text in images, extract text via OCR, and remove text using TranslateImage AI. Use when user says 'translate image', 'OCR image', 'extract text fro...
Japanese OCR via NDLOCR-Lite (National Diet Library). Trigger on 'OCR this image', '日文OCR', 'recognize Japanese text', or any request to extract text from Ja...
--- name: bailian-studio description: Call Aliyun Bailian via DashScope; OCR text extraction first + TTS speak. --- # Bailian Studio First feature: OCR text extraction via DashScope. ## Requirement
Convert PDF/PNG/JPEG/MOBI/EPUB to Markdown. Uses Baidu OCR only. Use when 扫描PDF转Markdown、pdf ocr、图像识别、电子书转Markdown、ebook to markdown.
Extract text from PDFs with OCR support. Perfect for digitizing documents, processing invoices, or analyzing content. Zero dependencies required.
Image and video analysis powered by Isaac vision models. Capabilities include visual Q&A, object detection, OCR, captioning, counting, and grounded spatial r...
--- name: paddleocr-text-recognition description: Extracts text (with locations) from images and PDF documents using PaddleOCR. metadata: openclaw: requires: env: - PADDLEOCR_OCR_A
智能验证码自动识别 Skill - 混合模式(本地 Tesseract OCR + 阿里云千问 3 VL Plus)。支持两阶段输入框查找、安全隐私警告。用于网页自动化中的验证码识
Automates invoice intake from Gmail, extracts data via OCR, verifies payment in Stripe, and creates reconciliation-ready accounting entries in Xero.
Run a local script to work with PDF files, DOCX documents, OCR, and text-to-speech. Use the read tool to load this SKILL.md, then exec the uv run command ins...
PDF contract redaction tool. Use when the user needs to redact sensitive information from scanned PDF contracts. The tool performs OCR to extract text, ident...
基金月报信息提取。支持文本+OCR 双重提取,自动处理双月对比。从 PDF 月报提取数据并填充 Excel 模板。
调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能
飞书文档扩展工具,提供图片下载和 OCR 识别功能。需要配合内置 feishu 插件使用。