OpenClaw Skill

minimax-image-understanding

使用多模态大模型理解图片内容,生成业务含义描述。支持多种模型:(1) MiniMax VLM (2) OpenAI GPT-4V (3) Claude Vision。用于理解截图、图表、文档照片等,生成精准的文字描述。

Install

$npx clawhub@latest install minimax-image-understanding
All-time installs9
Active installs9
Stars0

图片理解

调用多模态大模型理解图片,生成精准的业务描述。

支持的模型

模型环境变量说明
MiniMax VLMMINIMAX_API_KEY, MINIMAX_API_HOST默认,推荐用于中文理解
OpenAIOPENAI_API_KEYGPT-4V
AnthropicANTHROPIC_API_KEYClaude Vision

使用方法

前提条件

设置对应模型的环境变量(至少一个):

bash
# MiniMax(默认)
export MINIMAX_API_KEY="your-minimax-key"
export MINIMAX_API_HOST="https://api.minimaxi.com"

# 或 OpenAI
export OPENAI_API_KEY="your-openai-key"

# 或 Anthropic
export ANTHROPIC_API_KEY="your-anthropic-key"

调用脚本

bash
python3 <skill>/scripts/understand_image.py <图片路径> [model] [prompt]

参数:

  • 图片路径:本地图片文件(PNG、JPG、JPEG、GIF、WebP)
  • model(可选):minimax(默认)、openaianthropic
  • prompt(可选):自定义提示词

示例

bash
# 使用默认(MiniMax)
python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png

# 指定模型
python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png openai

# 自定义提示词
python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png minimax "描述图表中的数据趋势"

输出

直接输出图片的业务含义描述,不再罗列元素位置,聚焦数据内容和业务逻辑。

Persistent memory

Give your OpenClaw agent a memory layer

Mem0 remembers users and context across sessions so you send fewer tokens and get better answers.

Try Mem0Mem0 + OpenClaw guide