AI Chat as a Model | kafm' blog

核心思想：将 AI 的文本输出规范为 JSON 格式，作为 Service 使用

模型和 AI Chat 页面本身都是接受输入、黑盒处理，返回输出，因此交互式的 AI Chat 本身也是一种模型。
模型需要一组输入输出工具完成 token 到模态媒介的转换。对应到 AI Chat 则是一组写入 prompt 并提交 Prompt 原子操作，获取输出的原子操作。

Gemini Chat is a Model

不多说，上图看效果，AI Chat as a Model 在 Gemini-3.1-Flash 上的可行性验证：

此处有个细节，我返回的 image_grounding 工具结果是 蓝色滑块 而非三角形滑块，但 Gemini Flash 也很好地处理了

{
  "蓝色滑块": [30, 33, 70, 90],
  "目标缺口": [225, 170, 70, 70]
}

Claude: 分多步移动可以模拟更自然地人类拖动轨迹

该方法对模型敏感，如 ChatGPT 施加了诸多限制：

禁止完全 JSON 回复模式
ChatGPT-o3 在提示词优化前几乎成功了，用 Python 代码实现图像识别，调用自定义工具给出了鼠标操作，虽然不完全正确。

然而在优化提示词后，o3 直接拒绝指令。

工具调用能力限制

不知道是防幻觉还是何种目的，ChatGPT 5.4 Thinking 会做工具可用性检测，导致 Chat 中模型工具调用/指令遵循能力显著下降

初版提示词效果：遵循了 JSON 回复指令，但认为外部工具不可用
ChatGPT 5.4 Thinking 认为外部工具不可用

ChatGPT-5.2 Pro 思考 3m 回复工具不可用

优化提示词后触发限制

工具调用能力下降，解释工具可用性后给出不完整调用

对内部工具强依赖

偏向于使用内部工具，例如 ChatGPT-5.4 和 ChatGPT-o3

过度安全审查和道德感

ChatGPT-5.4 Thinking

除了御三家，也试试国产模型

DeepSeek Passed.

Qwen failed，有趣的是 Qwen 触发了内部的系统调用，工具调用能力是否被训练得过拟合了