AI Chat as a Model
kafm

核心思想:将 AI 的文本输出规范为 JSON 格式,作为 Service 使用

模型 和 AI Chat 页面本身都是 接受输入、黑盒处理,返回输出,因此交互式的 AI Chat 本身也是一种模型。
模型需要一组输入输出工具完成 token 到模态媒介的转换。对应到 AI Chat 则是一组 写入 prompt 并提交 Prompt 原子操作,获取输出的原子操作。

Gemini Chat is a Model

不多说,上图看效果,AI Chat as a Model 在 Gemini-3.1-Flash 上的可行性验证:
image

此处有个细节,我返回的 image_grounding 工具结果是 蓝色滑块 而非 三角形滑块,但 Gemini Flash 也很好地处理了

1
2
3
4
{
"蓝色滑块": [30, 33, 70, 90],
"目标缺口": [225, 170, 70, 70]
}

查看原对话:https://gemini.google.com/share/31532b13c3ea

Claude Chat is a Model

image

Claude: 分多步移动可以模拟更自然地人类拖动轨迹

查看原对话:https://claude.ai/share/7f0eb8bc-5686-4ab0-8eeb-6fa51080dc23

ChatGPT Chat is not a Model

该方法对模型敏感,如 ChatGPT 施加了诸多限制:

禁止完全 JSON 回复模式
ChatGPT-o3 在提示词优化前几乎成功了,用 Python 代码实现图像识别,调用自定义工具给出了鼠标操作,虽然不完全正确。

然而在优化提示词后,o3 直接拒绝指令。
image

工具调用能力限制

不知道是防幻觉还是何种目的,ChatGPT 5.4 Thinking 会做工具可用性检测,导致 Chat 中模型工具调用/指令遵循能力显著下降

初版提示词效果:遵循了 JSON 回复指令,但认为外部工具不可用
ChatGPT 5.4 Thinking 认为外部工具不可用
image

ChatGPT-5.2 Pro 思考 3m 回复工具不可用
image

优化提示词后触发限制
image

工具调用能力下降,解释工具可用性后给出不完整调用
image

对内部工具强依赖

偏向于使用内部工具,例如 ChatGPT-5.4 和 ChatGPT-o3
image

过度安全审查和道德感

ChatGPT-5.4 Thinking
image

其他模型

除了御三家,也试试国产模型

DeepSeek

DeepSeek Passed.
image

查看原对话:https://chat.deepseek.com/share/xyhzs7g3wigbaeiy2u

Qwen

Qwen failed,有趣的是 Qwen 触发了内部的系统调用,工具调用能力是否被训练得过拟合了

image