核心思想:将 AI 的文本输出规范为 JSON 格式,作为 Service 使用
模型 和 AI Chat 页面本身都是 接受输入、黑盒处理,返回输出,因此交互式的 AI Chat 本身也是一种模型。
模型需要一组输入输出工具完成 token 到模态媒介的转换。对应到 AI Chat 则是一组 写入 prompt 并提交 Prompt 原子操作,获取输出的原子操作。
Gemini Chat is a Model
不多说,上图看效果,AI Chat as a Model 在 Gemini-3.1-Flash 上的可行性验证:
此处有个细节,我返回的 image_grounding 工具结果是 蓝色滑块 而非 三角形滑块,但 Gemini Flash 也很好地处理了
1 | { |
查看原对话:https://gemini.google.com/share/31532b13c3ea
Claude Chat is a Model

Claude: 分多步移动可以模拟更自然地人类拖动轨迹
查看原对话:https://claude.ai/share/7f0eb8bc-5686-4ab0-8eeb-6fa51080dc23
ChatGPT Chat is not a Model
该方法对模型敏感,如 ChatGPT 施加了诸多限制:
禁止完全 JSON 回复模式
ChatGPT-o3 在提示词优化前几乎成功了,用 Python 代码实现图像识别,调用自定义工具给出了鼠标操作,虽然不完全正确。
然而在优化提示词后,o3 直接拒绝指令。
工具调用能力限制
不知道是防幻觉还是何种目的,ChatGPT 5.4 Thinking 会做工具可用性检测,导致 Chat 中模型工具调用/指令遵循能力显著下降
初版提示词效果:遵循了 JSON 回复指令,但认为外部工具不可用
ChatGPT 5.4 Thinking 认为外部工具不可用
ChatGPT-5.2 Pro 思考 3m 回复工具不可用
优化提示词后触发限制
工具调用能力下降,解释工具可用性后给出不完整调用
对内部工具强依赖
偏向于使用内部工具,例如 ChatGPT-5.4 和 ChatGPT-o3
过度安全审查和道德感
ChatGPT-5.4 Thinking
其他模型
除了御三家,也试试国产模型
DeepSeek
DeepSeek Passed.
查看原对话:https://chat.deepseek.com/share/xyhzs7g3wigbaeiy2u
Qwen
Qwen failed,有趣的是 Qwen 触发了内部的系统调用,工具调用能力是否被训练得过拟合了
