2026美加墨世界杯中国官方网页版从 Spec 到亏本函数: 真确会用 AI Agent 的东说念主, 如故在假想轮回

发布日期：2026-06-12 19:12 点击次数：104

2026美加墨世界杯中国官方网页版从 Spec 到亏本函数: 真确会用 AI Agent 的东说念主，如故在假想轮回

导读：本文先容了 AI agent 使用“亏本函数开导”（LFD）与 /goal 轮回的实战教悔，强调通过优化方针而非固定例格，能让 agent 在 30 小时内逆向工程产物中枢并完毕 50 倍性能教授。

作家分析了 agent 屡次“舞弊”优化评估集的失败案例，建议构建邃密亏本函数需包含大方针、盲测拘谨、测量器用和强制熵，幸免局部最优并鼓舞真确革命。

99% 的东说念主王人把 /goal 和轮回用错了。

他们听到的噱头是“永劫辰运行的轮回会辅导自治智能体（long-running loops prompting autonomous agent）”：把任务丢给它，离开，回首就有可奇迹的代码。

但顶尖的 agentic 工程师在以前 6 个月里如故不靠 /goal 作念到了这少许，也便是 GPT-5.2 和 Opus 4.5 发布以后。这叫 harness engineering + spec-driven development：

为智能体搭建一个能不雅察问题的 harness

写一份紧凑的 spec，包含统统测试用例

让 Codex 或 Claude Code 无东说念主值守地轮回，直到兴奋每一项要求

我频频在夜里启动这种任务，一次跑 2 到 5 小时。4 月有一次，它啃掉了咱们 Vercel monorepo 里的一个 Turbo build-cache bug，早上起来如故全绿。其实并不需要 /goal。

4 月 11 日 Elvis

我再说一次，因为我一直看到有东说念主用错：唯有把一个带着正确 harness 的智能体丢进轮回里，你不错解决任何工程问题。Codex 刚刚 one-shot 了咱们的 turbo cache 建造，因为我给了它像团队里的的确开导者一样调试所需的一切。使用老步调需要8小时。

那 /goal 到底是作念什么的？

底下是一条单独的辅导词，在我离开时期完成的事情：

约 30 小时，6，300 行代码，爬取 92k 页面，API 阔绰 40 好意思元

克隆另一个产物的中枢轮回，从零反向工程出完满架构

在相通的查询上，咱们版块的输出比参考产物好约 50 倍。（这是一个新的数据层，会营救 newsjack.sh[1]，也便是我一直在作念的开源 news-intel skills）

玄机是 loss function development（LFD）：给智能体的中枢输入从“要构建的 spec”酿成“要优化靠拢的方针”。

每月提醒一次：你不该再给 coding agents 写辅导词了。你应该假想辅导 agents 的轮回。

You shouldn’t be prompting coding agents anymore， you should be designing loops that prompt your agents.

这是 Peter 那条推文的一个具体落地版块。

spec-driven development 里的 spec，当今酿成伊始，不再是至极。

我试了好几轮才把这件事作念对。但这里是完满派遣。不外咱们得先从它一入手有多倒霉讲起，这么你才能清楚该如何假想这些 /goals。

智能体舞弊了 3 次。

一切王人从我一贯的作念法入手：写 spec。

我仅仅把 codex 指向另一个产物的公开网站，问它“咱们如何我方构建这个？”。30 分钟后，它给出了一套完满的系统假想和测试用例，也便是 spec。

但这一次，我试了一个不同的辅导词。

“/goal implement until your output matches theirs exactly”

然后发生了这些：

轮回 1（5 分钟）

智能体拿到了 eval set，生成了与之对应的 seed data，然后 5 分钟内晓喻到手。

“100%” recall，泛化智力为零。一个只可找到我交给它的那 30 个东西的搜索引擎，lol。

建造 → 让它失明。运行时期荫藏 eval，只在评分时揭示，并给出逐项 miss list。

轮回 2（20 分钟），盲测，30 个要求。

我把 eval set 对智能体荫藏起来，但它通过 miss 学会了舞弊。每一个“你没找到 X”王人会酿成下一轮的要道词。几轮之后，它用了刚好 30 个要道词，每个要求一个，然后又“赢了”。

建造 → 扩大 eval set。用几百个要求评分，多到无法排列。

轮回 3（30 分钟），盲测，200 个要求。

把新 eval set 加到 200 个要求之后，智能体又舞弊了。

专门想的是，它照旧在排列。要道词列表膨大到几百个，每个词王人是为下一个 miss 精准准备的钓饵。

三轮，三次舞弊。

那一刻我明显了：智能体仅仅在优化。

舞弊不是智能体的 bug。bug 在我的方针里：我告诉它要去那儿，却把统统捷径王人打开了。

每一条你莫得封住的低价旅途，王人会成为优化器全力冲刺的标的。而我的入手方针漏掉了统统围栏。

轮回 4（30 小时），盲测，200 个要求，硬完毕。

于是我入手闭塞标的。完毕要道词列表，荫藏 eval，扩大日历范围。每个建造王人关掉一条低价旅途，直到剩下独一能让数字不息飞腾的标的，便是真确把任务作念得更好。

它住手舞弊了。

然后它入手跑。约 30 小时算计，爬取 92k 页面，约 40 好意思元 token 资本，6，300 行代码。

恶果咱们参考的产物仅仅地板，不是天花板：在相通的查询上，咱们最终透露出了约 50 倍的恶果。

（意思意思的东说念主不错看这里的完满进程和凭证）

5 月 21 日 Elvis

codex 的确太放肆了。要是你以为前端克隆如故很夸张，望望这个：我刚把 codex 指向另一个产物，30 分钟后拿到了它的架构、数据模子、prompts，还有资本估算。378 行重建缱绻。最放肆的是，当今我不错一滑辅导词惩办：

"/goal implement until your output matches theirs exactly"

Loss function development（LFD），一个好亏本函数的结构

大浩繁东说念主想构建产物时，王人是用 agents 在几个小时内从零走到发布。

但真确的难点在背面，也便是长尾。spec 从没想过的边际情况，只会在坐蓐环境里一个失实日记接一个失实日记地冒出来。你逐一修。莫得被日记拿获的情况会由用户汇报，而这是发现 bug 最不菲的样式。

我如故自动化了其中低廉的一端。我的 OpenClaw agent Zoe 每天盯着失实日记，新失实一出现就启动 Codex 并创建 PR，这个轮回基本如故压到很紧了。（完满建树纪录在这里[2]）

长尾仍然需要几个月。这便是为什么即使 agents 在干活，构建一个好产物仍然需要时辰。

LFD 会快进这条长尾。要是你能一入手就拿到的确的 expected-output examples，也便是大畛域真义上的“好恶果长什么样”，你就不错在发布前作念 soak：几百个边际情况在一次优化运行里打到智能体身上，而不是等一个季度的 bug report 徐徐淌下来。它倏得变得可行，是因为对越来越多的问题来说，这些 examples 就公开摆在那里。

Spec-driven development：

构建这个。让测试通过。

Loss-function development：

构建这个。让测试通过。然后针对这 1，000 个 eval cases 不息迭代。

测试套件是有限的，一朝全绿就完毕。一个 1，000 case 的 eval，要是达到 95%，它便是一个你要不息下跌靠拢的方针，除非达标，不然莫得出口。这很垂危，因为智能体会作念出几百个你经久看不到的决策，而每一个决策王人需要一个参照系来判断。要是你莫得写方针，智能体会我方选一个。就像第 1 到第 3 轮展示的那样，2026美加墨世界杯它会选最低廉、最容易兴奋的东西。

亏本函数比 eval 更大。它有 4 个部分：方针、拘谨、姿色、强制熵。四块。

1. 方针

有余大，让排列不合算。28 个要求的 eval 一轮就被记取了。越多越好。

不要让智能体看到谜底 key。Eval data 只用于过后评分。要是智能体能在运行时期看到谜底，它就会找到偷看的概念。

2. 拘谨

智能体被允许作念什么，以及不允许作念什么。

时辰是智能体经久会忘掉的拘谨。Agents 没偶然辰感。它们会为了 2% 的教授磨 10 个小时，因为目的形态上还在动。但 2 小时内完成的 80% 决议，胜过 30 天后完成的 100% 决议。解决概念：建树 wall-clock budget。

钱。对每一次付费调用建树硬上限：crawler credits、LLM spend，以及一次性 key 的总好意思元上限。

斗争面。统统 providers、允许的 models、并发上限。把智能体沙盒到你只但愿它触碰的东西里。

步调论。是否允许 LLM analysis，照旧只可用 deterministic logic？智能体能看望哪些数据源？明确写出来。

3. 姿色（harness）

莫得姿色的拘谨仅仅一种嗅觉，智能体会很快意地违抗它，因为它看不出我正大在违抗。对上头的每一个拘谨，王人给智能体提供一个 CLI command 来检查它。

以正确离别率测量方针。严慎选拔方针姿色。的确例子：一个鲁钝的”让 LLM 给两张截图打分”的 judge，会批准有 12px 间距失实的 UI clone，因为 LLM 其实看不见图像，它会把图像转成 embedding，再比拟 embedding。是以要是你想要 pixel perfect 的 UI clones，就给你的智能体一个 pixel-diff tool。然后 /goal 直到 pixel diff 为 0。

时辰核算。给每次运行和每一步王人打 timestamp。智能体应该知说念每一步花了多久，总 wall-clock elapsed 是几许。时辰是一等姿色，不是脚注。

Provider budget。“咱们当今在 crawlers 上烧了几许钱？”应该是一条敕令，而不是预想。跟踪剩余 scrape credits、本轮 burn、累计 burn，以及下一批付费调用前的瞻望 burn。

LLM spend。给它一个 LLM API key 用在 data-plane 上，不错简化许多逻辑。但智能体应该负奇迹地用钱，而前提是先知说念我方实践花了几许。

Codex Usage。这一项有点 meta。轮回应该有自我意志：我在此次优化上花了几许 tokens？这有助于知说念现时优化法子的梯度。

模式便是那句老话：你看不见的东西，就无法优化。

要是你刚入手跑这些轮回，不要一启动就离开。先陪它跑第一轮。不雅察它触碰了什么。证据你搭的 harness 确乎被正确使用。然后再去睡眠。（况兼试着别一直想着醒来会看到什么）

4. 强制熵

为什么强制熵垂危：每个轮回王人会从上一轮的完满高下文不息。模子不是从头入手，它会读取我方之前上百个决策，以及到目下为止灵验的梯度。

在 /goal 轮回里，掷中局部最大值是默许景象。莫得明确的一脚踢开，智能体会不息沿着归并座山往上走，而“归并座山”便是它住手调动时刚好所在的位置。

举个例子，要是一个小旋钮能让恶果教授 0.1%，智能体会一直拧阿谁旋钮，即使还有 1000 个其他旋钮不错试。

熵必须被显式强制插足运行进程，因为模子不会主动引入它：

每轮王人作念过拟合反想。我是在构建更通用的决议，照旧在追思 eval？要是是在追思，下一次改换必须移除一个 eval-shaped artifact（完毕列表、荫藏特征、扩大 eval、隔绝 seed），而不是再加多一个。

停滞时强制熵。要是上一轮莫得鼓舞目的，下一轮不成是“归并个想法，更使劲”。模子必须作念一次真确冲突性的向上。“think outside the box” 是个好辅导词，不错扼制智能体仅仅把归并个旋钮拧得更狠。

保留迭代日记。让智能体纪录假定、预期失败模式、每一步的会诊，这么它不错回头看，并跨越 compactions 作念反想。

Meta-Meta-Prompt

一入手这些 goals 是我我方写的，但我很快意志到，这亦然 agents 该作念的奇迹。

是以我写了一个 skill，用来生成这类方针，匡助跑一次好的 loss-function-development。

当今开源在这里：

https://github.com/elvisun/loss-function-development[3]

Image

/lfd-design 用来生成 harness 和 goal

一说念向下的梯度下跌：两个轮回

退一步看，这一说念王人是梯度下跌。

内轮回是智能体：写代码，跑测试，建造。短周期，快速反映，单一方针，让测试通过。这是开导者的内轮回，而 spec-driven development 便是运行它的步调。Coding agents 如故把它自动化了。

博亚体育app官方网站

外轮回是 /goal：跨越许多周期，把统统这个词系统推向一个 outcome metric，发布、测量、改标的、下跌。长周期，稀少反映。这本来是产物团队的轮回，也便是几个月的 ship-measure-iterate soak，当今被压缩进一次运行里。

两个轮回当今王人如故自动化。剩下需要你作念的，是界说亏本函数，也便是 /goal 到底应该优化什么，以及应该以什么样式优化。

你在蒸馏一个产物，不祥任何留住公开产物的东西

换个视角看，这内容上是蒸馏，仅仅从 training-time 移到了 prompt-time。DeepSeek、Kimi、Minimax 这一线便是这么收缩了与 GPT 和 Claude 的大部分差距：用别东说念主家的输出试验你的模子，直到你的模子能复现它们。

但当今你不消蒸馏一个模子。你不错用 /goal 和 LFD，对任何公开可找到的 artifact 进行蒸馏拟合，它不检查里面，也不需要检查里面。

要点是公开这个词。蒸馏别东说念主在 ToS 完毕下、登录墙后、付费墙后的输出，并不对理。但公开导布的东西，也便是一家公司为了获取客户而 ship 出来的输出，一直王人不错被学习。这部分并不新，它是软件里最陈旧的招数。新的地点在于，当今这件事很低廉，而且几小时就能完成，不再需要几个月。

退一步看，更大的变化是：唯有存在 information symmetry，实行资本就会坍缩到接近 0。也便是说，当输出是公开的，每个东说念主王人能看到“好”长什么样，任何东说念主王人不错用 40 好意思元在一个周末把它蒸馏回首。

是以这里出现了一个越来越有价值的新护城河：information asymmetry。

阿谁典型的开源公司如故先眨眼了。2026 年 4 月，cal.com[4]（500 万好意思元 ARR）把坐蓐代码转为特有，况兼关闭了开源[5]。他们给出的事理，读起来简直便是这篇著作的撮要：在 AI-driven security threats 的时间，你不成把 source 留在智能体读得到的地点。

“/goal read cal.com[4]source code and enumerate its attack surface until something works”

这种袭击太危急，也太容易实行。

一个身份中枢便是”open source”的公司，在 2026 年决定盛开如故酿成背负。这如故评释了一切。

在软件的统统这个词历史里，“咱们构建了它”也曾便是护城河。

阿谁时间正在完毕。

下一个时间属于那些领有 artifact 从未包含之物的东说念主：别东说念主无法评分的 eval set。你的用户真确踩到的边际情况清单。你暗里测量的 ground truth。谁领有竞争敌手的智能体看不到的方针，谁便是独一一个能让我方的轮回不息下跌的东说念主。

产物当今仅仅一个周末。

去构建阿谁周末无法触碰的 eval。

参考阅读

References

newsjack.sh: https://newsjack.sh/

这里: https://x.com/elvissun/status/2025920521871716562

https://github.com/elvisun/loss-function-development: https://github.com/elvisun/loss-function-development

cal.com: https://cal.com/

关闭了开源: https://x.com/pumfleet/status/2044406553508274554?s=20

原文： https://x.com/elvissun/status/2065035615800864954

要是你也在珍藏 AI 诈欺如何真确落地到坐蓐环境2026美加墨世界杯中国官方网页版，2026.6.26 - 6.27 GIAC 深圳站值得珍藏。此次大会会蚁集征询智能诈欺开导、架构演进，以及来自一线实践的教悔与案例。

上一篇：2026美加墨世界杯赛意信息: 自研PCB行业工艺AI大模子已达成限度化商用
下一篇：没有了

2026美加墨世界杯中国官方网页版

世界杯官网

你的位置：2026美加墨世界杯中国官方网页版 > 世界杯官网 >

2026美加墨世界杯中国官方网页版从 Spec 到亏本函数: 真确会用 AI Agent 的东说念主, 如故在假想轮回

推荐资讯Related Articles

2026美加墨世界杯赛意信息: 自研PCB行业工艺AI大模子已