2026美加墨世界杯中国官方网页版

  • 2026美加墨世界杯中国官方网页版 从 Spec 到亏本函数: 真确会用 AI Agent 的东说念主, 如故在假想轮回

世界杯官网

你的位置:2026美加墨世界杯中国官方网页版 > 世界杯官网 >

2026美加墨世界杯中国官方网页版 从 Spec 到亏本函数: 真确会用 AI Agent 的东说念主, 如故在假想轮回

发布日期:2026-06-12 19:12    点击次数:104

2026美加墨世界杯中国官方网页版 从 Spec 到亏本函数: 真确会用 AI Agent 的东说念主, 如故在假想轮回

导读:本文先容了 AI agent 使用“亏本函数开导”(LFD)与 /goal 轮回的实战教悔,强调通过优化方针而非固定例格,能让 agent 在 30 小时内逆向工程产物中枢并完毕 50 倍性能教授。

作家分析了 agent 屡次“舞弊”优化评估集的失败案例,建议构建邃密亏本函数需包含大方针、盲测拘谨、测量器用和强制熵,幸免局部最优并鼓舞真确革命。

99% 的东说念主王人把 /goal 和轮回用错了。

他们听到的噱头是“永劫辰运行的轮回会辅导自治智能体(long-running loops prompting autonomous agent)”:把任务丢给它,离开,回首就有可奇迹的代码。

但顶尖的 agentic 工程师在以前 6 个月里如故不靠 /goal 作念到了这少许,也便是 GPT-5.2 和 Opus 4.5 发布以后。这叫 harness engineering + spec-driven development:

为智能体搭建一个能不雅察问题的 harness

写一份紧凑的 spec,包含统统测试用例

让 Codex 或 Claude Code 无东说念主值守地轮回,直到兴奋每一项要求

我频频在夜里启动这种任务,一次跑 2 到 5 小时。4 月有一次,它啃掉了咱们 Vercel monorepo 里的一个 Turbo build-cache bug,早上起来如故全绿。其实并不需要 /goal。

4 月 11 日 Elvis

我再说一次,因为我一直看到有东说念主用错:唯有把一个带着正确 harness 的智能体丢进轮回里,你不错解决任何工程问题。Codex 刚刚 one-shot 了咱们的 turbo cache 建造,因为我给了它像团队里的的确开导者一样调试所需的一切。使用老步调需要8小时。

那 /goal 到底是作念什么的?

底下是一条单独的辅导词,在我离开时期完成的事情:

约 30 小时,6,300 行代码,爬取 92k 页面,API 阔绰 40 好意思元

克隆另一个产物的中枢轮回,从零反向工程出完满架构

在相通的查询上,咱们版块的输出比参考产物好约 50 倍。(这是一个新的数据层,会营救 newsjack.sh[1],也便是我一直在作念的开源 news-intel skills)

玄机是 loss function development(LFD):给智能体的中枢输入从“要构建的 spec”酿成“要优化靠拢的方针”。

每月提醒一次:你不该再给 coding agents 写辅导词了。你应该假想辅导 agents 的轮回。

You shouldn’t be prompting coding agents anymore, you should be designing loops that prompt your agents.

这是 Peter 那条推文的一个具体落地版块。

spec-driven development 里的 spec,当今酿成伊始,不再是至极。

我试了好几轮才把这件事作念对。但这里是完满派遣。不外咱们得先从它一入手有多倒霉讲起,这么你才能清楚该如何假想这些 /goals。

智能体舞弊了 3 次。

一切王人从我一贯的作念法入手:写 spec。

我仅仅把 codex 指向另一个产物的公开网站,问它“咱们如何我方构建这个?”。30 分钟后,它给出了一套完满的系统假想和测试用例,也便是 spec。

但这一次,我试了一个不同的辅导词。

“/goal implement until your output matches theirs exactly”

然后发生了这些:

轮回 1(5 分钟)

智能体拿到了 eval set,生成了与之对应的 seed data,然后 5 分钟内晓喻到手。

“100%” recall,泛化智力为零。一个只可找到我交给它的那 30 个东西的搜索引擎,lol。

建造 → 让它失明。运行时期荫藏 eval,只在评分时揭示,并给出逐项 miss list。

轮回 2(20 分钟),盲测,30 个要求。

我把 eval set 对智能体荫藏起来,但它通过 miss 学会了舞弊。每一个“你没找到 X”王人会酿成下一轮的要道词。几轮之后,它用了刚好 30 个要道词,每个要求一个,然后又“赢了”。

建造 → 扩大 eval set。用几百个要求评分,多到无法排列。

轮回 3(30 分钟),盲测,200 个要求。

把新 eval set 加到 200 个要求之后,智能体又舞弊了。

专门想的是,它照旧在排列。要道词列表膨大到几百个,每个词王人是为下一个 miss 精准准备的钓饵。

三轮,三次舞弊。

那一刻我明显了:智能体仅仅在优化。

舞弊不是智能体的 bug。bug 在我的方针里:我告诉它要去那儿,却把统统捷径王人打开了。

每一条你莫得封住的低价旅途,王人会成为优化器全力冲刺的标的。而我的入手方针漏掉了统统围栏。

轮回 4(30 小时),盲测,200 个要求,硬完毕。

于是我入手闭塞标的。完毕要道词列表,荫藏 eval,扩大日历范围。每个建造王人关掉一条低价旅途,直到剩下独一能让数字不息飞腾的标的,便是真确把任务作念得更好。

它住手舞弊了。

然后它入手跑。约 30 小时算计,爬取 92k 页面,约 40 好意思元 token 资本,6,300 行代码。

恶果咱们参考的产物仅仅地板,不是天花板:在相通的查询上,咱们最终透露出了 约 50 倍的恶果。

(意思意思的东说念主不错看这里的完满进程和凭证)

5 月 21 日 Elvis

codex 的确太放肆了。要是你以为前端克隆如故很夸张,望望这个:我刚把 codex 指向另一个产物,30 分钟后拿到了它的架构、数据模子、prompts,还有资本估算。378 行重建缱绻。最放肆的是,当今我不错一滑辅导词惩办:

"/goal implement until your output matches theirs exactly"

Loss function development(LFD),一个好亏本函数的结构

大浩繁东说念主想构建产物时,王人是用 agents 在几个小时内从零走到发布。

但真确的难点在背面,也便是长尾。spec 从没想过的边际情况,只会在坐蓐环境里一个失实日记接一个失实日记地冒出来。你逐一修。莫得被日记拿获的情况会由用户汇报,而这是发现 bug 最不菲的样式。

我如故自动化了其中低廉的一端。我的 OpenClaw agent Zoe 每天盯着失实日记,新失实一出现就启动 Codex 并创建 PR,这个轮回基本如故压到很紧了。(完满建树纪录在这里[2])

长尾仍然需要几个月。这便是为什么即使 agents 在干活,构建一个好产物仍然需要时辰。

LFD 会快进这条长尾。要是你能一入手就拿到的确的 expected-output examples,也便是大畛域真义上的“好恶果长什么样”,你就不错在发布前作念 soak:几百个边际情况在一次优化运行里打到智能体身上,而不是等一个季度的 bug report 徐徐淌下来。它倏得变得可行,是因为对越来越多的问题来说,这些 examples 就公开摆在那里。

Spec-driven development:

构建这个。让测试通过。

Loss-function development:

构建这个。让测试通过。然后针对这 1,000 个 eval cases 不息迭代。

测试套件是有限的,一朝全绿就完毕。一个 1,000 case 的 eval,要是达到 95%,它便是一个你要不息下跌靠拢的方针,除非达标,不然莫得出口。这很垂危,因为智能体会作念出几百个你经久看不到的决策,而每一个决策王人需要一个参照系来判断。要是你莫得写方针,智能体会我方选一个。就像第 1 到第 3 轮展示的那样,2026美加墨世界杯它会选最低廉、最容易兴奋的东西。

亏本函数比 eval 更大。它有 4 个部分:方针、拘谨、姿色、强制熵。四块。

1. 方针

有余大,让排列不合算。28 个要求的 eval 一轮就被记取了。越多越好。

不要让智能体看到谜底 key。Eval data 只用于过后评分。要是智能体能在运行时期看到谜底,它就会找到偷看的概念。

2. 拘谨

智能体被允许作念什么,以及不允许作念什么。

时辰是智能体经久会忘掉的拘谨。Agents 没偶然辰感。它们会为了 2% 的教授磨 10 个小时,因为目的形态上还在动。但 2 小时内完成的 80% 决议,胜过 30 天后完成的 100% 决议。解决概念:建树 wall-clock budget。

钱。对每一次付费调用建树硬上限:crawler credits、LLM spend,以及一次性 key 的总好意思元上限。

斗争面。统统 providers、允许的 models、并发上限。把智能体沙盒到你只但愿它触碰的东西里。

步调论。是否允许 LLM analysis,照旧只可用 deterministic logic?智能体能看望哪些数据源?明确写出来。

3. 姿色(harness)

莫得姿色的拘谨仅仅一种嗅觉,智能体会很快意地违抗它,因为它看不出我正大在违抗。对上头的每一个拘谨,王人给智能体提供一个 CLI command 来检查它。

以正确离别率测量方针。严慎选拔方针姿色。的确例子:一个鲁钝的”让 LLM 给两张截图打分”的 judge,会批准有 12px 间距失实的 UI clone,因为 LLM 其实看不见图像,它会把图像转成 embedding,再比拟 embedding。是以要是你想要 pixel perfect 的 UI clones,就给你的智能体一个 pixel-diff tool。然后 /goal 直到 pixel diff 为 0。

时辰核算。给每次运行和每一步王人打 timestamp。智能体应该知说念每一步花了多久,总 wall-clock elapsed 是几许。时辰是一等姿色,不是脚注。

Provider budget。“咱们当今在 crawlers 上烧了几许钱?”应该是一条敕令,而不是预想。跟踪剩余 scrape credits、本轮 burn、累计 burn,以及下一批付费调用前的瞻望 burn。

LLM spend。给它一个 LLM API key 用在 data-plane 上,不错简化许多逻辑。但智能体应该负奇迹地用钱,而前提是先知说念我方实践花了几许。

Codex Usage。这一项有点 meta。轮回应该有自我意志:我在此次优化上花了几许 tokens?这有助于知说念现时优化法子的梯度。

模式便是那句老话:你看不见的东西,就无法优化。

要是你刚入手跑这些轮回,不要一启动就离开。先陪它跑第一轮。不雅察它触碰了什么。证据你搭的 harness 确乎被正确使用。然后再去睡眠。(况兼试着别一直想着醒来会看到什么)

4. 强制熵

为什么强制熵垂危:每个轮回王人会从上一轮的完满高下文不息。模子不是从头入手,它会读取我方之前上百个决策,以及到目下为止灵验的梯度。

在 /goal 轮回里,掷中局部最大值是默许景象。莫得明确的一脚踢开,智能体会不息沿着归并座山往上走,而“归并座山”便是它住手调动时刚好所在的位置。

举个例子,要是一个小旋钮能让恶果教授 0.1%,智能体会一直拧阿谁旋钮,即使还有 1000 个其他旋钮不错试。

熵必须被显式强制插足运行进程,因为模子不会主动引入它:

每轮王人作念过拟合反想。我是在构建更通用的决议,照旧在追思 eval?要是是在追思,下一次改换必须移除一个 eval-shaped artifact(完毕列表、荫藏特征、扩大 eval、隔绝 seed),而不是再加多一个。

停滞时强制熵。要是上一轮莫得鼓舞目的,下一轮不成是“归并个想法,更使劲”。模子必须作念一次真确冲突性的向上。“think outside the box” 是个好辅导词,不错扼制智能体仅仅把归并个旋钮拧得更狠。

保留迭代日记。让智能体纪录假定、预期失败模式、每一步的会诊,这么它不错回头看,并跨越 compactions 作念反想。

Meta-Meta-Prompt

一入手这些 goals 是我我方写的,但我很快意志到,这亦然 agents 该作念的奇迹。

是以我写了一个 skill,用来生成这类方针,匡助跑一次好的 loss-function-development。

当今开源在这里:

https://github.com/elvisun/loss-function-development[3]

Image

/lfd-design 用来生成 harness 和 goal

一说念向下的梯度下跌:两个轮回

退一步看,这一说念王人是梯度下跌。

内轮回是智能体:写代码,跑测试,建造。短周期,快速反映,单一方针,让测试通过。这是开导者的内轮回,而 spec-driven development 便是运行它的步调。Coding agents 如故把它自动化了。

博亚体育app官方网站

外轮回是 /goal:跨越许多周期,把统统这个词系统推向一个 outcome metric,发布、测量、改标的、下跌。长周期,稀少反映。这本来是产物团队的轮回,也便是几个月的 ship-measure-iterate soak,当今被压缩进一次运行里。

两个轮回当今王人如故自动化。剩下需要你作念的,是界说亏本函数,也便是 /goal 到底应该优化什么,以及应该以什么样式优化。

你在蒸馏一个产物,不祥任何留住公开产物的东西

换个视角看,这内容上是蒸馏,仅仅从 training-time 移到了 prompt-time。DeepSeek、Kimi、Minimax 这一线便是这么收缩了与 GPT 和 Claude 的大部分差距:用别东说念主家的输出试验你的模子,直到你的模子能复现它们。

但当今你不消蒸馏一个模子。你不错用 /goal 和 LFD,对任何公开可找到的 artifact 进行蒸馏拟合,它不检查里面,也不需要检查里面。

要点是公开这个词。蒸馏别东说念主在 ToS 完毕下、登录墙后、付费墙后的输出,并不对理。但公开导布的东西,也便是一家公司为了获取客户而 ship 出来的输出,一直王人不错被学习。这部分并不新,它是软件里最陈旧的招数。新的地点在于,当今这件事很低廉,而且几小时就能完成,不再需要几个月。

退一步看,更大的变化是:唯有存在 information symmetry,实行资本就会坍缩到接近 0。也便是说,当输出是公开的,每个东说念主王人能看到“好”长什么样,任何东说念主王人不错用 40 好意思元在一个周末把它蒸馏回首。

是以这里出现了一个越来越有价值的新护城河:information asymmetry。

阿谁典型的开源公司如故先眨眼了。2026 年 4 月,cal.com[4](500 万好意思元 ARR)把坐蓐代码转为特有,况兼关闭了开源[5]。他们给出的事理,读起来简直便是这篇著作的撮要:在 AI-driven security threats 的时间,你不成把 source 留在智能体读得到的地点。

“/goal read cal.com[4]source code and enumerate its attack surface until something works”

这种袭击太危急,也太容易实行。

一个身份中枢便是”open source”的公司,在 2026 年决定盛开如故酿成背负。这如故评释了一切。

在软件的统统这个词历史里,“咱们构建了它”也曾便是护城河。

阿谁时间正在完毕。

下一个时间属于那些领有 artifact 从未包含之物的东说念主:别东说念主无法评分的 eval set。你的用户真确踩到的边际情况清单。你暗里测量的 ground truth。谁领有竞争敌手的智能体看不到的方针,谁便是独一一个能让我方的轮回不息下跌的东说念主。

产物当今仅仅一个周末。

去构建阿谁周末无法触碰的 eval。

参考阅读

References

newsjack.sh: https://newsjack.sh/

这里: https://x.com/elvissun/status/2025920521871716562

https://github.com/elvisun/loss-function-development: https://github.com/elvisun/loss-function-development

cal.com: https://cal.com/

关闭了开源: https://x.com/pumfleet/status/2044406553508274554?s=20

原文: https://x.com/elvissun/status/2065035615800864954

要是你也在珍藏 AI 诈欺如何真确落地到坐蓐环境2026美加墨世界杯中国官方网页版,2026.6.26 - 6.27 GIAC 深圳站值得珍藏。此次大会会蚁集征询智能诈欺开导、架构演进,以及来自一线实践的教悔与案例。



推荐资讯Related Articles

  • 2026美加墨世界杯 赛意信息: 自研PCB行业工艺AI大模子已

    2026-06-12

    针对投资者护理的算力租借业务发展,公司示意现阶段以裸金属就业为切入点,部分关连订单已落地。 6月10日,赛意信息(300687.SZ)发布投资者关系步履纪录表。 在AI软件运用板块,公司坚握清醒传统主业、发展AI软件新业务的念念路。落幕本年5月,在手业务订单同比增长21.3%,中枢区域订单鼓动历程雅致。公司要点打造工业垂类模子与AI数字职工家具,多款行业模子已在工艺接头优化、物流旅途优化、工业质检...

  • 2026美加墨世界杯中国官方网页版 从 Spec 到亏本函数:

    2026-06-12

    导读:本文先容了 AI agent 使用“亏本函数开导”(LFD)与 /goal 轮回的实战教悔,强调通过优化方针而非固定例格,能让 agent 在 30 小时内逆向工程产物中枢并完毕 50 倍性能教授。 作家分析了 agent 屡次“舞弊”优化评估集的失败案例,建议构建邃密亏本函数需包含大方针、盲测拘谨、测量器用和强制熵,幸免局部最优并鼓舞真确革命。 99% 的东说念主王人把 /goal 和轮回...

  • 世界杯(中国)官网 微信不再是软件

    2026-06-11

    微信开放AI生态接入的动作看似低调,实则逃避秘要。当京东、好意思团、携程等巨头争相成为首批接入者时,这场竞赛的骨子已超出时间层面——微信动作隐敝12亿用户的生涯基础次第,正成为AI获得真实施为数据的独一通谈。本文深刻办法微信从通信器具鼎新为「数字生涯层」的演进逻辑,揭示大厂们争夺的不仅是流量进口,更是构建智能Agent的灵魂密钥。 6月8日,微信发布了一份换取文献。 名字很粗豪,叫《对于开采者接入...

  • 世界杯(中国)官网 顺心家骨科亮相IFSWT展现中国冲击波调整水

    2026-06-11

    2026年5月29日至30日,国外冲击波调整调融会(International Federation of Shock Wave Treatment, IFSWT)国外大会小心大利罗马召开。来适意众骨科、畅通医学、康复医学、痛苦医学及关联交叉学科限度的众人王人聚,围绕体外冲击波调整(Extracorporeal Shock Wave Therapy, ESWT)的基础机制、临床法子、前沿时代与将来...