幸福

波澜不惊


Andrej Kapathy 最近发布的 Autoresearch 之所以炙手可热,原因很简单:只要有一个benchmark 和一段代码,AI agent 就可以无限循环下去,找针对这个 benchmark 的最优解。

我亲手在 Pi Coding Agent 里试验了一下,一两个小时就把我的 Days 网络离散事件仿真平台的性能提高了26%,而 Days 现有的实现已经非常不错了 —— 我最近才刚刚花了两天时间,完成过一轮对性能的优化。

Autoresearch 还指明了如何利用 AI 来帮助我们做研究的一个重要方向:要想做好研究,一定要先树立一个 benchmark。无论是运行时间还是安全测试,这个 benchmark 必须是一个可以量化的指标。这其实也是几乎所有工程学科中研究的共性:没有这样的 benchmark,那「公说公有理、婆说婆有理」,研究就无法一步一步在前人的基础上继续开展下去。

一旦有了这样的 benchmark,有了实现一个解决方案的基础代码,理论上来说,AI agent 就可以不断推陈出新:想新的解法,想如何调整现有的算法,去提高这个 benchmark 所代表的性能。「山穷水尽疑无路」对于人来说是一种挫折,但是对于 AI Agent 来说,只是一些 tokens 而已;「金榜题名时」对人来说是一种幸福,而对于 AI agents 来说,也仅仅是一些 tokens 罢了。

我预计,在不久的将来,正是因为这种「波澜不惊」的定力,AI Agent 一定会有能力独立做出有独创性、令人拍案叫绝的研究。

正如 Andrej Kapathy 所说:「This is what post-AGI feels like.」

2026 年 3 月,多伦多