波澜不惊

Andrej Kapathy 最近发布的 Autoresearch 之所以炙手可热，原因很简单：只要有一个benchmark 和一段代码，AI agent 就可以无限循环下去，找针对这个 benchmark 的最优解。

我亲手在 Pi Coding Agent 里试验了一下，一两个小时就把我的 Days 网络离散事件仿真平台的性能提高了26%，而 Days 现有的实现已经非常不错了 —— 我最近才刚刚花了两天时间，完成过一轮对性能的优化。

Autoresearch 还指明了如何利用 AI 来帮助我们做研究的一个重要方向：要想做好研究，一定要先树立一个 benchmark。无论是运行时间还是安全测试，这个 benchmark 必须是一个可以量化的指标。这其实也是几乎所有工程学科中研究的共性：没有这样的 benchmark，那「公说公有理、婆说婆有理」，研究就无法一步一步在前人的基础上继续开展下去。

一旦有了这样的 benchmark，有了实现一个解决方案的基础代码，理论上来说，AI agent 就可以不断推陈出新：想新的解法，想如何调整现有的算法，去提高这个 benchmark 所代表的性能。「山穷水尽疑无路」对于人来说是一种挫折，但是对于 AI Agent 来说，只是一些 tokens 而已；「金榜题名时」对人来说是一种幸福，而对于 AI agents 来说，也仅仅是一些 tokens 罢了。

我预计，在不久的将来，正是因为这种「波澜不惊」的定力，AI Agent 一定会有能力独立做出有独创性、令人拍案叫绝的研究。

正如 Andrej Kapathy 所说：「This is what post-AGI feels like.」

2026 年 3 月，多伦多