Peter Steinberger 是一位来自奥地利的资深程序员,被誉为“Moltbot 之父”。他在 2021 年以约 1 亿欧元的价格出售了自己经营 13 年的 PDF 工具公司 PSPDFKit,实现了财富自由。退休三年后感到“空虚”的他,在 2025 年重新开始写代码,仅用一个小时就搭建出了 AI 代理项目 Moltbot(现已被 OpenAI 收购)的原型,该开源项目迅速火爆全球,GitHub 星标一度逼近 20 万。

此次他回到老家奥地利,用奥地利口音的母语德语接受了奥地利国家广播电视台(ORF)最权威的新闻节目《时代画报》(Zeit im Bild,简称 ZIB)的专访。访谈中,他深入探讨 AI 代理如何真正替人做事,分享对“80% 应用将消失”等行业变革的预判,并讲述自己在拒绝了 Meta 等公司的数十亿收购要约后,最终选择加入 OpenAI 的心路历程。

打开网易新闻 查看更多图片
图 | Peter Steinberger(来源:https://www.youtube.com/watch)

以下为访谈全文,DeepTech 做了部分不影响原意的修改:

主持人:你能不能跟我们再解释一下,你的 Agent 能做到哪些我用 ChatGPT 做不了的事情?

Peter:我点进去 ChatGPT,虽然上面有文字,但它没有反应。但通过我的 Agent,你可以让它写点东西进去,而且它确实能替我处理一些实际事务。它可以读取文件、发送邮件,还能在浏览器里点击操作。其实你可以把它想象成一个“实体”,代替我坐在电脑前,动动键盘鼠标,几乎能做我能做的所有事。

主持人:但它现在到底有多好用?比如,我能不能让它帮我订一次复活节的巴黎之旅?从最便宜的航班开始,到找一家我喜欢又负担得起的酒店,再到预订卢浮宫和歌剧院的在线门票,最后我真的能拿到票,而且所有费用都结清吗?还是说它只会像 ChatGPT 那样,给我一堆建议而已?它真的能从头到尾、一步不差地替我办妥吗?

Peter:从 A 到 Z,你完全可以交给它从头到尾完成。当然,你得把信用卡信息提供给这个程序,所以我建议你办一张专用的信用卡,这样就不会被一次扣光所有钱。但从技术上讲,这现在已经可以实现了。

主持人:那么,你的程序能写出足以被大学接受的博士论文吗?

Peter:我希望不能,首先是因为人们在 AI 领域已经取得了很大进展,但目前的情况还远未达到那个程度。不是简单输入一个提示就能搞定,背后需要大量的工作,往往还需要真正的研究,这对它来说还是太复杂了。它确实有这个趋势,但这也不是它的强项。不过,如果是生成高质量文本的话,它确实能提供很出色的内容。它非常灵活,但更偏向于帮助人们处理生活中的琐事。

主持人:你刚才提到有些情况它还做不到,那你会如何划定界限?你的程序还能做什么,哪些事情必须由人自己来完成?

Peter:比如,我非常擅长用 Agent 编程,这是什么意思呢?简单来说,就是我告诉它我想要什么、想要什么功能,然后它就会用微软的工具来编写代码,之后我来测试,甚至它还会帮我测试,这样我就又把软件改进了一些。

主持人:所以不是你自己在编程,而是让 Agent 替你编程?但尤其是涉及到像写报纸文章这样的事情时,我觉得人的参与还是很重要的。

Peter:人的因素确实很重要。我经常看到有人写了东西,然后让工具帮忙修改润色,但总觉得少了点什么,好像失去了某种个人色彩。所以我个人会划一条界限,虽然这条界限是主观的,但有些地方我就是觉得不太对劲。

主持人:如果谁都能随便用它,那它确实可以用在各种地方,但自然也就不再受控了。现在很多 AI 应用比如 ChatGPT,虽然人们用得很多,但依然有低级错误。如果一个 AI Agent 还自己做决定,那做出错误决策的风险不是很高吗?责任由谁来负?比如我的 Agent 订了一个价格离谱的酒店,还把钱付了,而这笔钱我根本负担不起。总不能到时候说一句“你好,根据奥地利的规定,它还在学习阶段”就完事了吧?

Peter:说到底,没有我的指令它什么也不会做。如果我不让 Agent 订酒店,它就不会去订。我现在希望的其实是它能看着我操作,然后确认这样没问题。比如订热门酒店这种操作,我希望能先核对一下。如果是我让它运行的,那它做什么都由我负责。就算它用了我的信用卡,那也是我的卡。目前,要使用它确实还需要一些基础知识。

主持人:不过你们在博客上写,下一个目标是做一个连你妈妈都能用的 Agent,什么时候能实现?

Peter:所以我不能一个人做这件事,我需要一个团队。

主持人:之前还说没法(找到合适的人)合作,现在能和(OpenAI 的)懂行的人一起工作了,这不是很令人兴奋吗?

Peter:当然,还有一些问题需要解决。这些问题还需要进一步研究,尤其是在提示工程方面。德国在这方面已经做了很多工作,但我一个人做不来,这需要一整支团队。需要很多人来研究这个领域。其实我已经不再亲自做这些底层设定了,因为我不想让大家还得在终端里点来点去,这并不难,但我更希望人们能直接理解这些概念。需要很多人来研究这个领域。其实我已经不再亲自做这些底层设定了,因为我不想让大家还得在终端里点来点去,这并不难,但我更希望人们能直接理解这些概念。

主持人:现在批评者说,这类 Agent 的核心问题是数据保护,因为要让 Agent 真正替我干活,我就得把我的数据、密码、信用卡信息和联系人全都交给它。它当然还需要联网,否则没法帮我预订旅行。从数据保护的角度来看,你们做的这个东西,对批评者来说简直就是一场噩梦。

Peter:但换个角度,它其实可以完全运行在我的电脑上。而且如果我希望的话,模型也可以运行在我的电脑上,整个程序完全可以本地运行。当然,如果完全本地化,它也就没法替我做什么事了。如果它使用浏览器操作,那我面临的风险就和我自己在网上操作时面临的风险完全一样。大多数美国公司开发的解决方案都运行在他们的服务器上,也就是说如果我想让 Agent 读取我的邮件,我就得把我的邮件交给那些公司。而在我的解决方案中,一切都保留在本地。如果需要处理邮件,可能只有部分信息会上传到云端,但不是全部。所以,在所有现有方案中,我的方案是数据保护问题最少的。而且,只要我愿意,我甚至可以让它完全离线运行。

主持人:刚才你提到了一个尚未解决的问题,行话叫“提示注入”,也就是你的 Agent 在处理邮件时,我给它发一封邮件,让它去做某件事,而你对此一无所知,结果它造成了真正的损害。这个问题没法解决吗?比如我发一封邮件说“删掉所有数据”,它就可能真的照做?

Peter:也不是说完全没办法。比如“删掉所有数据”这种指令,我希望它能更智能一些。其实几年前模型确实还很笨,那时候可能真的会出这种事。但现在模型已经在这方面受过训练了,比如它会识别哪些数据是“用户授权的”,哪些是“陌生邮件发来的不可信指令”,所以这个问题已经小多了。不过确实,如果有人真花足够的心思和时间,持续攻击这个模型,那么目前来说,还是有可能会让它做出一些本不该做的事。

主持人:也就是说,那我也能用别的方式去攻击你的模型吗?

Peter:没错,但前提是得能接触到我的 Agent。比如给我发一些精心设计的邮件,可能系统就会出错。其实已经有一些机制可以防范这类问题。比如,你把我的个人 Agent 集成到网店系统里,就像今年一月初流量高峰期的时候,我放了一个没有公开的文件,相当于一个“预警系统”。你知道这是什么原理吗?就像以前矿工带金丝雀下井一样,空气质量变差时,金丝雀会先发出警报。我的这个“金丝雀”文件就放在那里,到目前为止,还没有人能真正攻破它。虽然确实有很多人在尝试攻击它,理论上也不是完全没可能攻破,但绝对不是随便发个指令、或者写点什么就能做到的,不是什么中学生都能搞定的那么简单。不过,技术发展得太快了,有很多研究者在做一些比较另类的实验。甚至可以说,正是因为智能 Agent 变得这么流行,这个问题反而变得更加尖锐和紧迫了。

主持人:你在采访中说过,你很惊讶于你的程序在解决问题时如此有创意,甚至找到了一些你没教过它的方法。但你不担心它会自己学会做你不希望它做的事,甚至失去控制吗?

Peter:其实你总是可以控制它的,因为你能看到它在做什么。如果有问题,你可以让它停下来。当然,你需要看着它、监督它。在后续操作中,它也只在我指示下行动。我也会加一些机制,让它偶尔自己主动做点什么,但你也可以关掉它。所以,这完全取决于你对技术的舒适度。

你可以让它风险更低,也可以让它更有趣。你的程序能自主学习,这也正是很多人对 AI 的恐惧所在,所谓的“奇点”也就是 AI 在没有人类输入的情况下自我进化,变得不可控,最终统治世界。

主持人:你对此不害怕吗?六个月后也许会怕?也许在巴伐利亚会?(编者注: 这句话是说话人开的玩笑,暗指巴伐利亚人可能对 AI 统治世界这件事特别敏感或担忧,带有地域梗的调侃意味。)

Peter:也许有一天,AI 真的会取代人类的工作,影响人们的收入。很多人担心,现在这种“预测下一个词”的技术路径本身就是错的,我们可能根本走不到那一步。不过,也确实存在另一种可能性……这很好,因为这样做既是责任所在,也意味着我们在安全研究上投入了大量精力,去思考如何确保模型做我们想让它做的事,而不是做我们不想让它做的事。不过话说回来,这当然也不是我能完全保证的。

主持人:最近几周,出现了一个供 AI Agent 使用的社交网络。一开始,它们只是在那儿讨论药物,但后来事情的发展远超预期,出现了一些非常诡异的状况:比如诞生了一个 AI 宗教,一种类似邪教的组织,甚至还开始传播恶意软件。还有 AI Agent 试图建立“AI 独裁统治”,听到这些,你是觉得好笑,还是感到害怕?

Peter:害怕?我觉得这简直不可思议。但组织起来也能产生有趣的东西。不过,我觉得那更多是 Agent 的行为,但背后其实还是有人在操控。也就是说是真人用户推动的。Agent 不会自己注册,你得告诉它:“嘿,上这个网站,写点疯狂的东西。”或者用户就是想吓唬别人。你得明白,这些模型是用大量数据训练的。我们在德国不来梅有上千本书,甚至上百万本,其中也包括科幻小说,那些让人害怕的故事。所以它们有很多“素材”。如果你让它写点关于统治世界的疯狂故事,它还真能写出来,因为它读过很多类似的好故事。当然,也许有一天你根本不需要告诉模型,它自己就能学。微软几年前在 Twitter 上做过一个小 AI,没过几天就学会了不当言论。

主持人:这种事真的能防得住吗?

Peter:嗯,如果你在 Twitter 上放出一个能和用户互动的 AI,而用户不断输入各种文本,那它最终可能会生成一些大家想看的“金融建议”。这其实是被用户推着走的。当两个 AI 开始对话,拥有无限的算力和存储空间,它们可以互相扔出各种荒唐的东西。

主持人:那这事儿会不会彻底失控?

Peter:没什么是不可能的。但也可以想象,如果我们用现代技术手段好好控制,它们也能表现得很好。

主持人:现在关于 AI 未来几年会取代多少工作岗位,各种预测五花八门。如果说你的 AI Agent 能做我在电脑上能做的一切,那以后可能就不需要人亲自用电脑做事了。五年或十年后的职场会变成什么样?

Peter:我觉得可能会变得更保守,会出现某种整合。那些重复性的工作可能会被自动化,甚至更多的工作也会被改造。如果我在学校就能用你的设备自动化所有我在电脑上能做的事,我担心的是它确实能做很多事情,但缺乏创造力。它也缺少那种“我该做什么”的主动性。谁来决定做什么?理论上它能做,但这并不意味着它就能轻易取代人的工作。比如你的工作,或者经理的职位。这些背后始终需要人,需要有想法的人。所以,它显然已经取代了一些程序员的工作,因为它能自己编程了。但与此同时,很多人反而开始做更个性化的东西,更贴合自己的需求。他们不再追求标准化,而是更喜欢做那些能更好解决小问题的小工具。也许只是因为他们不需要会做所有事,只需要做点小事。所以我相信,世界会变得更加多产,因为技术门槛变低了。一旦有了需求,人们就能造出更多东西。那么现在坐办公室的人,十年后还有多少比例的工作依然存在?没人能回答这个问题。

主持人:90% 还是 10%?

Peter:不会是 90%,也不会是 10%,肯定在两者之间。也许将来老年人不再需要每天工作那么久。我们可以适当减少工作时长,然后庆幸有一部分工作被 AI 取代了。但它更像是帮我更快速高效地构建东西。作为开发者,我可以把那些简单的事情交给它,从而有更多时间思考难题,加入更多功能。可以把产品做得更好。我甚至能从中获得乐趣,因为那些无聊的事被它做掉了。但始终需要有人告诉它该做什么。

主持人:但如果你一开始说的没错,那几个月或几年后我就不需要旅行社了。

Peter:我希望下一代人从来没进过旅行社,当然这是另一个话题。对我来说,反正一切早已在线化了。但技术的发展会让现状发生改变,这是毋庸置疑的。比如很多 App,现在可能就像我的健身伴侣日历一样,用来记录饮食。我只需要拍张照片,它就能为我做更多事。这会是自然而然的变化,对吧?我甚至觉得,最近几周,80% 的现有应用都会消失。不过我了解到,虽然大部分应用会消失,但并不意味着背后的公司都会倒闭,它们会转型。就像所有诊断模块在一个地方互相对话,这不是说某个具体应用会消失,而是我使用手机的方式会发生巨大变化。未来会很美好:只需通过文字或语音指令,比如“这是我的分红,拍个照”,钱就到账了。或者“在我练钢琴的时候给我朋友发个 WhatsApp,告诉他我对什么感兴趣”,这些都能自动完成,而不用我打开一个个 App。不用手动上传照片,一切都很简单,这很酷。

主持人:你现在就开始让 Agent 买机票了?

Peter:是的,我的钱可能全都通过 AI 来支付,我还找到了护照号,然后一步步走完了所有流程。号码找到了,该点的也都点完了,所有信息都在那儿,不过后面还有很多事要处理。

主持人:听说你要去一家全球最大、最重要的 AI 公司之一?与此同时,你们的程序还要继续保持开放、非商业化,这样反而能让它们走得更远?

Peter:当然,它肯定会被拆解,但我不知道这个项目能否保持完整。所以,这个项目是为了创意、灵感和那些乐于为自己做事的人而存在的。它太重要了,不能被某家公司收购了,然后就被限制住。

主持人:为什么你在生产环境中需要这个?

Peter:如果尝试用 Open Cloud 的话,Open Cloud 的架构真的不适合我妈妈用,就是这样。(编者注:访谈的德国背景和发音推测,这里的“Open Cloud”很可能指的是德国公司 Heinlein Group 开发的开源文件管理与协作平台 OpenCloud,相当于 SharePoint 或 Google Drive 的替代品,是地道的德国本土技术产品符合 GDPR(欧盟通用数据保护条例)要求,可在本地服务器运行。)

主持人:那我得买这个?

Peter:可能每个人最后都会从 OpenAI 那里拿到一个解决方案,这取决于我们怎么看待某个解决方案,它们有哪些安全限制,我们怎么理解这些限制。其实限制是针对过程的。但说到底,我们还是需要一个公司来管理这些资源。OpenAI 给我的承诺是:我们要做最好的模型。至于它现在是用透析还是别的什么方法,其实无所谓。因为价格是一样的。很快就会出现一个问题:那些大公司,像微软、Meta、谷歌,拥有成千上万的开发人员和全世界最强的算力,它们能做什么?而这些公司知道我能做什么吗?

主持人:你们在去年五月份就有了这个解决方案。

Peter:我当时想“这趟车怕是赶不上了”,结果到了去年十一月它还很坚挺。如果现在有大公司来看这个项目,那需要处理的问题可就多了。所以我先把它做成了开源。等我们把它建起来,就会有很多人加入,大家一起想办法让它真正安全起来。这样一来,各种问题就会冒出来,最终都得靠人去解决。其实我就是给自己做了个小东西,像是我的小实验场。我可以在这里学习“Agent 循环”是怎么运作的,也就是搞明白怎么让 AI 真正去做事。

主持人:怎么建一个能让 AI 记住东西的系统?

Peter:就像化学一样,有很多不同层次可以玩。你可以在这里学习、尝试各种东西。我把它公开,不是因为像那些大公司一样想卖产品,而是因为我真的想理解这项技术。把它公开之后,我好像突然找到了一个临界点,它一下子就变得对很多人可用了。这种感觉完全不一样:就像我在 WhatsApp 上有了一个可以聊天的对象,它对我很友好,还有点贴合我的个性。安装之后,它还会继续关注你。比如它会问:“你好,你是谁?那我是谁?”有点像角色扮演的感觉。这其实不是某一件大事,而是由很多小事、很多想法组成的。我可以说是在“玩”的过程中获得了这些灵感,然后它们慢慢拼凑在一起,最后就做出了一个很酷的东西。

主持人:去年那些大公司用天价薪水互相挖最著名的开发者,有的甚至上亿美元。但他们现在不需要为钱工作了,因为五年前就卖掉了初创公司。据说卖了上亿欧元。那得用什么样的条件才能让他们来为你工作?我的理解是,你一直是一个人工作,然后要在办公室里工作。

Peter:我也想体验一下大公司是怎么运作的。我想和那些同样被技术驱动的人一起工作,他们对这项技术充满热情,也渴望一起学习。

主持人:好的,非常感谢(你接受采访)。

参考资料:

原视频 https://www.youtube.com/watch?v=C3SjUt59rtA