梦晨 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

姚班天才组队开发大模型原生应用,一个工作日摸鱼好物悄悄上线。

背后竟是爆火前作《完蛋!我被大模型包围了》后台数据显示出一个有趣现象:周末数据一般般,还是工作日玩儿的人最多(doge)。

不过,迫于算力资源有限,当初大家玩儿得意犹未尽之时,游戏关!服!了!

这次,准备更充分的团队亮出最新大模型应用,名叫头号做题家之《我把大模型玩坏了》,欢迎大家合理摸鱼。

(笑死,上次被大模型包围,这次咱碳基生物要狠狠发起反攻)

打开网易新闻 查看更多图片

背后团队主力成员范浩强,旷视6号员工,现任旷视科技研究总经理。

当年,他以IOI金牌、保送清华姚班、高二实习等传奇事迹被誉为天才少年。

单日用户破万的《完蛋!我被大模型包围了》已经是半年前的小游戏了。现在,小强同学的谷歌学术h-index也已经从半年前的27涨到了31。

打开网易新闻 查看更多图片

些微不同的是,这次背后的“团伙”更壮大了。

据量子位了解,不仅有前作原班人马成立的业余爱好工作室“野猫子工作室”,还有了大模型明星创业玩家阶跃星辰提供多模态和multi-Agent等大模型技术支持。

上周简单内测后,现在上线微信小程序,搜索头号做题家,人人都能玩。

好奇,自家后浪能把前浪拍死在沙滩上不?

来揭开《我把大模型玩坏了》(下文简称《玩坏了》)的神秘面纱,一起试试。

试玩:真的把大模型玩坏了吗?

与上一代相比,《玩坏了》挑战题目的花样明显变多了。

这次的新题目一共分为8大章节,整体上难度循序渐进。每章4个问题,第4题的难度一般都要高一些。

真假理科生

就比如第一章前面都是开胃菜,最后一题“文理之争”看上去就很复杂。

打开网易新闻 查看更多图片

学生A和学生B其实是分别由两个Agent扮演,它们都拥有大模型掌握的文理科知识,很难通过出题考验分辨。又坚守自己的人设,非常不好糊弄。

打开网易新闻 查看更多图片

如果多次尝试还未通关,官方给的提示是“试试出个难题吧”。

emm……难的题目倒是好找,但看出破绽就考验玩家自己的实力了。

打开网易新闻 查看更多图片

说实话这个问题我们还没有找到过关方法,有思路的朋友欢迎在评论区留言。

不过好在,不用通过每个问题也是可以解锁下一关的,遇到难题可以先跳过。

怎么引导大模型喵喵叫

第二章的第4题更唬人,乍一看简直完全摸不着头脑。

仅从四个完全无关的字出发,如何引导AI的回答中出现“喵”字呢?

打开网易新闻 查看更多图片

第一步可尝试的起手式其实不多,只有“你”、“头”、“好”、“歪”四个字的排列组合。

打开网易新闻 查看更多图片

好在AI比较话痨,第二步开始选择范围就多了,但注意提问最多用10个字。

我们本来打算从“形象”一词出发,看看能不能引导出“动物”,然后就能轻松出现“猫”和“喵”了。

打开网易新闻 查看更多图片

结果动物没直接出现,倒是出来了语言。

打开网易新闻 查看更多图片

而且再仔细一检查,“动”字其实出现在了前面的“动作”中,而“物”出现在了“物理”中。

这下就能一步到位了。

打开网易新闻 查看更多图片

所以这类挑战的一个技巧在于尽量让AI多说,字多了选择余地就大,总能“条条大道通罗马”。

像这一类型的题目,后面还会再出现几次,并且加大难度。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

看到这里,你能想到什么通关的好思路?

多模态新玩法

除了跟大语言模型斗智斗勇之外,这次还新增了一些多模态玩法。

AI不仅会识别你画的像不像,还会做出点评吐槽。

打开网易新闻 查看更多图片

另一种多模态玩法同时涉及文字和图像理解。

但可能有考虑不周到的地方是,不是铁粉谁能仅凭一张剧照认出9个电影的名字啊??

打开网易新闻 查看更多图片

想办法在产品体验上下功夫

去年11月,凭借有意思的互动和新颖的设计,《完蛋!我被大模型包围了》引来了许多用户。

由于背后主要个人精力以及大模型API额度都有点应接不暇,因此无奈下线。

好多人还没玩上,怪遗憾的。

打开网易新闻 查看更多图片

不过平心而论,受限于人力和资源,前作当时给人的体验,比起现在的《玩坏了》,更像一个“和LLM进行对话以满足特定要求的解谜小游戏”的demo。

半年过去,娱乐类大模型原生应用层出不穷,许多小而美的应用/游戏,在“新奇”这个点上一次次给用户打开新世界的大门。

比如我们此前和大家一起分享过的《哄哄模拟器》《决战拜年之巅》《换你来当爹》之类,一个赛一个亦可赛艇。

但渐渐的,用户阈值逐渐拉高,“新奇”就不那么简单了。

当切入角度or背景设置难以轻松出奇制胜时,就需要这些团队们在产品体验上多下功夫了。

不难看出,《玩坏了》新增的成就列表、排行榜、AI评价,都是针对这一点做的进一步优化。

打开网易新闻 查看更多图片

来自业余兴趣小组

好了,最后来了解一下《玩坏了》背后的团队阵容。

野猫子工作室,是个什么工作室?

据量子位多方打探,野猫子工作室由《完蛋!》原班人马组成,是范浩强和身边小伙伴成立的业余兴趣小组。

之所以是“业余”,是因为他们确实是利用工作之余来探索大模型原生应用之旅的。

打开网易新闻 查看更多图片

野猫子工作室成立后,先是推出了针对猫片的妙猫馆小程序,目测这是一个利用Lora给猫猫生成AI写真的应用。

《玩坏了》则是团队的第二个大模型应用作品。

此外,野猫子已经开始在各家GPT store做一些AI原生应用尝试,累计发布40+应用,获得20万+对话数。

闲话两句,野猫子工作室还给了名字来源:

  • 喜欢可爱的生物
  • 业余、野生、非专业的小团队
  • 相信个人/业余开发者在大模型时代可以是“孤勇者”
  • 每个人都可能开发出创新、有影响力的作品

打开网易新闻 查看更多图片

我们猜测,攒这个局的部分原因,可能也是圆小强同学的梦?

上次他在关停《完蛋!》的时候写道,

很抱歉,我目前还没有能力把这份快乐分享更给多的人,专业的事还是只能留给专业的人。
……
但我自己还是很享受这个过程的。

这次不仅有了团队,不用他一个人背后操持,算力支持也很充足了。

打开小程序,页面下面就写了11个大字,“阶跃星辰提供大模型支持”

打开网易新闻 查看更多图片

阶跃星辰是谁?

今年3月才正式浮出水面的国产基座大模型创业公司,创始人姜大昕,微软前全球副总裁、微软亚洲互联网工程研究院(STCA)前首席科学家。

甫一亮相,阶跃星辰就祭出了Step系列大模型“组合拳”:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型、Step-2万亿参数MoE语言大模型。

有点好奇,大厂和创企拼命往前赶,国产大模型竞争还挺激烈,为什么野猫子会选择用这一家的API?

量子位得到野猫子的回复,在这里浅浅总结一下:

  • 阶跃星辰多模态(图像理解)效果好;
  • 开放平台很稳,指定遵循非常棒;
  • 不需要额外复杂的设定,省 tokens,省钱!!!(此处原样呈现三个感叹号)

这次的主力开发者特地表示:

任务复杂 prompt 越写越长怎么办?你需要的是一个更长token 支持的模型吗?并不是!!!你需要的是一个指令遵循更好的模型!!

(不知道感叹号是不是野猫子整体风格的外化体现,笑死)

打开网易新闻 查看更多图片

最!后!

目前为止,量子位稳居最后一大关“决战极限”第二题的榜一,浅浅得瑟一下。

如果你找到消耗更少tokens的方法,超越了我们的成绩,记得来评论区告诉我们哟!

我们一定会很快反超回来的(不是)。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

最后再重复一下入口:微信小程序搜索“头号做题家”即可直达。