AI公司Magic,近期发布了有1亿上下文窗口的LTM(长期记忆)大模型LTM-2-mini,聚焦在软件开发领域。
这家公司只有23名员工,但拥有8000张H100,未来还会更多。
2022年夏天Magic完成500万美元的种子轮融资。2023年2月,Magic又宣布完成2300万美元的A轮融资。
A轮投资人的阵容很豪华,包括CapitalG(Alphabet 的独立增长基金)、Nat Friedman(GitHub 前首席执行官兼 Github Copilot 联合创始人)、Elad Gil、Amplify Partners、Noam Brown(Meta 研究科学家)、Mehdi Ghissassi(谷歌研究产品总监)、Bryan Pellegrino(LayerZero)、Arthur Breitman(Tezos)、10x Founders、William Tunstall-Pedoe(Unlikely AI)、Adam Jafer 和 Fredrik Hjelm(Voi)、Klaudius Kalcher 和 Roland Boubela(MostlyAI)、Xavier Sarras、Florian Huber、Daniel Dippold 等人。
Magic总共筹集了 4.65 亿美元,其中包括最近从新投资者 Eric Schmidt、Jane Street、Sequoia、Atlassian 等以及现有投资者 Nat Friedman & Daniel Gross、Elad Gil 和 CapitalG 那里获得的 3.2 亿美元投资。
创始人 Eric Steinberger 和联合创始人 Sebastian De Ro
Magic的目标是通过产品实现AGI,培养 AI 软件工程师。
Magic 是垂直整合的——进行研究、训练基础模型、构建产品并与用户交流。拥有前端可以带来直接反馈;训练自己的基础模型使产品能够将其纳入其中。此外,Magic坚信算法创新。LLM已经展示了它们的优势,但它们缺乏一些基本要素——扩展发挥了作用,但Magic更感兴趣的是了解如何改进底层算法。
Magic 从一名 AI 软件工程师开始。从创意到代码需要基于模糊描述做出决策、对所有上下文的深刻抽象理解、创造性和可靠的工程以及与外界的迭代反馈循环。
Magic 所做的一切都归结为一个目标:构建一致且完整的人工智能,以加速人类在世界上最具挑战性的问题上取得的进步。
Magic 在超长上下文方面的进展
Magic 最近训练了第一个 1 亿个Tokens的上下文模型:LTM-2-mini。1 亿个标记相当于约 1000 万行代码或约 750 本小说。
对于每个解码的标记,对于 100M 标记上下文窗口, LTM-2-mini 的序列维度算法比 Llama 3.1 405B 1中的注意力机制便宜大约 1000 倍。
内存需求方面的对比甚至更大——运行具有 100M 令牌上下文的 Llama 3.1 405B 需要每个用户 638 个 H100才能存储单个 100M 令牌 KV 缓存。2 相比之下,对于相同的上下文,LTM 只需要每个用户单个 H100 HBM 的一小部分。
通过思路链式哈希训练,LTM 架构得到以下结果:
通过为该特定模型选择超参数,在没有思路链的情况下尝试 3 次或更多次跳跃时性能会变差,但对于一次 2 次跳跃(哈希 1 → 哈希 3),在没有思路链的情况下,可以看到强劲的结果,这表明该模型能够构建比单个感应头更复杂的电路:
Magic还利用超长上下文机制在 text-to-diff 数据上训练了一个原型模型。它比前沿模型小几个数量级,所以首先承认它的代码合成能力还不够好,但它偶尔会产生合理的输出:
上下文 GUI 框架
Magic的模型使用自定义上下文 GUI 框架成功创建了一个计算器,展示了其实时学习能力。虽然在使用 React 等知名框架时,对于最先进的模型来说,生成计算器是一项简单的任务,但使用自定义上下文框架则更具挑战性。模型仅通过代码库和聊天(没有打开的文件、编辑历史记录或其他指示符)进行提示。
简单的 UI 更改
Magic的模型能够在无需人工干预的情况下为开源存储库Documenso实现密码强度计。问题描述比在实际场景中预期的更具体,并且该功能在许多 Web 应用程序中很常见。尽管如此,一个比当今前沿模型小几个数量级的模型能够在无人协助的情况下编辑复杂的代码库。
Magic目前正在新超级计算机上训练大型 LTM-2 模型。
与其他长上下文有什么不同?
Magic认为,当前的长上下文评估并不理想。流行的“大海捞针”评估将一个随机事实(“针”)放在长上下文窗口(“大海捞针”)的中间,并要求模型检索该事实。
然而,在一部关于鲸鱼的小说中,“阿伦和马克斯在 Blue Bottle 喝咖啡”的场景却格外引人注目。通过学习识别“针”的不寻常性质,该模型可以忽略“大海捞针”中原本相关的信息,从而将所需的存储容量降低到低于实际任务所需的存储容量。它还只需要关注上下文中语义上可识别的一小部分,这使得 RAG 等方法看起来也很成功。
Mamba(第 4.1.2 节)和H3(附录 E.1)的感应头基准测试使这变得更加容易。它们使用(并使用)特殊标记来明确发出针头的启动信号,从而将 eval 的存储和检索难度降低到 O(1)。这就像在开始学习之前就知道考试中会出现哪些问题一样。
这些细微的缺陷削弱了当前的长上下文评估,使得传统的循环神经网络 (RNN) 和状态空间模型 (SSM) 能够获得良好的得分,尽管它们的状态向量从根本上受到限制且较小,为 O(1) 大小。
为了消除这些隐式和显式的语义提示,Magic设计了HashHop。
哈希是随机的,因此不可压缩,要求模型能够始终存储和检索给定上下文大小的最大可能信息内容。
具体来说,我们提出一个使用哈希对进行训练的模型:
... jJWlupoT → KmsFrnRa vRLWdcwV → sVLdzfJu YOJVrdjK → WKPUyWON OepweRIW → JeIrWpvs JeqPlFgA → YirRppTA ...
然后,要求它完成随机选择的哈希对的值:
完成YOJVrdjK → WKPUyWON
这衡量了单步感应头的出现,但实际应用通常需要多跳。图片代码库中的变量分配或库导入。
为了实现这一点,Magic要求模型完成一个哈希链(正如RULER最近提出的那样):
哈希 1 → 哈希 2 哈希 2 → 哈希 3 哈希 3 → 哈希 4 哈希 4 → 哈希 5 哈希 5 → 哈希 6 完成哈希 1 →哈希 2 哈希 3 哈希 4 哈希 5 哈希 6
为了保证顺序和位置不变性,Magic对提示中的哈希对进行打乱:
... 哈希 72 → 哈希 81 哈希 4 → 哈希 5 哈希 1 → 哈希 2 哈希 17 → 哈希 62 哈希 2 → 哈希 3 哈希 52 → 哈希 99 哈希 34 → 哈希 12 哈希 3 → 哈希 4 哈希 71 → 哈希 19 哈希 5 → 哈希 6 ... 完成哈希 1 →哈希 2 哈希 3 哈希 4 哈希 5 哈希 6
写出所有中间哈希值类似于思维链允许模型随时间展开推理的方式。Magic还提出了一种更具挑战性的变体,其中模型跳过一些步骤,例如直接从哈希 1 转到哈希 6:
完成哈希 1 →哈希 6
这要求模型架构能够一次性关注并跳过潜在空间中整个上下文的多个点。
除了评估代码和语言上的模型之外,Magic还发现在哈希上训练小模型并衡量这些玩具任务的性能是我们架构研究的有用工具。
与 Google Cloud 合作构建 NVIDIA GB200 NVL72 集群
Magic正在 Google Cloud 上构建下两台超级计算机:由 NVIDIA H100 Tensor Core GPU 提供支持的 Magic-G4 和由 NVIDIA GB200 NVL72 提供支持的 Magic-G5,并且能够随着时间的推移扩展到数万个 Blackwell GPU。
预训练只能做到这一步。Magic相信推理时间计算是人工智能的下一个前沿。想象一下,如果你能花 100 美元和 10 分钟解决一个问题,并可靠地获得一个针对整个功能的出色拉取请求。这就是Magic的目标。
为了训练和提供 1 亿个 token 上下文模型,需要从头开始编写整个训练和推理堆栈(没有 torch autograd,大量自定义 CUDA),并进行一次又一次实验,以了解如何稳定地训练模型。推理时间计算也是一个同样具有挑战性的项目。
Magic有 23 名员工(+ 8000 张 H100),并且正在招聘更多的工程师和研究人员来加速并部署即将推出的模型。
随着时间的推移,Magic将扩展到数万 GB200,正在招聘超级计算和系统工程师,与 Ben Chess(前 OpenAI 超级计算负责人)一起工作。
足够先进的人工智能应该像核工业一样受到重视。Magic还表示,除了对标准安全测试的承诺外,还希望 Magic 在网络安全方面表现出色,并推动更高的监管标准。Magic正在招聘一名安全主管来领导这项工作。
| |