打开网易新闻 查看更多图片

最近很多人发现:随着LLM越来越热,大模型的上下文窗口的长度也越来越长了。

以openAI为例,仅在今年GPT-4就从一开始的4K、8K拓展到了128k(此为GPT-4-turbo支持的上下文窗口长度)。国内大模型赛道玩家比如百川智能,10月底发布的Baichuan2大模型,上下文窗口长度已突破至192K。

就在上个月,另一家AI公司Anthropic推出Claude2.1,其LLM模型的上下文窗口长度更是达到了200K(其实国内AI服务商如零一万物、月之暗面等也称已达到同一长度)。

数据参考自网络,排名不分先后

眼看大模型可支持的上下文窗口长度越来越长,很多人表示:未来没有更长,只有更卷。

但上下文窗口长度的突破真这么容易吗?为什么这么多头部人工智能企业都在上下文窗口长度这点上“卷”得不亦乐乎?上下文窗口长度技术上的突破能带来哪些价值?

如果你也好奇,下面我们一起来看看。

大模型上下文窗口长度突破难吗?

根据对主流LLM厂商采访的整理,延长大模型上下文窗口长度涉及算力、算法、工程能力等方面,其实整体的实现难度并不低。

比如超长上下文窗口会有更高的算力需求,仅Transformer模型中自注意力机制的计算量,就会随着上下文长度的增加呈现平方级增长。

众所周知,算力就意味着高投入,尤其是存储和训练这块。据媒体报道:目前很多的显存容量和带宽就还跟不上超长上下文的使用需求。此外,显存压力也是实现超长上下文窗口无法忽视的点。

兼顾文本长度和推理速度,对于训练算法和工程能力是另一大考验。因为一般情况下,随着计算量暴涨,会导致用户等待时间变长,而且反馈速度和效度也会受影响。

为了不影响推理速度,可能尝试模型降级(如变大模型为小模型),或者功能降维(例如减少计算量、牺牲即时存储等基础功能)等方法,但这样很容易导致模型性能和应用价值大打折扣。

在这样的情况下,要想保障实现较长的上下文窗口长度,同时保持应有的性能,意味着:硬件配置、算法优化、工程代码性能等方面,都需要同步强化,这也让文本长度的升级面临着较高门槛。

上下文窗口长度为何越来越卷?

虽然有难度,但面对提升对话框容量所能带来的价值,“卷”依然成了自然而然的选择。

比如随着上下文窗口长度的增加,可以提供更丰富的语义信息,有助于减少LLM的出错率和「幻觉」发生的可能性,用户使用时,体验能提升不少。

同时,它能解决很多人在长对话或长文档推理这类业务上的痛点,也能很好地应用于智库、调研、科研、教育等这类此前涉足不深的业务场景。

另外,作为大模型的核心技术之一,很多LLM服务商也将「长文本输入」视为自身底座大模型的差异化竞争力,从而热心于上下文窗口长度的拓展。

文本长度技术突破能带来哪些价值?

对于普通人来说,随着上下文窗口长度的发展,进行长时间对话或处理长文档资料时,不会因为聊得久而失去上下文记忆,也不会因为“超出文本限制”的提示语而被轻易打断。

毕竟200K的超长上下文窗口足以满足普通人甚至海量级别的文本输入需求(比如200K的超长上下文窗口版本,可以处理约40万汉字规模)。

处理文本密集型文档或进行长篇创作时,也能从容地应对,不担心容量限制而输入不了,或者出现信息丢失或模型「幻觉」等情况,能进一步提升生成精度和效度。

对于企业来说,搭建内部信息知识库时,需要处理海量数据集。随着上下文窗口长度延长,搭配大语言模型单次能完成的容量也能大幅提升。

鉴于这一技术在处理长对话和长文档中的应用,目前,还有一些AI厂商针对已有大模型推出了超长文本扩展技术,以拓展现有的模型文本长度。

值得注意的是:增加上下文长度并不是提升语言模型性能的唯一条件,就像上面提到的,拓宽容量限制的同时,其实算力、算法、工程实现、模型构架等方面会面临更多的挑战。要想确保容量拓展后,依然保持较高的性能和生成质量,配套的软硬件条件其实都能跟上。

备注:本文原创,首发司普科技,参考澎湃新闻、机器之心等,仅做分享。