打开网易新闻 查看更多图片

了解人工智能的第一天起,可能我们都有意无意遇到过一个词:token。

这个看起来技术性十足的词,频频出现在学者、销售、市场、运营甚至财务人员等各色职业人群的口中。

到底什么是token?它和大语言模型、窗口长度有怎样的关联?

如果你也好奇,下面跟随司普科技1号解说员小司一起来看看。

什么是token?

网上直搜token,很多人可能感到眼花缭乱。

作为名词,token既表示“代币,象征、标记、信物、礼券”等。作为形容词,又有“象征性、标志性、敷衍的”等多重含义。

不过和大语言模型(LLM)站在一起,它目前只会明确地指向一点:最小文本单元(也有人称:最基础的数据单元、最小语义单位)。

因为token和patch各自是语言生成模型和视频生成模型在运作时的最小工作单元,业内还涌现出了一句话,即“LLM有文本token,Sora有视觉patches”。

话说回来,虽然token是文本处理过程中最小的单元,但token并不专指词语,也可以是单词、字母、数字、标点符号等。

而且国内外的计算标准并不统一,按已有惯例,1个token≈1-1.8个汉字,而在英文文本中,1个token≈3-4个字母。

至于token在模型应用中发挥的作用,对于大模型生成原理有所了解的朋友可能知道:

在大模型在内容生成过程中,需要先把人们对话输入的文本转化成一个个的token,然后根据对上下文中的tokens信息的理解和分析,预测接下来应该生成的tokens内容,并将这些生成的tokens转换成人们熟悉的文本内容进行输出。

在整个过程中,token像极了人类与机器对话的“翻译官”,让不懂机器语言的普通人,也能跨越技术鸿沟,轻松和机器对话。

token和模型上下文的关系?

上面有提到,在模型下游任务的处理过程中,连续的文本序列会被分割为单个的token,在经语义分析和语言建模后,预测生成人们想要的内容。

不过,当输入和输出的tokens太多,模型需要处理、训练、推理的任务量也越大,如此一来,不仅模型生成质量和效率会打折扣,用户体验也会受影响。

为了避免出现这种情况,主流的大语言模型通常会设置一个token输入和输出的阈值,以免超出模型的最大处理能力。这个输出与输出的最大token额度,就是人们通常所说的模型上下文(窗口)长度。

比如GPT-4的上下文长度从一开始的4K逐渐拓展到了128K token(GPT-4 Turbo支持的上下文长度),Claude2将支持的上下文token提至200K,这意味着他们最大支持处理的token,其实相当于23-36万汉字。

越大的上下文窗口,一般意味着可接收和处理的信息量越多,交互和输出能力越强。这也是大模型的上下文token数量有些内卷的一大原因。

不过,过度追求上下文长度,容易导致过拟合现象,所以也不是支持的token量越多越好。

AI token=代币?

除了文本处理的最小单位,token+人工智能还因为“AI代币”这个涵义备受瞩目。

token和货币的联系,除了经常被通用模型服务商们按照token使用量来收费(据不完全统计,目前国内外大模型每1000 tokens收费在0.008元-0.876元人民币不等)。

还因为随着人们对AI关注度的持续高涨,尤其是ChatGPT等AI爆款产品的普及,推动token成了一种新型的货币替代品,被用在基于AI的应用程序或项目的交易、服务、投资协议等场景中。

比如有媒体报道有些AI 模型被开发者代币化发行,用于筹集发展资金。当买家购买代币,就可以按代币智能合约规则,享有AI模型后续的使用权益或创作分润等。这时的数字token某种程度上已经相当于可交易和转移的加密货币了。

写在最后

综上我们不难得出:token既是大模型文本处理的最小单位,也是最基础的计量计费单位,用于衡量产品服务使用量和商业化收费标准。

在大模型交互与生成过程中,自然语言被压缩成了token,预测生成token后又被转换成人们能够理解的文本信息。

它充当了人与机器的语言翻译官,让不同的人都能享受大模型生成能力带来的便利,同时极大地推动了通用人工智能的发展。

备注:首发司普科技,以上有参考decrypt、机器之心等,仅做分享。