什么是token？一直没弄明白，这下懂了…

了解人工智能的第一天起，可能我们都有意无意遇到过一个词：token。

这个看起来技术性十足的词，频频出现在学者、销售、市场、运营甚至财务人员等各色职业人群的口中。

到底什么是token？它和大语言模型、窗口长度有怎样的关联？

如果你也好奇，下面跟随司普科技1号解说员小司一起来看看。

什么是token？

网上直搜token，很多人可能感到眼花缭乱。

作为名词，token既表示“代币，象征、标记、信物、礼券”等。作为形容词，又有“象征性、标志性、敷衍的”等多重含义。

不过和大语言模型（LLM）站在一起，它目前只会明确地指向一点：最小文本单元（也有人称：最基础的数据单元、最小语义单位）。

因为token和patch各自是语言生成模型和视频生成模型在运作时的最小工作单元，业内还涌现出了一句话，即“LLM有文本token，Sora有视觉patches”。

话说回来，虽然token是文本处理过程中最小的单元，但token并不专指词语，也可以是单词、字母、数字、标点符号等。

而且国内外的计算标准并不统一，按已有惯例，1个token≈1-1.8个汉字，而在英文文本中，1个token≈3-4个字母。

至于token在模型应用中发挥的作用，对于大模型生成原理有所了解的朋友可能知道：

在大模型在内容生成过程中，需要先把人们对话输入的文本转化成一个个的token，然后根据对上下文中的tokens信息的理解和分析，预测接下来应该生成的tokens内容，并将这些生成的tokens转换成人们熟悉的文本内容进行输出。

在整个过程中，token像极了人类与机器对话的“翻译官”，让不懂机器语言的普通人，也能跨越技术鸿沟，轻松和机器对话。

token和模型上下文的关系？

上面有提到，在模型下游任务的处理过程中，连续的文本序列会被分割为单个的token，在经语义分析和语言建模后，预测生成人们想要的内容。

不过，当输入和输出的tokens太多，模型需要处理、训练、推理的任务量也越大，如此一来，不仅模型生成质量和效率会打折扣，用户体验也会受影响。

为了避免出现这种情况，主流的大语言模型通常会设置一个token输入和输出的阈值，以免超出模型的最大处理能力。这个输出与输出的最大token额度，就是人们通常所说的模型上下文（窗口）长度。

比如GPT-4的上下文长度从一开始的4K逐渐拓展到了128K token（GPT-4 Turbo支持的上下文长度），Claude2将支持的上下文token提至200K，这意味着他们最大支持处理的token，其实相当于23-36万汉字。

越大的上下文窗口，一般意味着可接收和处理的信息量越多，交互和输出能力越强。这也是大模型的上下文token数量有些内卷的一大原因。

不过，过度追求上下文长度，容易导致过拟合现象，所以也不是支持的token量越多越好。

AI token＝代币？

除了文本处理的最小单位，token+人工智能还因为“AI代币”这个涵义备受瞩目。

token和货币的联系，除了经常被通用模型服务商们按照token使用量来收费（据不完全统计，目前国内外大模型每1000 tokens收费在0.008元-0.876元人民币不等）。

还因为随着人们对AI关注度的持续高涨，尤其是ChatGPT等AI爆款产品的普及，推动token成了一种新型的货币替代品，被用在基于AI的应用程序或项目的交易、服务、投资协议等场景中。

比如有媒体报道有些AI 模型被开发者代币化发行，用于筹集发展资金。当买家购买代币，就可以按代币智能合约规则，享有AI模型后续的使用权益或创作分润等。这时的数字token某种程度上已经相当于可交易和转移的加密货币了。

写在最后

综上我们不难得出：token既是大模型文本处理的最小单位，也是最基础的计量计费单位，用于衡量产品服务使用量和商业化收费标准。

在大模型交互与生成过程中，自然语言被压缩成了token，预测生成token后又被转换成人们能够理解的文本信息。

它充当了人与机器的语言翻译官，让不同的人都能享受大模型生成能力带来的便利，同时极大地推动了通用人工智能的发展。

什么是token？一直没弄明白，这下懂了…

什么是token？

token和模型上下文的关系？

AI token＝代币？

写在最后

泽连斯基抵达新加坡将参加香格里拉对话会

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

中泰赛后龚翔宇崩溃大哭！全年无休太累，又无靠谱替补！蔡斌的锅

多地市委书记晋升副省长候补中央委员跨省履新

嫦娥六号着陆月背南极-艾特肯盆地

家长带女孩在田地里学插秧孩子情绪崩溃坐在田里哭

媒体：美国海军未来战舰又栽进"坑里" 出现一系列麻烦

已开售！从长沙坐高铁去广州，最多将便宜107元

湖南先行一步，规定除猪牛羊外，鸡鹅鸭等也要统一屠宰，太创意了

要想拉动经济增长，还得看小县城的公务员

价格大跳水!上海很多人爱吃商家:从未见过如此大降价

创造历史！张志磊第五回合KO维尔德，重拳轰倒对手，高喊中国力量

距离发射不到四分钟！波音取消了“星际客机”载人试飞任务

衣锦还乡的黄仁勋说了什么？

保定一商场三楼以上全装上网，抬头望去密密麻麻！

超30%，创世界纪录！我国这一研究领域获重大突破

大冷！郑钦文遭误判1-2抢十被逆转无缘法网16强中国单打团灭

网友建议办泼水节，重庆文旅委：具有典型地域特色，不宜复制

山东一国企煤矿食堂增设“减脂餐”，遭嘲讽：不如多给矿工加点肉

香港→上海 C919首次境外商业飞行

什么是token？一直没弄明白，这下懂了…

什么是token？

token和模型上下文的关系？

AI token＝代币？

写在最后

泽连斯基抵达新加坡 将参加香格里拉对话会

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

中泰赛后龚翔宇崩溃大哭！全年无休太累，又无靠谱替补！蔡斌的锅

多地市委书记晋升副省长 候补中央委员跨省履新

嫦娥六号着陆月背南极-艾特肯盆地

家长带女孩在田地里学插秧 孩子情绪崩溃坐在田里哭

媒体：美国海军未来战舰又栽进"坑里" 出现一系列麻烦

已开售！从长沙坐高铁去广州，最多将便宜107元

湖南先行一步，规定除猪牛羊外，鸡鹅鸭等也要统一屠宰，太创意了

要想拉动经济增长，还得看小县城的公务员

价格大跳水!上海很多人爱吃 商家:从未见过如此大降价

创造历史！张志磊第五回合KO维尔德，重拳轰倒对手，高喊中国力量

距离发射不到四分钟！波音取消了“星际客机”载人试飞任务

衣锦还乡的黄仁勋说了什么？

保定一商场三楼以上全装上网，抬头望去密密麻麻！

超30%，创世界纪录！我国这一研究领域获重大突破

大冷！郑钦文遭误判1-2抢十被逆转 无缘法网16强中国单打团灭

网友建议办泼水节，重庆文旅委：具有典型地域特色，不宜复制

山东一国企煤矿食堂增设“减脂餐”，遭嘲讽：不如多给矿工加点肉

香港→上海 C919首次境外商业飞行

泽连斯基抵达新加坡将参加香格里拉对话会

多地市委书记晋升副省长候补中央委员跨省履新

家长带女孩在田地里学插秧孩子情绪崩溃坐在田里哭

价格大跳水!上海很多人爱吃商家:从未见过如此大降价

大冷！郑钦文遭误判1-2抢十被逆转无缘法网16强中国单打团灭