Token通俗一些的理解

我们用大模型可能会看到”token used: xxxxx”,提示用了多少token,什么是token?这个概念确实有点抽象,但理解了它,你就能明白为什么AI有时会”算晕头”,或者为什么你的提问会被截断。

Token是一个多领域通用的概念,代表某种身份或信息的数字凭证/基本单元。在AI中,Token就是AI用来”数文字”的最小单位,可以直接将它理解成:AI世界的”字数”。

可以将Token理解为AI在”消化”你的话时,咬下来的最小”一口”

通俗一些讲,如果将词都拆成了单个的字,可能就没意义了,例如”路由器”,如果拆成”路”、”由”、”器”,这就没语义了,因此Token会将有含义的片段打包,让AI更容易理解。

我们可以用几个生活场景来类比:

1. 像吃油条

你将一整根油条(一句话)塞给AI,AI的嘴巴没那么大,它需要将油条咬成若干小口才能咽下去(处理)。

  • “我爱北京天安门” —— 它可能会咬成:"我""爱""北京""天安门"。这4口就是4个Token。
  • 注意:不是按字数算的。在英文里,一个单词可能是一口,也可能长单词会被咬成两半("un" + "believable")。在中文里,一个字通常是1个Token,但生僻字或特殊符号可能会占2-3个。

2. 像出租车计价器

你用AI就像坐出租车,Token就是那个”计价器”

  • 输入(你说话):起步价里包含一部分Token,你问的问题越长,跳表越远。
  • 输出(AI回答):AI说出来的每一个字,也在同时跳表。
  • 总价:输入Token + 输出Token = 这次对话的总费用

所以,如果你让AI”写一篇一万字的小说”,它并不是拒绝你,而是它的”钱包”(上下文窗口)装不下,或者算力成本太高了。

3. 像杯子和水龙头

AI有一个 “上下文窗口”,你可以理解成它手里拿着的那个杯子

  • 你们的对话(输入) + AI的回答(输出) = 杯子里的水
  • 这个杯子的大小是固定的(例如只有128k Token,约合几万个汉字)。
  • 如果你和它聊了一整天,水满出来了,AI就会”忘记”最早说的那句话(因为它会把最早的”水”倒掉,腾出空间装新的话)。

这就是为什么有时候AI聊着聊着就”断片”了,不是它记性差,是它的杯子(Token限制)满了。

4. 具体的数据

  • 1个汉字 ≈ 1.5 到 2 个 Token(因为AI内部用的是英文编码逻辑,处理中文会稍微”费牙口”)。
  • 1个英文单词 ≈ 0.75 个 Token(例如”Apple”是1个Token,”Congratulations”大概是3个Token)。

Token就是AI世界的基础货币和计量单位,它既是你输入问题的长度,也是AI回答问题的成本,还是AI记忆力的容积,你问得越细,它答得越长,Token消耗得越快。

声明:来自bisal的个人杂货铺,仅代表创作者观点。链接:https://eyangzhen.com/6930.html

bisal的个人杂货铺的头像bisal的个人杂货铺

相关推荐

添加微信
添加微信
Ai学习群
返回顶部