大模型按Token收费：这钱到底花在哪儿？

先扔个结论：按Token收费本质上是把算力成本、训练投入和稀缺资源货币化，而不是单纯"字数计费"。但现实是，很多人以为自己在付"阅读费"，其实是在买GPU的呼吸权。

Token计价看似简单（比如GPT-4每千Token $0.03），但拆解后全是暗流涌动的技术账本。以LLaMA 7B为例，单次推理需要约16GB显存，而A100显卡的功耗是300W。假设电费￥0.8/度，每毫秒推理成本就是0.00024元——这就是Token定价的底层锚点。

为什么不用字符数或句子数？因为人类对"信息量"的感知和机器根本不在一个维度。一段500字的英文论文可能只有120个Token（取决于BPE分词器），但同等长度的中文会多30% Token量。微软研究显示，GPT-3处理法律文档时，专业术语的Token密度是日常对话的5倍——这才是商业精算的核心。

最骚的是训练阶段的沉没成本分摊。OpenAI估算训练GPT-3耗资10亿美元，这部分费用最终会通过API定价传导给用户。但有个残酷事实：当你的Prompt被拆解成150个Token时，你实际支付的可能是某个数据中心去年电费账单的百万分之一级。

行业有个潜规则：低价区（<100 Token）其实是测试用户，真正赚钱的来自长文档解析。某大厂内部数据表明，医疗问诊场景平均Token消耗是客服场景的17倍，但后者单价反而低40%。这不是技术问题，而是市场策略——用高频低价培养习惯，再收割高价值长尾需求。

至于有人说"太贵了"，建议先做两件事：

最后吐槽一句：某些平台把"免费额度"藏在条款第8.2小节的行为，本质上和按Token收费一样，都是把羊毛出在羊身上。不过至少Token计费透明，至少比那种"突然涨价且不通知"的做法体面点儿。