Token长度限制的秘密：为什么GPT-4只有8K上下文？

GPT-4的8K上下文窗口是业界公认的“甜点”配置，但你知道这背后藏着多少技术博弈和现实妥协吗？别急着说“不够”，先看看这些限制到底是怎么来的。

首先得明白，Token不是简单的字符计数。GPT-4的8K上限指的是可处理的序列长度（sequence length），而每个Token的实际字节占用取决于模型使用的编码方式——比如GPT-3.5用BPE算法，一个中文汉字平均需要1~2个Token，英文单词可能只需1个。这意味着8K Token实际能承载的文本量可能是10万字符级别，但绝不是线性关系。

内存墙是硬约束。Transformer的自注意力机制复杂度是O(n²)，当序列长度n增加时，显存需求会呈平方级增长。假设一个模型每Token需要1KB显存，8K Token就要64MB，再乘上多头注意力和前馈网络的参数量，实际内存消耗很容易突破1GB。训练时梯度累积、推理时分块计算这些技巧都在拼命挤空间，但硬件厂商给的显存永远不够。

稀疏化是无奈的选择。OpenAI在GPT-4里用了局部注意力（Local Attention）和滑动窗口（Sliding Window），让长文档分段处理。比如读论文时，模型只保留当前段落和相邻段落的Key/Value，而不是全文。这种设计牺牲了全局连贯性，换来了可行性——如果强行全量处理，响应延迟可能从秒级飙到分钟级，谁等得起？

还有数据分布的锅。训练语料中超过8K长度的文本占比极低，强行扩展上下文窗口会导致模型学到无效模式。试想：如果99%的对话都是5句话以内，却要求GPT-4处理10页PDF，它大概率会把中间段落当噪声过滤掉。就像教小孩认字时突然塞给他一本字典，他只会记住几个高频词。

个人认为，8K是工程学与实用性的折衷点。对比之下，Mistral 7B用FlashAttention实现了32K，但代价是吞吐量下降；PaLM-2则通过稀疏专家混合（MoE）突破24K，但推理成本翻倍。没有绝对最优解，只有“够用就好”。

最后吐槽一句：总有人问“能不能无限长？”——这问题就像问“为什么自行车不能飞起来”。技术总有边界，与其幻想魔法，不如多关注怎么把现有资源榨干。毕竟，8K已经能让大多数场景爽到起飞了，对吧？