AI
LLM
Почему один символ ломает кэш: prompt caching под капотом
Вторая часть серии про prompt caching. Лезем в исходники vLLM и paged attention, чтобы увидеть байтовую причину под правилом "стабильное в начало, изменчивое в хвост": что физически лежит на GPU и почему одного символа хватает, чтобы обрушить весь кэш.
26 июня 2026