Как рассчитать VRAM?
Объём видеопамяти для запуска языковой модели зависит от количества параметров и точности вычислений:
FP16 (16 бит) — 2 байта на параметр. Полная точность, максимальное качество.
INT8 (8 бит) — 1 байт на параметр. Минимальная потеря качества, вдвое меньше памяти.
INT4 (4 бита) — 0.5 байт на параметр. Заметная потеря качества, но модель помещается на бюджетные GPU.
Формула: VRAM (ГБ) = параметры × байт_на_параметр × 1.15 / 10⁹,
где 1.15 — коэффициент на KV-кэш, активации и фреймворк.
Сколько видеопамяти необходимо?
Формула выше показывает минимум VRAM для загрузки весов модели. На практике видеопамять расходуется не только на LLM — и это важно учитывать при планировании.
KV-кэш и батчинг. При обработке длинных промптов или нескольких запросов одновременно KV-кэш может занимать от 1 до 10+ ГБ сверх весов модели. Чем длиннее контекст и больше параллельных запросов, тем больше дополнительной памяти нужно.
Удалённый рабочий стол (RDP/VNC). Если вы подключаетесь к серверу через RDP, видеодрайвер резервирует часть VRAM под отрисовку рабочего стола — обычно 200-500 МБ, но на высоких разрешениях и с несколькими мониторами может доходить до 1-2 ГБ. Если LLM уже занимает почти всю память, RDP-подключение может получить чёрный экран, а модель — ошибку OOM.
Другие процессы на GPU. Системный десктоп, браузер, видеоплеер, ComfyUI, Jupyter — всё это потребляет VRAM. На выделенном сервере без GUI эта проблема отсутствует, но на рабочей станции нужно закладывать запас 1-2 ГБ.
Рекомендация: выбирайте GPU с запасом VRAM не менее 15-20% от расчётного минимума. Для продакшен-инференса на выделенном сервере без GUI — достаточно 10%.