VRAM Калькулятор — Сколько видеопамяти нужно для LLM

Как рассчитать VRAM?

Объём видеопамяти для запуска языковой модели зависит от количества параметров и точности вычислений:

FP16 (16 бит) — 2 байта на параметр. Полная точность, максимальное качество.

INT8 (8 бит) — 1 байт на параметр. Минимальная потеря качества, вдвое меньше памяти.

INT4 (4 бита) — 0.5 байт на параметр. Заметная потеря качества, но модель помещается на бюджетные GPU.

Формула: VRAM (ГБ) = параметры × байт_на_параметр × 1.15 / 10⁹, где 1.15 — коэффициент на KV-кэш, активации и фреймворк.

Сколько видеопамяти необходимо?

Формула выше показывает минимум VRAM для загрузки весов модели. На практике видеопамять расходуется не только на LLM — и это важно учитывать при планировании.

KV-кэш и батчинг. При обработке длинных промптов или нескольких запросов одновременно KV-кэш может занимать от 1 до 10+ ГБ сверх весов модели. Чем длиннее контекст и больше параллельных запросов, тем больше дополнительной памяти нужно.

Удалённый рабочий стол (RDP/VNC). Если вы подключаетесь к серверу через RDP, видеодрайвер резервирует часть VRAM под отрисовку рабочего стола — обычно 200-500 МБ, но на высоких разрешениях и с несколькими мониторами может доходить до 1-2 ГБ. Если LLM уже занимает почти всю память, RDP-подключение может получить чёрный экран, а модель — ошибку OOM.

Другие процессы на GPU. Системный десктоп, браузер, видеоплеер, ComfyUI, Jupyter — всё это потребляет VRAM. На выделенном сервере без GUI эта проблема отсутствует, но на рабочей станции нужно закладывать запас 1-2 ГБ.

Рекомендация: выбирайте GPU с запасом VRAM не менее 15-20% от расчётного минимума. Для продакшен-инференса на выделенном сервере без GUI — достаточно 10%.

VRAM Калькулятор для AI моделей

Рассчитай, сколько видеопамяти нужно для запуска нейросети