Как запустить LLM из Hugging Face в Caila
Hugging Face — крупнейший хостинг моделей машинного обучения.
На платформе Caila вы можете развернуть любую языковую модель из Hugging Face без необходимости писать код.
Такую возможность предоставляет сервис-прототип vllm-prototype на основе библиотеки vLLM.
Как это работает:
- Оцените требуемое количество видеопамяти.
- Склонируйте сервис из прототипа, выбрав подходящий сервер.
- Укажите модель в настройках и запустите сервис.
Оценка VRAM
Чтобы выбрать сервер для развертывания модели, необходимо рассчитать требуемое количество видеопамяти. Воспользуйтесь калькулятором VRAM или следующей формулой:
VRAM ≈ Размер весов + Размер кэша
Размер весов
В карточке модели на Hugging Face найдите свойства Model size (количество параметров) и Tensor type.
Определите размер одного параметра по таблице:
| Tensor type | Param size |
|---|---|
| TF32/FP32 | 4 байта |
| BF16/FP16 | 2 байта |
| INT8 | 1 байт |
| INT4 | 0,5 байт |
Размер весов = Model size × Param size.
Размер кэша
Размер кэша = 2 × Batch size × Max tokens × Num layers × Hidden size × Param size,
где:
-
Batch size — количество запросов в пачке, для простоты можно считать равным 1.
-
Max tokens — максимальный контекст окна контекста модели (
MAX_TOKENSиз настроек ML-сервиса). -
Num layers — количество трансформерных слоев в архитектуре модели. Если нет данных, можно использовать следующие оценки в зависимости от размера модели:
- малая модель (~1B параметров) — 12–24 слоя;
- средняя (~7B параметров) — 32–40 слоев;
- большая (~70B параметров) — 80–100 слоев.
-
Hidden size — размерность векторов в скрытом состоянии модели. Если нет данных, можно использовать следующие оценки в зависимости от размера модели:
- малая модель — 768–1024;
- средняя — 2048–4096;
- большая — 4096–8192.
-
Param size — размер параметра, см. таблицу.
Создание сервиса из прототипа
-
Откройте карточку сервиса vllm-prototype в каталоге Caila.
-
Нажмите Клонировать и запустить.
-
Отредактируйте название сервиса, если требуется. Отредактируйте название сервиса, если требуется. Ссылка на сервис изменится автоматически.
-
Выберите сервер для его развертывания с учетом требуемой VRAM:
Сервер VRAM immers-a2-4-1616 Гб immers-3080-8-1616 Гб immers-t4-8-3216 Гб selectel-t4-8-3216 Гб immers-3090-8-3224 Гб selectel-a5000-8-3224 Гб immers-h100-16-12880 Гб подсказкаЕсли не подходит ни один из предложенных серверов, выберите любой. После клонирования создайте ресурс-группу с подходящим сервером, инструкцию смотрите в разделе Создание ресурс-группы. Для малых моделей рекомендуем сервер
immers-4090-8-32. -
Отметьте вариант Запустить позже вручную.
Редактирование настроек и запуск
-
В карточке склонированного сервиса перейдите к редактированию настроек: в разделе Настройки на вкладке Основные нажмите .
-
Отредактируйте Переменные среды:
MAX_TOKENS— максимальный размер окна контекста модели, по умолчанию8000токенов.BASE_PATH— путь к модели в контейнере, оставьте значение.(точка).DOWNLOAD— оставьтеtrueдля скачивания модели с Hugging Face.MODEL— название модели из Hugging Face (например,deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B).TENSOR_PARALLEL_DYNAMIC— автоматическое задание опцииtensor-parallel-sizeна основе количества доступных GPU.VLLM_ENGINE_ITERATION_TIMEOUT_S— тайм-аут каждой итерации в vLLM для предотвращения ошибок при долгом инференсе, по умолчанию 160 секунд.OPTS— дополнительные параметры командной строки для vLLM, которые можно найти в документации.HF_TOKEN— токен доступа к Hugging Face, необходим для загрузки платных моделей и моделей с особыми условиями использования.
-
Сохраните настройки.
-
Перейдите на вкладку Хостинг. Если требуется, измените ресурс-группу, созданную при клонировании сервиса.
-
В блоке Управление инстансами нажмите .
Подробнее об управлении ML-сервисом читайте в разделах: