Как запустить LLM из Hugging Face в Caila
Hugging Face — крупнейший хостинг моделей машинного обучения.
На платформе Caila вы можете развернуть любую языковую модель из Hugging Face без необходимости писать код.
Такую возможность предоставляет сервис-прототип vllm-prototype на основе библиотеки vLLM.
Как это работает:
- Оцените требуемое количество видеопамяти.
- Склонируйте сервис из прототипа, выбрав подходящий сервер.
- Укажите модель в настройках и запустите сервис.
Оценка VRAM
Чтобы выбрать сервер для развертывания модели, необходимо рассчитать требуемое количество видеопамяти. Воспользуйтесь калькулятором VRAM или следующей формулой:
VRAM ≈ Размер весов + Размер кэша
Размер весов
В карточке модели на Hugging Face найдите свойства Model size (количество параметров) и Tensor type.
Определите размер одного параметра по таблице:
| Tensor type | Param size |
|---|---|
| TF32/FP32 | 4 байта |
| BF16/FP16 | 2 байта |
| INT8 | 1 байт |
| INT4 | 0,5 байт |
Размер весов = Model size × Param size.