Автомасштабирование ML‑сервисов

3 июня 2025 г.

Автомасштабирование — это умный механизм, который автоматически регулирует количество активных инстансов вашего ML-сервиса. Сервис подстраивается под потребности пользователей, обеспечивая максимальную производительность при высокой нагрузке и высвобождая ресурсы в периоды затишья.

Предусмотрено автомасштабирование на основе следующих метрик:

Количество запросов к сервису в минуту.
Время ответа сервиса в миллисекундах.
Нагрузка CPU в millicores.
Количество активных запросов.

Caila рассчитывает оптимальное количество инстансов для заданных параметров, при необходимости запускает дополнительные инстансы или удаляет их.

Минимальное и максимальное количество инстансов можно настраивать в зависимости от времени суток.

Чтобы оптимизировать затраты, рекомендуем настроить автомасштабирование и для ресурс-группы, в которой запускается ML-сервис. Это позволит Caila автоматически добавлять серверы при необходимости запуска новых инстансов и удалять, когда они больше не нужны.

Подробную информацию об автомасштабировании вы найдете в документации.