Автомасштабирование ML‑сервисов
Автомасштабирование — это умный механизм, который автоматически регулирует количество активных инстансов вашего ML-сервиса. Сервис подстраивается под потребности пользователей, обеспечивая максимальную производительность при высокой нагрузке и высвобождая ресурсы в периоды затишья.
Предусмотрено автомасштабирование на основе следующих метрик:
- Количество запросов к сервису в минуту.
- Время ответа сервиса в миллисекундах.
- Нагрузка CPU в millicores.
- Количество активных запросов.
Caila рассчитывает оптимальное количество инстансов для заданных параметров, при необходимости запускает дополнительные инстансы или удаляет их.
Минимальное и максимальное количество инстансов можно настраивать в зависимости от времени суток.
Чтобы оптимизировать затраты, рекомендуем настроить автомасштабирование и для ресурс-группы, в которой запускается ML-сервис. Это позволит Caila автоматически добавлять серверы при необходимости запуска новых инстансов и удалять, когда они больше не нужны.
Подробную информацию об автомасштабировании вы найдете в документации.



