Автомасштабирование ML‑сервиса
Автомасштабирование — это умный механизм, который автоматически регулирует количество активных инстансов вашего ML-сервиса. Сервис подстраив ается под потребности пользователей, обеспечивая максимальную производительность при высокой нагрузке и высвобождая ресурсы в периоды затишья.
По времени суток
Минимальное и максимальное количество инстансов можно установить в зависимости от времени суток. Настройки для отдельных периодов имеют приоритет над настройками без указания периода. Например, если задано количество инстансов от 2 до 3, а с 23:00 до 06:00 — от 0 до 1, то в этот период будет работать не более 1 инстанса.
Время указывайте по московскому часовому поясу (UTC+3).
Если вы запускаете сервис в публичной ресурс-группе, минимальное количество инстансов должно быть равно 0.
По нагрузке
Для автомасштабирования можно использовать следующие метрики нагрузки:
- Количество запросов к сервису в минуту.
- Время ответа сервиса в миллисекундах.
- Нагрузка CPU в millicores.
- Количество активных запросов.
Чтобы посмотреть текущие значения метрик нагрузки, перейдите в раздел Диагностика.
Для каждой метрики можно установить минимальное и максимальное значение: например, нагрузка CPU от 500 до 750. Caila стрем ится поддерживать среднюю нагрузку на инстанс в указанных пределах, насколько это возможно, при необходимости запускает дополнительные инстансы или удаляет их. Количество активных инстансов не выйдет за рамки минимального и максимального количества, которые действуют в текущий интервал времени.
Caila не остановит сервис только на основании метрик, даже если минимальное количество инстансов — 0. Для этого необходимо указать время простоя в минутах, спустя которое Caila уменьшит количество инстансов до минимального.
Как настроить
- Выберите сервис и перейдите в Настройки → Хостинг.
- Выберите режим Автоматический.
- Раскройте группу настроек Управление инстансами.
- Укажите минимальное и максимальное количество инстансов.
- Чтобы изменить минимальное и максимальное количество инстансов в зависимости от времени суток, нажмите Добавить период и укажите настройки для каждого периода.
- Укажите минимальны е и максимальные значения метрик нагрузки.
- Укажите время простоя в минутах, спустя которое будут остановлены все инстансы сверх минимального количества.
- Нажмите Сохранить.
Настройки автомасштабирования применяются «на лету», без перезапуска сервиса.
События запуска и остановки инстансов ML-сервиса с указанием причины будут отображаться в разделе История событий.
Вместе с автомасштабированием сервиса рекомендуем настроить автомасштабирование в ресурс-группе, где он запускается. Когда потребуется запустить новый инстанс сервиса, Caila проверит, достаточно ли для него ресурсов в группе, и если нет — сначала добавит сервер, а потом запустит н а нем инстанс. И обратно: если после остановки инстанса на сервере не останется инстансов, Caila удалит сервер спустя время простоя, указанное в настройках группы.