Автомасштабирование ML‑сервиса

Автомасштабирование — это умный механизм, который автоматически регулирует количество активных инстансов вашего ML-сервиса. Сервис подстраивается под потребности пользователей, обеспечивая максимальную производительность при высокой нагрузке и высвобождая ресурсы в периоды затишья.

По времени суток

Минимальное и максимальное количество инстансов можно установить в зависимости от времени суток. Настройки для отдельных периодов имеют приоритет над настройками без указания периода. Например, если задано количество инстансов от 2 до 3, а с 23:00 до 06:00 — от 0 до 1, то в этот период будет работать не более 1 инстанса.

Время указывайте по московскому часовому поясу (UTC+3).

к сведению

Если вы запускаете сервис в публичной ресурс-группе, минимальное количество инстансов должно быть равно 0.

По нагрузке

Для автомасштабирования можно использовать следующие метрики нагрузки:

Количество запросов к сервису в минуту.
Время ответа сервиса в миллисекундах.
Нагрузка CPU в millicores.
Количество активных запросов.

подсказка

Чтобы посмотреть текущие значения метрик нагрузки, перейдите в раздел Диагностика.

Для каждой метрики можно установить минимальное и максимальное значение: например, нагрузка CPU от 500 до 750. Caila стремится поддерживать среднюю нагрузку на инстанс в указанных пределах, насколько это возможно, при необходимости запускает дополнительные инстансы или удаляет их. Количество активных инстансов не выйдет за рамки минимального и максимального количества, которые действуют в текущий интервал времени.

Caila не остановит сервис только на основании метрик, даже если минимальное количество инстансов — 0. Для этого необходимо указать время простоя в минутах, спустя которое Caila уменьшит количество инстансов до минимального.

Как настроить

Выберите сервис и перейдите в Настройки → Хостинг.
Выберите режим Автоматический.
Раскройте группу настроек Управление инстансами.
Укажите минимальное и максимальное количество инстансов.
Чтобы изменить минимальное и максимальное количество инстансов в зависимости от времени суток, нажмите Добавить период и укажите настройки для каждого периода.
Укажите минимальные и максимальные значения метрик нагрузки.
Укажите время простоя в минутах, спустя которое будут остановлены все инстансы сверх минимального количества.
Нажмите Сохранить.

Настройки автомасштабирования применяются «на лету», без перезапуска сервиса.

События запуска и остановки инстансов ML-сервиса с указанием причины будут отображаться в разделе История событий.

подсказка

Вместе с автомасштабированием сервиса рекомендуем настроить автомасштабирование в ресурс-группе, где он запускается. Когда потребуется запустить новый инстанс сервиса, Caila проверит, достаточно ли для него ресурсов в группе, и если нет — сначала добавит сервер, а потом запустит на нем инстанс. И обратно: если после остановки инстанса на сервере не останется инстансов, Caila удалит сервер спустя время простоя, указанное в настройках группы.

Автомасштабирование ML‑сервиса

По времени суток​

По нагрузке​

Как настроить​

По времени суток

По нагрузке

Как настроить