Диагностика и мониторинг ML-сервиса

Платформа Caila позволяет в реальном времени отслеживать состояние инстансов ML-сервиса, анализировать их производительность, просматривать логи и получать прямой доступ к командной строке контейнера. Это помогает находить и устранять проблемы, а также оптимизировать работу сервисов.

Доступные возможности диагностики зависят от типа развертывания ресурс-группы и варианта запуска сервиса:

В ресурс-группах с типом развертывания Kubernetes доступен полный набор инструментов, включая графики потребления ресурсов, детализированные события и скачивание файлов.
В ресурс-группах с типом развертывания Docker доступны базовые инструменты, такие как просмотр логов и доступ к консоли.
Для сервисов, использующих внешнее или отладочное подключение, диагностика недоступна.

Выбор инстанса

В карточке ML-сервиса перейдите в раздел Диагностика.

В списке можно выбрать определенный инстанс или значение «Все».

Если выбран определенный инстанс, отображается его статус, количество рестартов, а также сервер, на котором работает инстанс (сервер может не отображаться для некоторых сервисов с устаревшей конфигурацией).

Графики нагрузки

Графики на вкладке Мониторинг и события помогают анализировать нагрузку на сервис, чтобы вовремя выявлять проблемы и оптимально подобрать лимиты ресурсов и настройки автомасштабирования.

Потребление CPU и памяти — отображаются, если сервис запущен в ресурс-группе с типом развертывания Kubernetes.
Потребление VRAM — отображается, если сервис запущен в ресурс-группе с типом развертывания Kubernetes, а в настройках сервиса задан лимит VRAM.
Время ответа сервиса, RPM, количество запросов в обработке — для просмотра графиков выберите все инстансы.

История событий

В разделе История событий в карточке сервиса отражаются события, регистрируемые на уровне платформы: создание сервиса, изменение параметров, запуск и остановка инстанса, загрузка образа.

Для сервисов, запущенных в ресурс-группе с типом Kubernetes, на вкладке Диагностика → Мониторинг и события отображаются события, регистрируемые на уровне Kubernetes.

Логи

Логи содержат стандартный поток вывода (stdout и stderr) вашего приложения в реальном времени. Они помогают понять, что происходит внутри контейнера.

Для просмотра логов в разделе Диагностика выберите инстанс и перейдите на вкладку Логи. Чтобы найти определенные записи в логах, используйте строку поиска в окне терминала.

Объем данных в окне ограничен. Чтобы скачать полный лог с момента запуска инстанса (до 20 Мб), нажмите Выгрузить логи. В ресурс-группах с типом Docker выгрузка логов доступна и после остановки инстанса: пока не удален сервер, но не более часа.

Интерактивная консоль

Консоль предоставляет доступ к командной строке внутри Docker-контейнера (но не сервера, где он запущен). В консоли можно выполнить команды для отладки и диагностики — например, посмотреть содержимое директории с помощью ls, проверить доступность других сервисов из контейнера с помощью ping или curl.

Чтобы открыть консоль, в разделе Диагностика выберите инстанс и перейдите на вкладку Консоль.

Файл из контейнера

Если сервис запущен в ресурс-группе с типом развертывания Kubernetes или SHARED_RESOURCE_QUOTA, из контейнера можно скачать любой файл — например, промежуточные отчеты, если сервис генерирует их в процессе работы. Для этого в разделе Диагностика выберите инстанс, нажмите → Скачать файл и введите путь к файлу.

Переменные окружения

Чтобы исключить ошибки, связанные с неверной конфигурацией, полезно проверить, какие параметры (ключи, адреса и т. д.) были переданы в инстанс при запуске.

Чтобы скопировать параметры, в разделе Диагностика выберите инстанс и нажмите → Env-переменные.

Выбор инстанса​

Графики нагрузки​

История событий​

Логи​

Интерактивная консоль​

Файл из контейнера​

Переменные окружения​