Диагностика и мониторинг ML-сервиса
Платформа Caila позволяет в реальном времени отслеживать состояние инстансов ML-сервиса, анализировать их производительность, просматри вать логи и получать прямой доступ к командной строке контейнера. Это помогает находить и устранять проблемы, а также оптимизировать работу сервисов.
Доступные возможности диагностики зависят от типа развертывания ресурс-группы и варианта запуска сервиса:
- В ресурс-группах с типом развертывания Kubernetes доступен полный набор инструментов, включая графики потребления ресурсов, детализированные события и скачивание файлов.
- В ресурс-группах с типом развертывания Docker доступны базовые инструменты, такие как просмотр логов и доступ к консоли.
- Для сервисов, использующих внешнее или отладочное подключение, диагностика недоступна.
Выбор инстанса
В карточке ML-сервиса перейдите в раздел Диагностика.
В списке можно выбрать определенный инстанс или значение «Все».
Если выбран определенный инстанс, отображается его статус, количество рестартов, а также сервер, на котором работает инстанс (сервер может не отображаться для некоторых сервисов с устаревшей конфигурацией).
Графики нагрузки
Графики на вкладке Мониторинг и события помогают анализировать нагрузку на сервис, чтобы вовремя выявлять проблемы и оптимально подобрать лимиты ресурсов и настройки автомасштабирования.
- Потребление CPU и памяти — отображаются, если сервис запущен в ресурс-группе с типом развертывания Kubernetes.
- Потребление VRAM — отображается, если сервис запущен в ресурс-группе с типом развертывания Kubernetes, а в настройках сервиса задан лимит VRAM.
- Время ответа сервиса, RPM, количество запросов в обработке — для просмотра графиков выберите все инстансы.
История событий
В разделе История событий в карточке сервиса отражаются события, регистрируемые на уровне платформы: создание сервиса, изменение параметров, запуск и остановка инстанса, загрузка образа.
Для сервисов, запущенных в ресурс-группе с типом Kubernetes, на вкладке Диагностика → Мониторинг и события отображаются события, регистрируемые на уровне Kubernetes.
Логи
Логи содержат стандартный поток вывода (stdout и stderr) вашего приложения в реальном времени. Они помогают понять, что происходит внутри контейнера.
Для просмотра логов в разделе Диагностика выберите инстанс и перейдите на вкладку Логи. Чтобы найти определенные записи в логах, используйте строку поиска в окне терминала.
Объем данных в окне ограничен. Чтобы скачать полный лог с момента запуска инстанса (до 20 Мб), нажмите Выгрузить логи. В ресурс-группах с типом Docker выгрузка логов доступна и после остановки инстанса: пока не удален сервер, но не более часа.
Интерактивная консоль
Консоль предоставляет доступ к командной строке внутри Docker-контейнера (но не сервера, где он запущен).
В консоли можно выполнить команды для отладки и диагностики — например, посмотреть содержимое директории с помощью ls, проверить доступность других сервисов из контейнера с помощью ping или curl.
Чтобы открыть консоль, в разделе Диагностика выберите инстанс и перейдите на вкладку Консоль.
Файл из контейнера
Если сервис запущен в ресурс-группе с типом развертывания Kubernetes или SHARED_RESOURCE_QUOTA, из контейнера можно скачать любой файл — например, промежуточные отчеты, если сервис генерирует их в процессе работы. Для этого в разделе Диагностика выберите инстанс, нажмите → Скачать файл и введите путь к файлу.
Переменные окружения
Чтобы исключить ошибки, связанные с неверной конфигурацией, полезно проверить, какие параметры (ключи, адреса и т. д.) были переданы в инстанс при запуске.
Чтобы скопировать параметры, в разделе Диагностика выберите инстанс и нажмите → Env-переменные.