Перейти к основному содержимому

MCP-серверы

В этом релизе Caila добавлена поддержка MCP-серверов, пошаговый мастер создания всех типов сервисов, автоматическая генерация документации, а также повышена надежность и стабильность работы.

  • MCP-серверы: платформа предоставляет готовые MCP-серверы и прототипы для запуска — их можно найти в разделе каталога MCP-серверы, а также возможность развернуть свой MCP-сервер из Docker-образа или NPM-пакета (смотрите подробную инструкцию).

  • Пошаговый мастер создания сервисов. Теперь создание сервиса начинается с выбора типа:

    • MLP-сервис;
    • MCP-сервер;
    • Веб-приложение.

    Дальнейшие шаги и набор настроек адаптированы для выбранного типа.

  • Автогенерация документации: для созданного сервиса формируется инструкция по его использованию с примерами запросов. Отображается в разделе Обзор карточки сервиса с пометкой «Создано автоматически» и доступна для редактирования.

  • Автоматический перезапуск проблемных инстансов: платформа отслеживает работу ML-сервисов и перезапускает их, если количество ошибок обработки запросов выше порога.

  • Исправлена некорректная обработка стрим-ответов адаптеров по методу predict-with-config-stream.

Nano Banana Pro, Fal.ai и Gamma

В этом релизе Caila добавлены новые ML-модели, поддержка нативного формата Claude, получение баланса по API, а также улучшения биллинга и UX.

Новые модели

  • Nano Banana Pro (Gemini 3 Pro Image Preview) — новая модель от Google для генерации изображений по текстовому описанию. Доступна в сервисе Google / Gemini Image. В запросе укажите модель gemini-3-pro-image-preview.
  • Fal.ai — новый сервис-адаптер для генерации видео: image-to-video или text-to-video. Доступные модели указаны в описании сервиса.
  • Gamma — новый сервис-адаптер для генерации презентаций.

Sora 2, мастер создания сервиса и детализация расходов

Ключевые обновления в этом релизе:

  • Sora 2: новейшая модель для генерации видео теперь доступна в РФ с оплатой в рублях. Подробнее
  • Гибкий выбор провайдера для доступа к моделям OpenAI. Подробнее
  • Детализация расходов: можно посмотреть данные в разбивке по моделям и заголовку Z-billingId в API-запросах. Подробнее
  • Мастер создания ML-сервиса: единый пользовательский путь включает все необходимые операции и сокращает время запуска сервиса. Подробнее

Контроль потребления VRAM и GPU, доступ к веб-приложениям

Ключевые обновления в этом релизе:

  • Контроль потребления VRAM и GPU: в настройках ML-сервиса теперь можно ограничить объем VRAM, количество и процент использования GPU на один инстанс. Если задан лимит VRAM, в разделе Диагностика можно посмотреть график потребления.
  • Авторизация через Caila: настройка приложения позволяет отключить обязательную авторизацию и открыть доступ к веб-интерфейсу для внешних пользователей.
  • Массовый перезапуск сервисов: на страницу образа добавлена кнопка для перезапуска всех сервисов на базе этого образа.
  • Отказоустойчивость openai-proxy: добавлены дополнительные маршруты и провайдеры, чтобы снизить вероятность сбоев.
  • Детализированный аудит: для операций редактирования теперь фиксируются не только измененные поля, но и их новые значения.
  • Мобильная версия Multi Сhat: сравнивать ответы моделей можно даже с телефона.

Открытые языковые модели gpt-oss

Встречайте передовые модели gpt-oss от OpenAI, которые демонстрируют отличные результаты в задачах, требующих логического мышления (reasoning) и использования внешних инструментов.

В каталог сервисов Caila добавлены прототипы для быстрого развертывания:

  • gpt-oss-120b — флагманская модель, разработанная для решения самых сложных задач и конкуренции с ведущими проприетарными моделями. Достигает производительности, близкой к OpenAI o4-mini, при этом эффективно работая на одной GPU с 80 Гб памяти (например, Tesla A100).
  • gpt-oss-20b — компактная модель, сравнимая по качеству с OpenAI o3-mini. Оптимальна для быстрой разработки и прототипирования.

Клонируйте прототип и запустите свой сервис всего в пару кликов. Платформа сразу предложит арендовать подходящий сервер.

Начните экспериментировать с gpt-oss уже сегодня!

Переобучение без риска и проверка ресурсов до запуска

Ключевые обновления:

  • Сохранение текущего состояния при переобучении: во время переобучения и в случае его сбоя ML-сервис продолжает работать с прежними весами.

  • Учет ресурсов серверов перед запуском инстанса: платформа проверяет, есть ли в ресурс-группе шаблон сервера с нужными характеристиками, и если нет — выдает понятную ошибку без попытки запуска. Механизм уже работает для большинства сценариев.

Улучшения пользовательского опыта:

  • Подсказки в настройках ML-сервисов объясняют влияние параметров на работу модели и упрощают подбор конфигурации без обращения к документации.
  • Исправлена работа консоли на вкладке Диагностика: корректное перемещение курсора, удобное выделение текста; восстановлена кнопка разворачивания на весь экран.
  • На вкладке Диагностика отображается количество рестартов выбранного инстанса — теперь и для ML-сервисов, развернутых в ресурс-группах с типом «Docker».
  • В разделе Биллинг месяцы, за которые нет данных, недоступны для выбора.

Контроль доступа:

  • При обращении к API-методам адаптеров без auth-токена теперь возвращается корректный статус 401 Unauthorized (ранее — 400).

Релиз 10.07.2025

В новый релиз Caila включены доработки для улучшения безопасности и контроля:

  • Настройка лимитов для API-ключей: возможность устанавливать ограничения на сумму расходов за период, размер запроса, количество запросов в минуту, ML-сервисы и модели, к которым разрешено делать запросы.
  • Email-уведомления о том, что время жизни API-ключа скоро истекает.
  • Аудит действий пользователей: Caila протоколирует создание, изменение и удаление основных объектов — ML-сервисов, образов, датасетов, ресурс-групп, серверов и т. д. Отчет доступен администраторам аккаунта в разделе Аккаунты в Conversational Cloud.

Релиз 23.06.2025

  • Интеграция с Vast.ai. Платформа облачных вычислений Vast.ai предоставляет широкий выбор серверов с GPU. При создании ресурс-группы с типом деплоймента «Vast.ai» доступны фильтры по характеристикам серверов, в том числе по цене. При запуске инстансов ML-сервиса в такой ресурс-группе серверы добавляются автоматически.

    Обратите внимание:

    • Серверы Vast.ai находятся за рубежом.
    • Vast.ai не гарантирует бесперебойную работу серверов, поэтому не рекомендуется размещать на них сервисы, для которых критически важна постоянная доступность.
  • Разграничение доступа для API-ключей: при создании ключа можно назначить ему права на запросы к ML-сервисам, чтение или изменение данных в аккаунте.

  • Логи остановленных инстансов теперь остаются доступными для выгрузки в течение часа (при условии, что сервер продолжает работать).

  • В дополнение к названию ML-сервиса теперь можно указать компанию-разработчика.

LLM из Hugging Face

На платформе Caila вы можете развернуть любую языковую модель из Hugging Face — быстро и без необходимости писать код. Такую возможность предоставляет сервис-прототип vllm-prototype.

Как это работает:

  1. Выберите подходящий сервер с почасовой оплатой.
  2. Склонируйте сервис из прототипа и укажите модель в настройках.
  3. Запустите сервис.

Всё готово! Вы можете отправлять запросы к LLM через стандартные интерфейсы Caila: Predict API и OpenAI adapter.

Тестируйте, исследуйте и внедряйте языковые модели без лишних трудозатрат!

Автомасштабирование ML‑сервисов

Автомасштабирование — это умный механизм, который автоматически регулирует количество активных инстансов вашего ML-сервиса. Сервис подстраивается под потребности пользователей, обеспечивая максимальную производительность при высокой нагрузке и высвобождая ресурсы в периоды затишья.

Предусмотрено автомасштабирование на основе следующих метрик:

  • Количество запросов к сервису в минуту.
  • Время ответа сервиса в миллисекундах.
  • Нагрузка CPU в millicores.
  • Количество активных запросов.

Caila рассчитывает оптимальное количество инстансов для заданных параметров, при необходимости запускает дополнительные инстансы или удаляет их.

Минимальное и максимальное количество инстансов можно настраивать в зависимости от времени суток.

Чтобы оптимизировать затраты, рекомендуем настроить автомасштабирование и для ресурс-группы, в которой запускается ML-сервис. Это позволит Caila автоматически добавлять серверы при необходимости запуска новых инстансов и удалять, когда они больше не нужны.

Подробную информацию об автомасштабировании вы найдете в документации.