Перейти к основному содержимому

Переобучение без риска и проверка ресурсов до запуска

Ключевые обновления:

  • Сохранение текущего состояния при переобучении: во время переобучения и в случае его сбоя ML-сервис продолжает работать с прежними весами.

  • Учет ресурсов серверов перед запуском инстанса: платформа проверяет, есть ли в ресурс-группе шаблон сервера с нужными характеристиками, и если нет — выдает понятную ошибку без попытки запуска. Механизм уже работает для большинства сценариев.

Улучшения пользовательского опыта:

  • Подсказки в настройках ML-сервисов объясняют влияние параметров на работу модели и упрощают подбор конфигурации без обращения к документации.
  • Исправлена работа консоли на вкладке Диагностика: корректное перемещение курсора, удобное выделение текста; восстановлена кнопка разворачивания на весь экран.
  • На вкладке Диагностика отображается количество рестартов выбранного инстанса — теперь и для ML-сервисов, развернутых в ресурс-группах с типом «Docker».
  • В разделе Биллинг месяцы, за которые нет данных, недоступны для выбора.

Контроль доступа:

  • При обращении к API-методам адаптеров без auth-токена теперь возвращается корректный статус 401 Unauthorized (ранее — 400).

Релиз 10.07.2025

В новый релиз Caila включены доработки для улучшения безопасности и контроля:

  • Настройка лимитов для API-ключей: возможность устанавливать ограничения на сумму расходов за период, размер запроса, количество запросов в минуту, ML-сервисы и модели, к которым разрешено делать запросы.
  • Email-уведомления о том, что время жизни API-ключа скоро истекает.
  • Аудит действий пользователей: Caila протоколирует создание, изменение и удаление основных объектов — ML-сервисов, образов, датасетов, ресурс-групп, серверов и т. д. Отчет доступен администраторам аккаунта в разделе Аккаунты в Conversational Cloud.

Релиз 23.06.2025

  • Интеграция с Vast.ai. Платформа облачных вычислений Vast.ai предоставляет широкий выбор серверов с GPU. При создании ресурс-группы с типом деплоймента «Vast.ai» доступны фильтры по характеристикам серверов, в том числе по цене. При запуске инстансов ML-сервиса в такой ресурс-группе серверы добавляются автоматически.

    Обратите внимание:

    • Серверы Vast.ai находятся за рубежом.
    • Vast.ai не гарантирует бесперебойную работу серверов, поэтому не рекомендуется размещать на них сервисы, для которых критически важна постоянная доступность.
  • Разграничение доступа для API-ключей: при создании ключа можно назначить ему права на запросы к ML-сервисам, чтение или изменение данных в аккаунте.

  • Логи остановленных инстансов теперь остаются доступными для выгрузки в течение часа (при условии, что сервер продолжает работать).

  • В дополнение к названию ML-сервиса теперь можно указать компанию-разработчика.

LLM из Hugging Face

На платформе Caila вы можете развернуть любую языковую модель из Hugging Face — быстро и без необходимости писать код. Такую возможность предоставляет сервис-прототип vllm-prototype.

Как это работает:

  1. Выберите подходящий сервер с почасовой оплатой.
  2. Склонируйте сервис из прототипа и укажите модель в настройках.
  3. Запустите сервис.

Всё готово! Вы можете отправлять запросы к LLM через стандартные интерфейсы Caila: Predict API и OpenAI adapter.

Тестируйте, исследуйте и внедряйте языковые модели без лишних трудозатрат!

Автомасштабирование ML‑сервисов

Автомасштабирование — это умный механизм, который автоматически регулирует количество активных инстансов вашего ML-сервиса. Сервис подстраивается под потребности пользователей, обеспечивая максимальную производительность при высокой нагрузке и высвобождая ресурсы в периоды затишья.

Предусмотрено автомасштабирование на основе следующих метрик:

  • Количество запросов к сервису в минуту.
  • Время ответа сервиса в миллисекундах.
  • Нагрузка CPU в millicores.
  • Количество активных запросов.

Caila рассчитывает оптимальное количество инстансов для заданных параметров, при необходимости запускает дополнительные инстансы или удаляет их.

Минимальное и максимальное количество инстансов можно настраивать в зависимости от времени суток.

Чтобы оптимизировать затраты, рекомендуем настроить автомасштабирование и для ресурс-группы, в которой запускается ML-сервис. Это позволит Caila автоматически добавлять серверы при необходимости запуска новых инстансов и удалять, когда они больше не нужны.

Подробную информацию об автомасштабировании вы найдете в документации.

Релиз 26.05.2025

  • Модель gpt-image-1 для генерации изображений. Вы можете отправлять запросы к ней:

    • через сервис openai-proxy;

    • через методы OpenAI adapter:

      POST /api/adapters/openai/images/generations

      POST /api/adapters/openai/images/edits

    Пример запроса
    curl -L 'https://caila.io/api/adapters/openai/images/generations' \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer <api_token>' \
    -d '{
    "model": "just-ai/openai-proxy/gpt-image-1",
    "prompt": "sea otter",
    "n": 1
    }'

    Описание параметров запроса см. в документации OpenAI.

  • Перезапуск ML-сервиса по кнопке без внесения изменений в настройки. Кнопка на вкладке Хостинг перезапускает все инстансы ML-сервиса. Это может быть полезно, если Docker-образ обновлен без изменения тега.

  • Автомасштабирование ML-сервиса на основе времени суток: в режиме хостинга «Автоматический» можно настроить минимальное и максимальное количество инстансов в зависимости от времени. Используется московский часовой пояс (UTC+3).

    Пример настройки
    Настройки автомасштабирования
  • Автор изменения отображается для всех событий, связанных с ML-сервисом, ресурс-группой или образом.

Релиз 17.04.2025

Добавлены функции:

  • Автомасштабирование ML-сервиса на основе метрик. Теперь в режиме хостинга «Автоматический» можно настроить запуск и остановку инстансов сервиса на основе количества запросов, времени ответа, нагрузки на CPU.

    Пример настройки
    Настройки автомасштабирования
  • Метод для потоковой генерации: predict-with-config-stream. Работает аналогично predict-with-config-v2-stream, но принимает на вход объект, а не строку, поэтому не требует экранирования символов.

    Пример запроса
    curl -L 'https://caila.io/api/mlpgate/account/just-ai/model/gemini/predict-with-config-stream' \
    -H 'MLP-API-KEY: <api_token>' \
    -H 'Content-Type: application/json' \
    -d '{
    "config": {
    "temperature": 0.8
    },
    "data": {
    "stream": true,
    "model": "gemini-1.5-pro",
    "max_tokens": 20000,
    "messages": [
    {
    "role": "user",
    "content": "What is the weather like in San Francisco?"
    }
    ]
    }
    }
  • Метод для подсчета количества токенов в запросе: count-tokens. Пока работает только для моделей Claude.

    Пример запроса
    curl -L 'https://caila.io/api/adapters/openai/count-tokens' \
    -H 'Authorization: Bearer <api_token>' \
    -H 'Content-Type: application/json' \
    -d '{
    model": "just-ai/claude/claude-3-5-sonnet-latest",
    "messages": [
    {
    "role":"user",
    "content":"What is the weather like in San Francisco?"
    }
    ]
    }'

Релиз 31.03.2025

Добавлены функции:

  • Уведомления о важных событиях под значком в верхней панели на всех страницах интерфейса Caila.

  • Визуальный индикатор непрочитанных ошибок в истории событий по серверам и моделям, который позволяет увидеть ошибку и отреагировать на нее.

  • Поддержка batch-запросов к OpenAI через адаптер. Подробнее о batch-запросах

    Базовый URL: https://caila.io/api/adapters/openai/v1.

  • Загрузка произвольного файла в виджете тестирования ML-сервисов.

  • Оптимизирована загрузка больших файлов по Files API от OpenAI.

  • Отчеты по утилизации и история событий по серверам доступны по ссылкам в рамках ресурс-групп.

Новейшие нейросети доступны в Caila

В каталог сервисов и приложений добавлены генеративные модели:

  • Qwen-VL — мультимодальная языковая модель: помимо текста, принимает на вход изображения и генерирует описание на основе запроса. Доступна в виде прототипа, который можно клонировать и запустить на арендуемом сервере, указав в конфигурации нужный чек-пойнт.
  • OpenAI GPT 4.5 — передовая модель в серии GPT, дает более точные и релевантные ответы и реже вводит пользователей в заблуждение. Доступна в сервисе openai-proxy и готова к использованию.
  • Yandex GPT 5 Pro — лучше справляется с классификацией текстов, следует инструкциям и поддерживает диалог. Доступна в готовом сервисе yandexgpt.
к сведению

Для взаимодействия со всеми ML-сервисами на платформе Caila используется унифицированный API, что позволяет быстро интегрировать модели машинного обучения в ваши проекты.

Релиз 13.03.2025

В этом выпуске мы рады представить вам множество новых функций и доработок, направленных на улучшение вашего пользовательского опыта и повышение производительности.

Новые функции и улучшения

  • Отображение фоновых задач — теперь вы можете легко отслеживать задачи, выполняемые в фоновом режиме.
  • Поддержка fallback-серверов — теперь вы можете использовать дополнительные серверы в случае сбоя основного.
  • Очистка Docker-серверов после остановки контейнеров — теперь ваши контейнеры будут очищены после завершения их работы.
  • Исправление работы RPS-лимитера — теперь вы можете быть уверены в корректной работе лимита запросов в секунду.
  • Возможность указывать путь до SSH-ключа для подключения к серверам — теперь вы можете настроить путь к ключу для каждого сервера, что значительно упрощает процесс подключения.
  • Исправление пополнения баланса при регистрации через GitHub — теперь вы можете избежать проблем при пополнении баланса.

Улучшения в пользовательском интерфейсе и UX

  • Переименование кнопки «Терминировать» — теперь она называется «Принудительно остановить».
  • Локализация некоторых полей — вы можете выбрать удобный вам язык интерфейса.
  • Подсказка для периода тарификации — теперь вы можете быстро найти информацию о периоде, за который взимается плата.
  • Улучшение графиков на вкладке мониторинга — графики стали более точными и понятными.
  • Ожидание подключения инстанса для задачи RunInstance — теперь пайплайн ожидает подключения инстанса, что повышает его эффективность.
  • Улучшение выгрузки и стриминга логов на вкладке мониторинга — добавлены лимиты на количество строк и символов, выгружаемых за первый запрос, что обеспечивает более плавный и организованный процесс.
  • Дисклеймер — теперь на карточке сервисов отображается плашка, напоминающая, что сервис не предназначен для обработки персональных данных.

Кроме того, было внесено множество других изменений для повышения общего качества продукта.