Обновления Caila | Документация платформы Caila

Релиз 10.07.2025

10 июля 2025 г.

В новый релиз Caila включены доработки для улучшения безопасности и контроля:

Настройка лимитов для API-ключей: возможность устанавливать ограничения на сумму расходов за период, размер запроса, количество запросов в минуту, ML-сервисы и модели, к которым разрешено делать запросы.
Email-уведомления о том, что время жизни API-ключа скоро истекает.
Аудит действий пользователей: Caila протоколирует создание, изменение и удаление основных объектов — ML-сервисов, образов, датасетов, ресурс-групп, серверов и т. д. Отчет доступен администраторам аккаунта в разделе Аккаунты в Conversational Cloud.

Релиз 23.06.2025

23 июня 2025 г.

Интеграция с Vast.ai. Платформа облачных вычислений Vast.ai предоставляет широкий выбор серверов с GPU. При создании ресурс-группы с типом деплоймента «Vast.ai» доступны фильтры по характеристикам серверов, в том числе по цене. При запуске инстансов ML-сервиса в такой ресурс-группе серверы добавляются автоматически.

Обратите внимание:
- Серверы Vast.ai находятся за рубежом.
- Vast.ai не гарантирует бесперебойную работу серверов, поэтому не рекомендуется размещать на них сервисы, для которых критически важна постоянная доступность.
Разграничение доступа для API-ключей: при создании ключа можно назначить ему права на запросы к ML-сервисам, чтение или изменение данных в аккаунте.
Логи остановленных инстансов теперь остаются доступными для выгрузки в течение часа (при условии, что сервер продолжает работать).
В дополнение к названию ML-сервиса теперь можно указать компанию-разработчика.

LLM из Hugging Face

18 июня 2025 г.

На платформе Caila вы можете развернуть любую языковую модель из Hugging Face — быстро и без необходимости писать код. Такую возможность предоставляет сервис-прототип vllm-prototype.

Как это работает:

Выберите подходящий сервер с почасовой оплатой.
Склонируйте сервис из прототипа и укажите модель в настройках.
Запустите сервис.

Всё готово! Вы можете отправлять запросы к LLM через стандартные интерфейсы Caila: Predict API и OpenAI adapter.

Тестируйте, исследуйте и внедряйте языковые модели без лишних трудозатрат!

Автомасштабирование ML‑сервисов

3 июня 2025 г.

Автомасштабирование — это умный механизм, который автоматически регулирует количество активных инстансов вашего ML-сервиса. Сервис подстраивается под потребности пользователей, обеспечивая максимальную производительность при высокой нагрузке и высвобождая ресурсы в периоды затишья.

Предусмотрено автомасштабирование на основе следующих метрик:

Количество запросов к сервису в минуту.
Время ответа сервиса в миллисекундах.
Нагрузка CPU в millicores.
Количество активных запросов.

Caila рассчитывает оптимальное количество инстансов для заданных параметров, при необходимости запускает дополнительные инстансы или удаляет их.

Минимальное и максимальное количество инстансов можно настраивать в зависимости от времени суток.

Чтобы оптимизировать затраты, рекомендуем настроить автомасштабирование и для ресурс-группы, в которой запускается ML-сервис. Это позволит Caila автоматически добавлять серверы при необходимости запуска новых инстансов и удалять, когда они больше не нужны.

Подробную информацию об автомасштабировании вы найдете в документации.

Релиз 26.05.2025

26 мая 2025 г.

Модель gpt-image-1 для генерации изображений. Вы можете отправлять запросы к ней:
- через сервис openai-proxy;
- через методы OpenAI adapter:
  
  POST /api/adapters/openai/images/generations
  
  POST /api/adapters/openai/images/edits
Пример запроса
curl -L 'https://caila.io/api/adapters/openai/images/generations' \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer <api_token>' \ -d '{ "model": "just-ai/openai-proxy/gpt-image-1", "prompt": "sea otter", "n": 1 }'
Описание параметров запроса см. в документации OpenAI.
Перезапуск ML-сервиса по кнопке без внесения изменений в настройки. Кнопка на вкладке Хостинг перезапускает все инстансы ML-сервиса. Это может быть полезно, если Docker-образ обновлен без изменения тега.
Автомасштабирование ML-сервиса на основе времени суток: в режиме хостинга «Автоматический» можно настроить минимальное и максимальное количество инстансов в зависимости от времени. Используется московский часовой пояс (UTC+3).

Пример настройки
Автор изменения отображается для всех событий, связанных с ML-сервисом, ресурс-группой или образом.

Релиз 17.04.2025

17 апреля 2025 г.

Добавлены функции:

Автомасштабирование ML-сервиса на основе метрик. Теперь в режиме хостинга «Автоматический» можно настроить запуск и остановку инстансов сервиса на основе количества запросов, времени ответа, нагрузки на CPU.

Пример настройки

Метод для потоковой генерации: predict-with-config-stream. Работает аналогично predict-with-config-v2-stream, но принимает на вход объект, а не строку, поэтому не требует экранирования символов.

Пример запроса

curl -L 'https://caila.io/api/mlpgate/account/just-ai/model/gemini/predict-with-config-stream' \
-H 'MLP-API-KEY: <api_token>' \
-H 'Content-Type: application/json' \
-d '{
  "config": {
    "temperature": 0.8
  },
  "data": {
    "stream": true,
    "model": "gemini-1.5-pro",
    "max_tokens": 20000,
    "messages": [
      {
        "role": "user",
        "content": "What is the weather like in San Francisco?"
      }
    ]
  }
}

Метод для подсчета количества токенов в запросе: count-tokens. Пока работает только для моделей Claude.

Пример запроса

curl -L 'https://caila.io/api/adapters/openai/count-tokens' \
-H 'Authorization: Bearer <api_token>' \
-H 'Content-Type: application/json' \
-d '{
   model": "just-ai/claude/claude-3-5-sonnet-latest",
  "messages": [
    {
      "role":"user",
      "content":"What is the weather like in San Francisco?"
    }
  ]
}'

Релиз 31.03.2025

31 марта 2025 г.

Добавлены функции:

Уведомления о важных событиях под значком в верхней панели на всех страницах интерфейса Caila.
Визуальный индикатор непрочитанных ошибок в истории событий по серверам и моделям, который позволяет увидеть ошибку и отреагировать на нее.
Поддержка batch-запросов к OpenAI через адаптер. Подробнее о batch-запросах

Базовый URL: https://caila.io/api/adapters/openai/v1.
Загрузка произвольного файла в виджете тестирования ML-сервисов.
Оптимизирована загрузка больших файлов по Files API от OpenAI.
Отчеты по утилизации и история событий по серверам доступны по ссылкам в рамках ресурс-групп.

Новейшие нейросети доступны в Caila

18 марта 2025 г.

В каталог сервисов и приложений добавлены генеративные модели:

Qwen-VL — мультимодальная языковая модель: помимо текста, принимает на вход изображения и генерирует описание на основе запроса. Доступна в виде прототипа, который можно клонировать и запустить на арендуемом сервере, указав в конфигурации нужный чек-пойнт.
OpenAI GPT 4.5 — передовая модель в серии GPT, дает более точные и релевантные ответы и реже вводит пользователей в заблуждение. Доступна в сервисе openai-proxy и готова к использованию.
Yandex GPT 5 Pro — лучше справляется с классификацией текстов, следует инструкциям и поддерживает диалог. Доступна в готовом сервисе yandexgpt.

к сведению

Для взаимодействия со всеми ML-сервисами на платформе Caila используется унифицированный API, что позволяет быстро интегрировать модели машинного обучения в ваши проекты.

Релиз 13.03.2025

13 марта 2025 г.

В этом выпуске мы рады представить вам множество новых функций и доработок, направленных на улучшение вашего пользовательского опыта и повышение производительности.

Новые функции и улучшения

Отображение фоновых задач — теперь вы можете легко отслеживать задачи, выполняемые в фоновом режиме.
Поддержка fallback-серверов — теперь вы можете использовать дополнительные серверы в случае сбоя основного.
Очистка Docker-серверов после остановки контейнеров — теперь ваши контейнеры будут очищены после завершения их работы.
Исправление работы RPS-лимитера — теперь вы можете быть уверены в корректной работе лимита запросов в секунду.
Возможность указывать путь до SSH-ключа для подключения к серверам — теперь вы можете настроить путь к ключу для каждого сервера, что значительно упрощает процесс подключения.
Исправление пополнения баланса при регистрации через GitHub — теперь вы можете избежать проблем при пополнении баланса.

Улучшения в пользовательском интерфейсе и UX

Переименование кнопки «Терминировать» — теперь она называется «Принудительно остановить».
Локализация некоторых полей — вы можете выбрать удобный вам язык интерфейса.
Подсказка для периода тарификации — теперь вы можете быстро найти информацию о периоде, за который взимается плата.
Улучшение графиков на вкладке мониторинга — графики стали более точными и понятными.
Ожидание подключения инстанса для задачи RunInstance — теперь пайплайн ожидает подключения инстанса, что повышает его эффективность.
Улучшение выгрузки и стриминга логов на вкладке мониторинга — добавлены лимиты на количество строк и символов, выгружаемых за первый запрос, что обеспечивает более плавный и организованный процесс.
Дисклеймер — теперь на карточке сервисов отображается плашка, напоминающая, что сервис не предназначен для обработки персональных данных.

Кроме того, было внесено множество других изменений для повышения общего качества продукта.

Assistant API для моделей OpenAI

10 марта 2025 г.

В сервисе openai-proxy поддержали Assistant API для создания AI-ассистентов. Ассистенты OpenAI предоставляют продвинутые инструменты для выполнения сложных задач — таких как поиск ответов на вопросы пользователей в предоставленных документах, написание и выполнение кода на языке Python, вызовы пользовательских функций.

Как и все сервисы на платформе Caila, openai-proxy доступен в РФ с оплатой в рублях. Сервис позволяет обращаться к любым моделям OpenAI.

Доступ к API

Для доступа к API вам потребуется токен. Создайте его на странице Моё пространство → API‑Токены. Указывайте токен в каждом запросе к API.

Базовый URL

https://caila.io/api/adapters/openai/v1

Пример использования

Создадим ассистента:

curl -X POST "https://caila.io/api/adapters/openai/v1/assistants" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <api_token>" \
--data-raw '{
  "instructions": "You are a personal math tutor. When asked a question, write and run Python code to answer the question.",
  "name": "Math Tutor",
  "tools": [{"type": "code_interpreter"}],
  "model": "gpt-4o"
}'

Пример ответа

{
  "id": "asst_ABcd1234",
  "object": "assistant",
  "created_at": 1741348100,
  "name": "Math Tutor",
  "description": null,
  "model": "gpt-4o",
  "instructions": "You are a personal math tutor. When asked a question, write and run Python code to answer the question.",
  "tools": [
    {
      "type": "code_interpreter"
    }
  ],
  "top_p": 1.0,
  "temperature": 1.0,
  "reasoning_effort": null,
  "tool_resources": {
    "code_interpreter": {
      "file_ids": []
    }
  },
  "metadata": {
    "userId": "1000174642"
  },
  "response_format": "auto"
}

Создадим тред, в котором пользователь будет задавать вопросы ассистенту:

curl -X POST "https://caila.io/api/adapters/openai/v1/threads" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <api_token>" \
--data-raw '{}'

Пример ответа

{
  "id": "thread_EFgh5678",
  "object": "thread",
  "created_at": 1741348920,
  "metadata": {
    "userId": "1000174642"
  },
  "tool_resources": {}
}

Отправим сообщение пользователя в тред. В строке запроса нужно указать идентификатор треда, полученный на предыдущем шаге:

curl -X POST "https://caila.io/api/adapters/openai/v1/threads/thread_EFgh5678/messages" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <api_token>" \
--data-raw '{
  "role": "user",
  "content": "Напиши простой калькулятор на python, у которого будут только 4 функции, сложение, вычитание, умножение и деление"
}'

Пример ответа

{
  "id": "msg_1fXtROYuVlVyHcD6dwJIZX8p",
  "object": "thread.message",
  "created_at": 1741615474,
  "assistant_id": null,
  "thread_id": "thread_EFgh5678",
  "run_id": null,
  "role": "user",
  "content": [
    {
      "type": "text",
      "text": {
        "value": "Напиши простой калькулятор на python, у которого будут только 4 функции, сложение, вычитание, умножение и деление",
        "annotations": []
      }
    }
  ],
  "attachments": [],
  "metadata": {
    "userId": "1000174642"
  }
}

Запустим ассистента в треде, чтобы сгенерировать ответ. В строке запроса нужно указать идентификатор треда, а в теле запроса — идентификатор ассистента из п. 1.

curl -X POST "https://caila.io/api/adapters/openai/v1/threads/thread_EFgh5678/runs" \
 -H "Content-Type: application/json" \
 -H "Authorization: Bearer <api_token>" \
 --data-raw '{
"assistant_id": "asst_ABcd1234",
"instructions": "Ответь на русском языке"
}'

Пример ответа

{
  "id": "run_Wiz8k7IFuqcMQdh3ohGQWA59",
  "object": "thread.run",
  "created_at": 1741615825,
  "assistant_id": "asst_ABcd1234",
  "thread_id": "thread_EFgh5678",
  "status": "queued",
  "started_at": null,
  "expires_at": 1741616425,
  "cancelled_at": null,
  "failed_at": null,
  "completed_at": null,
  "required_action": null,
  "last_error": null,
  "model": "gpt-4o",
  "instructions": "Ответь на русском языке",
  "tools": [
    {
      "type": "code_interpreter"
    }
  ],
  "tool_resources": {},
  "metadata": {
    "userId": "1000174642"
  },
  "temperature": 1.0,
  "top_p": 1.0,
  "reasoning_effort": null,
  "max_completion_tokens": null,
  "max_prompt_tokens": null,
  "truncation_strategy": {
    "type": "auto",
    "last_messages": null
  },
  "incomplete_details": null,
  "usage": null,
  "response_format": "auto",
  "tool_choice": "auto",
  "parallel_tool_calls": true
}

Посмотрим результат:

curl -X GET "https://caila.io/api/adapters/openai/v1/threads/thread_EFgh5678/messages" \
 -H "Content-Type: application/json" \
 -H "Authorization: Bearer <api_token>"

Пример ответа

{
  "object": "list",
  "data": [
    {
      "id": "msg_CpqFkV5HoeoiPlJdZSVR1b9X",
      "object": "thread.message",
      "created_at": 1741615827,
      "assistant_id": "asst_ABcd1234",
      "thread_id": "thread_EFgh5678",
      "run_id": "run_Wiz8k7IFuqcMQdh3ohGQWA59",
      "role": "assistant",
      "content": [
        {
          "type": "text",
          "text": {
            "value": "Конечно! Ниже представлен простой калькулятор на Python, который поддерживает четыре основные арифметические операции: сложение, вычитание, умножение и деление.\n\n```python\ndef add(x, y):\n    \"\"\"Функция для сложения двух чисел.\"\"\"\n    return x + y\n\ndef subtract(x, y):\n    \"\"\"Функция для вычитания двух чисел.\"\"\"\n    return x - y\n\ndef multiply(x, y):\n    \"\"\"Функция для умножения двух чисел.\"\"\"\n    return x * y\n\ndef divide(x, y):\n    \"\"\"Функция для деления двух чисел.\"\"\"\n    if y == 0:\n        return \"Ошибка: деление на ноль!\"\n    return x / y\n\ndef calculator():\n    print(\"Выберите операцию:\")\n    print(\"1. Сложение\")\n    print(\"2. Вычитание\")\n    print(\"3. Умножение\")\n    print(\"4. Деление\")\n\n    while True:\n        choice = input(\"Введите номер операции (1/2/3/4) или 'q' для выхода: \")\n\n        if choice == 'q':\n            print(\"Выход из калькулятора.\")\n            break\n\n        if choice in ['1', '2', '3', '4']:\n            try:\n                num1 = float(input(\"Введите первое число: \"))\n                num2 = float(input(\"Введите второе число: \"))\n            except ValueError:\n                print(\"Ошибка: необходимо вводить числа.\")\n                continue\n\n            if choice == '1':\n                print(f\"{num1} + {num2} = {add(num1, num2)}\")\n            elif choice == '2':\n                print(f\"{num1} - {num2} = {subtract(num1, num2)}\")\n            elif choice == '3':\n                print(f\"{num1} * {num2} = {multiply(num1, num2)}\")\n            elif choice == '4':\n                print(f\"{num1} / {num2} = {divide(num1, num2)}\")\n        else:\n            print(\"Неверный ввод. Пожалуйста, введите номер операции от 1 до 4.\")\n\nif __name__ == \"__main__\":\n    calculator()\n```\n\nЭтот код реализует простой консольный калькулятор, который предлагает пользователю выбрать одну из четырёх операций, ввести два числа, и затем выводит результат. Для завершения работы калькулятора достаточно ввести 'q'.",
            "annotations": []
          }
        }
      ],
      "attachments": [],
        "metadata": {}
    },
    {
      "id": "msg_1fXtROYuVlVyHcD6dwJIZX8p",
      "object": "thread.message",
      "created_at": 1741615474,
      "assistant_id": null,
      "thread_id": "thread_EFgh5678",
      "run_id": null,
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": {
            "value": "Напиши простой калькулятор на python, у которого будут только 4 функции, сложение, вычитание, умножение и деление",
            "annotations": []
          }
        }
      ],
      "attachments": [],
      "metadata": {
        "userId": "1000174642"
      }
    }
  ],
  "first_id": "msg_CpqFkV5HoeoiPlJdZSVR1b9X",
  "last_id": "msg_1fXtROYuVlVyHcD6dwJIZX8p",
  "has_more": false
}

Новые функции и улучшения​

Улучшения в пользовательском интерфейсе и UX​

Доступ к API​

Базовый URL​

Пример использования​

Новые функции и улучшения

Улучшения в пользовательском интерфейсе и UX

Доступ к API

Базовый URL

Пример использования