Перейти к основному содержимому

LLM из Hugging Face

На платформе Caila вы можете развернуть любую языковую модель из Hugging Face — быстро и без необходимости писать код. Такую возможность предоставляет сервис-прототип vllm-prototype.

Как это работает:

  1. Выберите подходящий сервер с почасовой оплатой.
  2. Склонируйте сервис из прототипа и укажите модель в настройках.
  3. Запустите сервис.

Всё готово! Вы можете отправлять запросы к LLM через стандартные интерфейсы Caila: Predict API и OpenAI adapter.

Тестируйте, исследуйте и внедряйте языковые модели без лишних трудозатрат!

Автомасштабирование ML‑сервисов

Автомасштабирование — это умный механизм, который автоматически регулирует количество активных инстансов вашего ML-сервиса. Сервис подстраивается под потребности пользователей, обеспечивая максимальную производительность при высокой нагрузке и высвобождая ресурсы в периоды затишья.

Предусмотрено автомасштабирование на основе следующих метрик:

  • Количество запросов к сервису в минуту.
  • Время ответа сервиса в миллисекундах.
  • Нагрузка CPU в millicores.
  • Количество активных запросов.

Caila рассчитывает оптимальное количество инстансов для заданных параметров, при необходимости запускает дополнительные инстансы или удаляет их.

Минимальное и максимальное количество инстансов можно настраивать в зависимости от времени суток.

Чтобы оптимизировать затраты, рекомендуем настроить автомасштабирование и для ресурс-группы, в которой запускается ML-сервис. Это позволит Caila автоматически добавлять серверы при необходимости запуска новых инстансов и удалять, когда они больше не нужны.

Подробную информацию об автомасштабировании вы найдете в документации.

Релиз 26.05.2025

  • Модель gpt-image-1 для генерации изображений. Вы можете отправлять запросы к ней:

    • через сервис openai-proxy;

    • через методы OpenAI adapter:

      POST /api/adapters/openai/images/generations

      POST /api/adapters/openai/images/edits

    Пример запроса
    curl -L 'https://caila.io/api/adapters/openai/images/generations' \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer <api_token>' \
    -d '{
    "model": "just-ai/openai-proxy/gpt-image-1",
    "prompt": "sea otter",
    "n": 1
    }'

    Описание параметров запроса см. в документации OpenAI.

  • Перезапуск ML-сервиса по кнопке без внесения изменений в настройки. Кнопка на вкладке Хостинг перезапускает все инстансы ML-сервиса. Это может быть полезно, если Docker-образ обновлен без изменения тега.

  • Автомасштабирование ML-сервиса на основе времени суток: в режиме хостинга «Автоматический» можно настроить минимальное и максимальное количество инстансов в зависимости от времени. Используется московский часовой пояс (UTC+3).

    Пример настройки
    Настройки автомасштабирования
  • Автор изменения отображается для всех событий, связанных с ML-сервисом, ресурс-группой или образом.

Релиз 17.04.2025

Добавлены функции:

  • Автомасштабирование ML-сервиса на основе метрик. Теперь в режиме хостинга «Автоматический» можно настроить запуск и остановку инстансов сервиса на основе количества запросов, времени ответа, нагрузки на CPU.

    Пример настройки
    Настройки автомасштабирования
  • Метод для потоковой генерации: predict-with-config-stream. Работает аналогично predict-with-config-v2-stream, но принимает на вход объект, а не строку, поэтому не требует экранирования символов.

    Пример запроса
    curl -L 'https://caila.io/api/mlpgate/account/just-ai/model/gemini/predict-with-config-stream' \
    -H 'MLP-API-KEY: <api_token>' \
    -H 'Content-Type: application/json' \
    -d '{
    "config": {
    "temperature": 0.8
    },
    "data": {
    "stream": true,
    "model": "gemini-1.5-pro",
    "max_tokens": 20000,
    "messages": [
    {
    "role": "user",
    "content": "What is the weather like in San Francisco?"
    }
    ]
    }
    }
  • Метод для подсчета количества токенов в запросе: count-tokens. Пока работает только для моделей Claude.

    Пример запроса
    curl -L 'https://caila.io/api/adapters/openai/count-tokens' \
    -H 'Authorization: Bearer <api_token>' \
    -H 'Content-Type: application/json' \
    -d '{
    model": "just-ai/claude/claude-3-5-sonnet-latest",
    "messages": [
    {
    "role":"user",
    "content":"What is the weather like in San Francisco?"
    }
    ]
    }'

Релиз 31.03.2025

Добавлены функции:

  • Уведомления о важных событиях под значком в верхней панели на всех страницах интерфейса Caila.

  • Визуальный индикатор непрочитанных ошибок в истории событий по серверам и моделям, который позволяет увидеть ошибку и отреагировать на нее.

  • Поддержка batch-запросов к OpenAI через адаптер. Подробнее о batch-запросах

    Базовый URL: https://caila.io/api/adapters/openai/v1.

  • Загрузка произвольного файла в виджете тестирования ML-сервисов.

  • Оптимизирована загрузка больших файлов по Files API от OpenAI.

  • Отчеты по утилизации и история событий по серверам доступны по ссылкам в рамках ресурс-групп.

Новейшие нейросети доступны в Caila

В каталог сервисов и приложений добавлены генеративные модели:

  • Qwen-VL — мультимодальная языковая модель: помимо текста, принимает на вход изображения и генерирует описание на основе запроса. Доступна в виде прототипа, который можно клонировать и запустить на арендуемом сервере, указав в конфигурации нужный чек-пойнт.
  • OpenAI GPT 4.5 — передовая модель в серии GPT, дает более точные и релевантные ответы и реже вводит пользователей в заблуждение. Доступна в сервисе openai-proxy и готова к использованию.
  • Yandex GPT 5 Pro — лучше справляется с классификацией текстов, следует инструкциям и поддерживает диалог. Доступна в готовом сервисе yandexgpt.
к сведению

Для взаимодействия со всеми ML-сервисами на платформе Caila используется унифицированный API, что позволяет быстро интегрировать модели машинного обучения в ваши проекты.

Релиз 13.03.2025

В этом выпуске мы рады представить вам множество новых функций и доработок, направленных на улучшение вашего пользовательского опыта и повышение производительности.

Новые функции и улучшения

  • Отображение фоновых задач — теперь вы можете легко отслеживать задачи, выполняемые в фоновом режиме.
  • Поддержка fallback-серверов — теперь вы можете использовать дополнительные серверы в случае сбоя основного.
  • Очистка Docker-серверов после остановки контейнеров — теперь ваши контейнеры будут очищены после завершения их работы.
  • Исправление работы RPS-лимитера — теперь вы можете быть уверены в корректной работе лимита запросов в секунду.
  • Возможность указывать путь до SSH-ключа для подключения к серверам — теперь вы можете настроить путь к ключу для каждого сервера, что значительно упрощает процесс подключения.
  • Исправление пополнения баланса при регистрации через GitHub — теперь вы можете избежать проблем при пополнении баланса.

Улучшения в пользовательском интерфейсе и UX

  • Переименование кнопки «Терминировать» — теперь она называется «Принудительно остановить».
  • Локализация некоторых полей — вы можете выбрать удобный вам язык интерфейса.
  • Подсказка для периода тарификации — теперь вы можете быстро найти информацию о периоде, за который взимается плата.
  • Улучшение графиков на вкладке мониторинга — графики стали более точными и понятными.
  • Ожидание подключения инстанса для задачи RunInstance — теперь пайплайн ожидает подключения инстанса, что повышает его эффективность.
  • Улучшение выгрузки и стриминга логов на вкладке мониторинга — добавлены лимиты на количество строк и символов, выгружаемых за первый запрос, что обеспечивает более плавный и организованный процесс.
  • Дисклеймер — теперь на карточке сервисов отображается плашка, напоминающая, что сервис не предназначен для обработки персональных данных.

Кроме того, было внесено множество других изменений для повышения общего качества продукта.

Assistant API для моделей OpenAI

В сервисе openai-proxy поддержали Assistant API для создания AI-ассистентов. Ассистенты OpenAI предоставляют продвинутые инструменты для выполнения сложных задач — таких как поиск ответов на вопросы пользователей в предоставленных документах, написание и выполнение кода на языке Python, вызовы пользовательских функций.

Как и все сервисы на платформе Caila, openai-proxy доступен в РФ с оплатой в рублях. Сервис позволяет обращаться к любым моделям OpenAI.

Доступ к API

Для доступа к API вам потребуется токен. Создайте его на странице Моё пространство → API‑Токены. Указывайте токен в каждом запросе к API.

Базовый URL

https://caila.io/api/adapters/openai/v1

Пример использования

  1. Создадим ассистента:

    curl -X POST "https://caila.io/api/adapters/openai/v1/assistants" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer <api_token>" \
    --data-raw '{
    "instructions": "You are a personal math tutor. When asked a question, write and run Python code to answer the question.",
    "name": "Math Tutor",
    "tools": [{"type": "code_interpreter"}],
    "model": "gpt-4o"
    }'
    Пример ответа
    {
    "id": "asst_ABcd1234",
    "object": "assistant",
    "created_at": 1741348100,
    "name": "Math Tutor",
    "description": null,
    "model": "gpt-4o",
    "instructions": "You are a personal math tutor. When asked a question, write and run Python code to answer the question.",
    "tools": [
    {
    "type": "code_interpreter"
    }
    ],
    "top_p": 1.0,
    "temperature": 1.0,
    "reasoning_effort": null,
    "tool_resources": {
    "code_interpreter": {
    "file_ids": []
    }
    },
    "metadata": {
    "userId": "1000174642"
    },
    "response_format": "auto"
    }
  2. Создадим тред, в котором пользователь будет задавать вопросы ассистенту:

    curl -X POST "https://caila.io/api/adapters/openai/v1/threads" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer <api_token>" \
    --data-raw '{}'
    Пример ответа
    {
    "id": "thread_EFgh5678",
    "object": "thread",
    "created_at": 1741348920,
    "metadata": {
    "userId": "1000174642"
    },
    "tool_resources": {}
    }
  3. Отправим сообщение пользователя в тред. В строке запроса нужно указать идентификатор треда, полученный на предыдущем шаге:

    curl -X POST "https://caila.io/api/adapters/openai/v1/threads/thread_EFgh5678/messages" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer <api_token>" \
    --data-raw '{
    "role": "user",
    "content": "Напиши простой калькулятор на python, у которого будут только 4 функции, сложение, вычитание, умножение и деление"
    }'
    Пример ответа
    {
    "id": "msg_1fXtROYuVlVyHcD6dwJIZX8p",
    "object": "thread.message",
    "created_at": 1741615474,
    "assistant_id": null,
    "thread_id": "thread_EFgh5678",
    "run_id": null,
    "role": "user",
    "content": [
    {
    "type": "text",
    "text": {
    "value": "Напиши простой калькулятор на python, у которого будут только 4 функции, сложение, вычитание, умножение и деление",
    "annotations": []
    }
    }
    ],
    "attachments": [],
    "metadata": {
    "userId": "1000174642"
    }
    }
  4. Запустим ассистента в треде, чтобы сгенерировать ответ. В строке запроса нужно указать идентификатор треда, а в теле запроса — идентификатор ассистента из п. 1.

    curl -X POST "https://caila.io/api/adapters/openai/v1/threads/thread_EFgh5678/runs" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer <api_token>" \
    --data-raw '{
    "assistant_id": "asst_ABcd1234",
    "instructions": "Ответь на русском языке"
    }'
    Пример ответа
    {
    "id": "run_Wiz8k7IFuqcMQdh3ohGQWA59",
    "object": "thread.run",
    "created_at": 1741615825,
    "assistant_id": "asst_ABcd1234",
    "thread_id": "thread_EFgh5678",
    "status": "queued",
    "started_at": null,
    "expires_at": 1741616425,
    "cancelled_at": null,
    "failed_at": null,
    "completed_at": null,
    "required_action": null,
    "last_error": null,
    "model": "gpt-4o",
    "instructions": "Ответь на русском языке",
    "tools": [
    {
    "type": "code_interpreter"
    }
    ],
    "tool_resources": {},
    "metadata": {
    "userId": "1000174642"
    },
    "temperature": 1.0,
    "top_p": 1.0,
    "reasoning_effort": null,
    "max_completion_tokens": null,
    "max_prompt_tokens": null,
    "truncation_strategy": {
    "type": "auto",
    "last_messages": null
    },
    "incomplete_details": null,
    "usage": null,
    "response_format": "auto",
    "tool_choice": "auto",
    "parallel_tool_calls": true
    }
  5. Посмотрим результат:

    curl -X GET "https://caila.io/api/adapters/openai/v1/threads/thread_EFgh5678/messages" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer <api_token>"
    Пример ответа
    {
    "object": "list",
    "data": [
    {
    "id": "msg_CpqFkV5HoeoiPlJdZSVR1b9X",
    "object": "thread.message",
    "created_at": 1741615827,
    "assistant_id": "asst_ABcd1234",
    "thread_id": "thread_EFgh5678",
    "run_id": "run_Wiz8k7IFuqcMQdh3ohGQWA59",
    "role": "assistant",
    "content": [
    {
    "type": "text",
    "text": {
    "value": "Конечно! Ниже представлен простой калькулятор на Python, который поддерживает четыре основные арифметические операции: сложение, вычитание, умножение и деление.\n\n```python\ndef add(x, y):\n \"\"\"Функция для сложения двух чисел.\"\"\"\n return x + y\n\ndef subtract(x, y):\n \"\"\"Функция для вычитания двух чисел.\"\"\"\n return x - y\n\ndef multiply(x, y):\n \"\"\"Функция для умножения двух чисел.\"\"\"\n return x * y\n\ndef divide(x, y):\n \"\"\"Функция для деления двух чисел.\"\"\"\n if y == 0:\n return \"Ошибка: деление на ноль!\"\n return x / y\n\ndef calculator():\n print(\"Выберите операцию:\")\n print(\"1. Сложение\")\n print(\"2. Вычитание\")\n print(\"3. Умножение\")\n print(\"4. Деление\")\n\n while True:\n choice = input(\"Введите номер операции (1/2/3/4) или 'q' для выхода: \")\n\n if choice == 'q':\n print(\"Выход из калькулятора.\")\n break\n\n if choice in ['1', '2', '3', '4']:\n try:\n num1 = float(input(\"Введите первое число: \"))\n num2 = float(input(\"Введите второе число: \"))\n except ValueError:\n print(\"Ошибка: необходимо вводить числа.\")\n continue\n\n if choice == '1':\n print(f\"{num1} + {num2} = {add(num1, num2)}\")\n elif choice == '2':\n print(f\"{num1} - {num2} = {subtract(num1, num2)}\")\n elif choice == '3':\n print(f\"{num1} * {num2} = {multiply(num1, num2)}\")\n elif choice == '4':\n print(f\"{num1} / {num2} = {divide(num1, num2)}\")\n else:\n print(\"Неверный ввод. Пожалуйста, введите номер операции от 1 до 4.\")\n\nif __name__ == \"__main__\":\n calculator()\n```\n\nЭтот код реализует простой консольный калькулятор, который предлагает пользователю выбрать одну из четырёх операций, ввести два числа, и затем выводит результат. Для завершения работы калькулятора достаточно ввести 'q'.",
    "annotations": []
    }
    }
    ],
    "attachments": [],
    "metadata": {}
    },
    {
    "id": "msg_1fXtROYuVlVyHcD6dwJIZX8p",
    "object": "thread.message",
    "created_at": 1741615474,
    "assistant_id": null,
    "thread_id": "thread_EFgh5678",
    "run_id": null,
    "role": "user",
    "content": [
    {
    "type": "text",
    "text": {
    "value": "Напиши простой калькулятор на python, у которого будут только 4 функции, сложение, вычитание, умножение и деление",
    "annotations": []
    }
    }
    ],
    "attachments": [],
    "metadata": {
    "userId": "1000174642"
    }
    }
    ],
    "first_id": "msg_CpqFkV5HoeoiPlJdZSVR1b9X",
    "last_id": "msg_1fXtROYuVlVyHcD6dwJIZX8p",
    "has_more": false
    }

Suno AI Bark: прототип сервиса для генерации аудио

Bark — нейросеть компании Suno для преобразования текста в аудио. Bark — не обычная модель TTS на базе фонем, а полностью генеративная модель, способная отклоняться от заданного сценария и представляющая интерес для исследователей. Bark предлагает обширную библиотеку голосов на разных языках, включая русский, а также может воспроизводить невербальные звуки, такие как музыка, смех и другие.

На платформе Caila модель Bark представлена в виде сервиса-прототипа suno-ai-bark. Это означает, что вы можете в пару кликов арендовать сервер с почасовой оплатой, развернуть на нем ML-модель и выполнять запросы к ней через унифицированный API или форму тестирования в интерфейсе.

Launch Suno AI Bark

DeepSeek и другие новинки в Caila

Каталог сервисов Caila постоянно обновляется, открывая пользователям доступ к новым возможностям искусственного интеллекта. Теперь на платформе можно взаимодействовать с популярными нейросетями:

Сравнивать генеративные модели между собой удобнее всего в Multi Chat. Вы можете задать вопрос сразу всем выбранным моделям и сопоставить ответы, чтобы выбрать наиболее подходящую модель для конкретной задачи.

Multi Chat с DeepSeek

Caila предоставляет унифицированный API для запросов к любым ML-сервисам. Это значительно упрощает интеграцию различных моделей в существующие приложения или разработку новых решений на основе ИИ. Больше информации о способах подключения сервисов Caila вы найдете в документации.