Типы данных для обучения
Caila поддерживает ряд типов данных, на которых можно обучать и тестировать обучаемые сервисы.
Тип датасета | Используется в сервисах | Пример файла |
---|---|---|
csv/faq | Классификаторы, FAQ | Скачать |
csv/texts-and-labels | Классификаторы | Скачать |
json/any | Любые | — |
json/caila-intents | Классификаторы, FAQ | Скачать |
json/faq | Классификаторы, FAQ | Скачать |
json/lines | Сервис дообучения LLM | Скачать |
json/texts-and-labels | Классификаторы | Скачать |
json/texts | CDQA, loadtest | Скачать |
json/transformer-fit | Класси фикаторы | — |
plain/texts | CDQA, loadtest | Скачать |
xlsx/faq | Классификаторы, FAQ | Скачать |
json/tts-dictionary | aimyvoice-custom | Скачать |
В названиях типов вначале указан формат данных, например json
или csv
; после слеша — тип содержимого датасета.
Форматы данных
Формат | Описание | Расширение |
---|---|---|
plain | Простой текст без определенного формата. | Обычно TXT |
json | Текстовый формат, который хранит простые структуры данных и ассоциативные массивы (объекты). | JSON |
csv | Текстовый формат, где каждое значение отделено запятой или другим разделителем. Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности. | CSV |
xlsx | Формат используется в программах для электронных таблиц, например Microsoft Excel. Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности. | XLS, XLSX |
Типы содержимого датасетов
Тип | Описание |
---|---|
any | Файл произвольного формата. Используйте этот тип, если встроенные типы для вас не подходят. Сервис должен самостоятельно проверять, что содержимое датасета корректно. |
caila‑intents | Файл с интентами, экспортированными из проекта JAICP. Подробнее об экспорте интентов и структуре данных читайте в документации JAICP. |
faq | Файл с вопросами и ответами, а также дополнительными полями. Предназначен для обучения сервиса FAQ, который используется в JAICP. Подробнее о возможных полях читайте в документации JAICP. |
lines | Файл, в котором каждая строка — объект в формате JSON. |
texts | Файл, в котором каждая строка — простой текст без определенного формата. |
texts‑and‑labels | Файл с текстами и соответствующими им метками. |
transformer‑fit | Файл внутреннего технического формата. |
tts-dictionary | Файл, в котором каждый текст соответствует ожидаемому произношению. Используется для настройки синтеза речи в Aimyvoice. |
Автоматическая конвертация
В Caila реализована автоматическая конвертация одного типа содержимого датасета в другой:
caila-intents
→faq
;caila-intents
→texts-and-labels
;faq
→caila-intents
;texts-and-labels
→transformer-fit
.
Если вы загружаете датасет одного формата, а сервис требует другой, платформа попытается самостоятельно конвертировать ваш датасет. Таким образом, автоматическая конвертация расширяет список сервисов, которые вы можете обучить с помощью вашего датасета.
Тип содержимого может быть сконвертирован несколько раз, например: caila-intents
→ texts-and-labels
→ transformer-fit
.
Помимо конвертации типов содержимого, также поддержана конвертация форматов данных, например csv
→ xlsx
.