Типы данных для обучения
Caila поддерживает ряд типов данных, на которых можно обучать и тестировать обучаемые сервисы.
| Тип датасета | Используется в сервисах | Пример файла |
|---|---|---|
csv/faq | Классификаторы, FAQ | Скачать |
csv/texts-and-labels | Классификаторы | Скачать |
json/any | Любые | — |
json/caila-intents | Классификаторы, FAQ | Скачать |
json/faq | Классификаторы, FAQ | Скачать |
json/lines | Сервис дообучения LLM | Скачать |
json/texts-and-labels | Классификаторы | Скачать |
json/texts | CDQA, loadtest | Скачать |
json/transformer-fit | Классификаторы | — |
plain/texts | CDQA, loadtest | Скачать |
xlsx/faq | Классификаторы, FAQ | Скачать |
json/tts-dictionary | aimyvoice-custom | Скачать |
В названиях типов вначале указан формат данных, например json или csv; после слеша — тип содержимого датасета.
Форматы данных
| Формат | Описание | Расширение |
|---|---|---|
plain | Простой текст без определенного формата. | Обычно TXT |
json | Текстовый формат, который хранит простые структуры данных и ассоциативные массивы (объекты). | JSON |
csv | Текстовый формат, где каждое значение отделено запятой или другим разделителем. Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности. | CSV |
xlsx | Формат используется в программах для электронных таблиц, например Microsoft Excel. Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности. | XLS, XLSX |