Чат с документами

Следующий шаг в обработке информации

Вместо того чтобы полагаться на общедоступные наборы данных и общие знания, «Чат с документами» генерирует контекстно-специфические ответы и анализы на основе ваших доверенных внутренних ресурсов. Загрузите ваши документы и используйте их как основу для ответов на вопросы в чате!

Решение проблемы ограничений данных

Если вы задаете вопросы языковой модели, вы зависите от набора данных, на котором обучена модель. Обычно это информация с интернета. Неб public источники, вероятно, не входят в этот набор. Используя ваши документы в качестве источника для чата, вы точно знаете, что у модели есть информация, необходимая для ответов на ваши вопросы.

Возможности с вашими документами

Вы можете задавать вопросы по вашим документам, например перечислять основные пункты документа или делать его резюме. Также можно поручить языковой модели выполнить конкретный анализ с использованием вашей собственной базы данных.

Недостатки документ-ориентированного чата

Загрузка документов и их обработка — это дополнительные шаги, которые вам не нужны, если можно получить удовлетворительный ответ без контекста конкретной информации. Также требуется больше времени на генерацию ответа, потому что нужно сначала извлечь необходимую информацию из документа, прежде чем запрос будет отправлен языковой модели.

За кулисами чата с документами

Текст из загруженных вами документов извлекается из документа и разбивается на фрагменты. У каждого фрагмента фиксированное количество символов (1024 символа), установлен перекрытие между фрагментами (128 символов). Каждый фрагмент текста сохраняется как вектор в векторной базе данных. При каждом вопросе мы формируем выборку из этих данных на основе их сходства с задаваемым вопросом.

Процесс выбора фрагментов документа

Фрагменты текста уже преобразованы в векторы. Векторы имеют несколько измерений, которые указывают, насколько «похож» этот текст на другой текст. Подобно системе RGB. Цвет с похожим значением RGB — похожий цвет, но немного другой. Векторная база данных позволяет нам извлекать фрагменты текста в упорядоченном и фильтрованном виде на основе задаваемого вопроса. Мы выбираем максимум 100 фрагментов текста по 1024 символа для отправки вместе с вопросом.

Подходящие модели для документ-орiented чата

Мы выбрали модели с большим контекстным окном, чтобы сделать возможным чат с документами. Мы хотим отправлять максимум 100 фрагментов текста по 1024 символа. Это более 100 000 символов. Предпочтительно используйте высококачественную языковую модель из центрального каталога моделей.

Подходящие модели

Подходящие модели — это модели с достаточным контекстным окном и хорошим анализом документов, такие как высококачественные модели от OpenAI, Claude, Google или европейские AI.

Выберите один или несколько документов

Вы можете включить режим файлов, нажав на скрепку справа от панели запроса. Вы можете выбрать до 10 файлов для чата.

Подходящие языковые модели

На момент начала чата с документами проверяется, подходит ли языковая модель для чата с документами. Если нет, автоматически выбирается подходящая модель из актуального каталога.

Вы можете общаться с этими документами, пока режим файлов включен.

Обработка по каждому файлу

Помимо чата с документами, AI-Public также предоставляет возможность отдельно применять подсказку к каждому документу и получать индивидуальные ответы. Эта функция называется Обработка по каждому файлу.

Обработка по каждому файлу

Эта функция может использоваться в сочетании с «Чат с файлами».

Вариант применения

Практический пример использования «Обработка по каждому файлу»:

Вы загружаете справочный документ и включаете его в раздел Чат с файлами
Вы загружаете несколько документов, которые нужно проанализировать, и включаете их в раздел Обработка по каждому файлу
Вы формулируете подсказку, которая применяется к каждому файлу отдельно

Так вы, например, можете автоматически анализировать все документы на основе справочного документа.

Максимальное число файлов

Для функции «Обработка по каждому файлу» действует лимит в 30 файлов.

Поддерживаемые типы файлов

AI-Public поддерживает различные типы файлов для чатирования с документами:

PDF-файлы (.pdf)
Word документы (.docx)
CSV-файлы (.csv)
JSON-файлы (.json)
Текстовые файлы (.txt)
Аудио и видео файлы с расширениями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' или 'webm'

Чат с аудио- или видеофайлами

AI-School сначала транскрибирует аудио- и видеофайлы выбранным поставщиком транскрипции. В разговорах результат может содержать временные блоки и метки говорящих. Затем подходящая текстовая модель может исправить пунктуацию, орфографию, метки говорящих и специальные термины. Длинные файлы могут обрабатываться иначе из-за ограничений поставщика и модели.

Решение проблемы ограничений данных​

Возможности с вашими документами​

Недостатки документ-ориентированного чата​

За кулисами чата с документами​

Процесс выбора фрагментов документа​

Подходящие модели для документ-орiented чата​

Выберите один или несколько документов​

Обработка по каждому файлу​

Вариант применения​

Поддерживаемые типы файлов​

Чат с аудио- или видеофайлами​

Решение проблемы ограничений данных

Возможности с вашими документами

Недостатки документ-ориентированного чата

За кулисами чата с документами

Процесс выбора фрагментов документа

Подходящие модели для документ-орiented чата

Выберите один или несколько документов

Обработка по каждому файлу

Вариант применения

Поддерживаемые типы файлов

Чат с аудио- или видеофайлами