Перейти к основному содержимому

Чат с документами

Следующий шаг в обработке информации

Вместо того чтобы полагаться на общедоступные наборы данных и общие знания, «Чат с документами» генерирует контекстно-специфические ответы и анализы на основе ваших доверенных внутренних ресурсов. Загрузите ваши документы и используйте их как основу для ответов на вопросы в чате!

Решение проблемы ограничений данных

Если вы задаете вопросы языковой модели, вы зависите от набора данных, на котором обучена модель. Обычно это информация с интернета. Неб public источники, вероятно, не входят в этот набор. Используя ваши документы в качестве источника для чата, вы точно знаете, что у модели есть информация, необходимая для ответов на ваши вопросы.

Возможности с вашими документами

Вы можете задавать вопросы по вашим документам, например перечислять основные пункты документа или делать его резюме. Также можно поручить языковой модели выполнить конкретный анализ с использованием вашей собственной базы данных.

Недостатки документ-ориентированного чата

Загрузка документов и их обработка — это дополнительные шаги, которые вам не нужны, если можно получить удовлетворительный ответ без контекста конкретной информации. Также требуется больше времени на генерацию ответа, потому что нужно сначала извлечь необходимую информацию из документа, прежде чем запрос будет отправлен языковой модели.

За кулисами чата с документами

Текст из загруженных вами документов извлекается из документа и разбивается на фрагменты. У каждого фрагмента фиксированное количество символов (1024 символа), установлен перекрытие между фрагментами (128 символов). Каждый фрагмент текста сохраняется как вектор в векторной базе данных. При каждом вопросе мы формируем выборку из этих данных на основе их сходства с задаваемым вопросом.

Процесс выбора фрагментов документа

Фрагменты текста уже преобразованы в векторы. Векторы имеют несколько измерений, которые указывают, насколько «похож» этот текст на другой текст. Подобно системе RGB. Цвет с похожим значением RGB — похожий цвет, но немного другой. Векторная база данных позволяет нам извлекать фрагменты текста в упорядоченном и фильтрованном виде на основе задаваемого вопроса. Мы выбираем максимум 100 фрагментов текста по 1024 символа для отправки вместе с вопросом.

Подходящие модели для документ-орiented чата

Мы выбрали модели с большим контекстным окном, чтобы сделать возможным чат с документами. Мы хотим отправлять максимум 100 фрагментов текста по 1024 символа. Это более 100 000 символов. Предпочтительно используйте высококачественную языковую модель из центрального каталога моделей.

Подходящие модели

Подходящие модели — это модели с достаточным контекстным окном и хорошим анализом документов, такие как высококачественные модели от OpenAI, Claude, Google или европейские AI.

Выберите один или несколько документов

Вы можете включить режим файлов, нажав на скрепку справа от панели запроса. Вы можете выбрать до 10 файлов для чата.

Подходящие языковые модели

На момент начала чата с документами проверяется, подходит ли языковая модель для чата с документами. Если нет, автоматически выбирается подходящая модель из актуального каталога.

Вы можете общаться с этими документами, пока режим файлов включен.

Обработка по каждому файлу

Помимо чата с документами, AI-Public также предоставляет возможность отдельно применять подсказку к каждому документу и получать индивидуальные ответы. Эта функция называется Обработка по каждому файлу.

Обработка по каждому файлу

Эта функция может использоваться в сочетании с «Чат с файлами».

Вариант применения

Практический пример использования «Обработка по каждому файлу»:

  1. Вы загружаете справочный документ и включаете его в раздел Чат с файлами
  2. Вы загружаете несколько документов, которые нужно проанализировать, и включаете их в раздел Обработка по каждому файлу
  3. Вы формулируете подсказку, которая применяется к каждому файлу отдельно

Так вы, например, можете автоматически анализировать все документы на основе справочного документа.

Максимальное число файлов

Для функции «Обработка по каждому файлу» действует лимит в 30 файлов.

Поддерживаемые типы файлов

AI-Public поддерживает различные типы файлов для чатирования с документами:

  • PDF-файлы (.pdf)
  • Word документы (.docx)
  • CSV-файлы (.csv)
  • JSON-файлы (.json)
  • Текстовые файлы (.txt)
  • Аудио и видео файлы с расширениями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' или 'webm'

Чат с аудио- или видеофайлами

Для чата с аудио- или видеофайлами AI-Public использует модель Whisper от OpenAI.

После извлечения текста может быть использована подходящая языковая модель для проверки пунктуации и орфографии и их коррекции.

Далее следует такая же процедура, как извлечение из PDF или Word документов.

Whisper имеет лимит 25 МБ на аудио- или виде файл. Поэтому мы используем такой же лимит при загрузке новых файлов.

Файлы, которые можно скачать в качестве примера

Пример бизнес-отчета Пример проекта плана Грандиозный исторический документ

Обработка файлов и повторное использование

Загруженные вами файлы сначала обрабатываются, прежде чем AI-Public сможет использовать их содержимое в чатах, помощниках и рабочих процессах. Если обработка провалится, файл получает статус ошибки, и вы можете повторно загрузить его или повторно обработать через Управление файлами.

Для PDF AI-Public может использовать обычный текстовый слой и, при необходимости, выполнить более глубокий анализ PDF. Это полезно для отсканированных документов, заполненных форм, рукописных заметок, пометок кружками или подчеркиваниями, таблиц и визуальной информации. Большие PDF-файлы могут разбиваться на меньшие части во время обработки.

Когда форма или рабочий процесс запрашивает файл, вы можете загрузить новый файл или выбрать существующий через медиаменеджер. Файлы, добавляемые через такую форму, доступны помощнику в этом чате, но не автоматически выбираются для обычных чат-запросов.

Markdown-файлы с расширением .md также поддерживаются.