Перейти до основного змісту

Чат із документами

Наступний крок у обробці інформації

Замість того щоб покладатися на відкриті набори даних та загальні знання, «Чат із Документами» генерує контекстно-специфічні відповіді та аналітику на основі ваших надійних внутрішніх джерел. Завантажуйте свої документи і використовуйте ці документи як основу для відповідей у чаті!

Вирішення обмежень даних

Коли ви ставите запитання мовній моделі, ви залежите від набору даних, на яких навчалась модель. Зазвичай це інформація з інтернету. Непублічні джерела, ймовірно, не входять до цього набору даних. Використовуючи ваші документи як джерело для чату, ви можете бути впевнені, що модель має потрібну інформацію для відповідей.

Можливості з вашими документами

Ви можете ставити запитання щодо ваших документів, наприклад, називаті основні пункти документа або його резюме. Також можна запустити конкретні аналітики за допомогою мовної моделі з використанням вашого власного набору даних.

Недоліки документно-орієнтованого чату

Завантаження документів та їх обробка є додатковими кроками, які вам не потрібно виконувати, якщо відповіді можна отримати без контексту конкретної інформації. Також відповіді створюються повільніше, оскільки потрібно витягнути потрібну інформацію з документа перед відправкою запиту до мовної моделі.

За лаштунками чату з документами

Текст з документів, які ви завантажуєте, витягується з документа та ділиться на фрагменти. Ці фрагменти мають фіксовану кількість символів (1024 символи) і ми також встановили перекриття (128 символів) між фрагментами. Кожну порцію тексту зберігають як вектор у векторній базі даних. Під час кожного запиту з цих даних вибирають відповідні за схожістю з поставленим запитом.

Процес відбору фрагментів документа

Фрагменти вже перетворені на вектори. Вектори мають кілька вимірів, які вказують, наскільки «похожий» цей текст на інший текст. Подумайте про систему кольорів RGB. Колір з подібним RGB-значенням також подібний, але трохи інший. Векторна база даних дозволяє нам витягувати фрагменти тексту у відсортованому та фільтрованому вигляді за запитом.

Ми відбираємо максимум 100 фрагментів тексту довжиною 1024 символи для подальшого використання з запитом.

Підходящі моделі для документно-орієнтованого чату

Ми відібрали моделі з великим контекстним вікном, щоб забезпечити можливість чату з документами. Ми прагнемо мати можливість передавати до 100 фрагментів тексту довжиною 1024 символи. Це більше ніж 100 000 символів. Використовуйте, за можливості, якісну мовну модель із центрального каталогу моделей.

Підходящі моделі

Підходящі моделі — це моделі з достатнім контекстним вікном та гарним аналізом документів, такі як високоякісні моделі від OpenAI, Claude, Google або європейського штучного інтелекту.

Вибрати один або кілька документів

Ви можете увімкнути режим завантаження файлів, натиснувши на скріпку з правого боку рядка запиту. Можете обрати до 10 файлів для чату.

Підходящі мовні моделі

У момент старту чату з документами перевіряється, чи підходить мовна модель для чату з документами. Якщо ні, автоматично вибирається відповідна модель з актуального каталогу.

Почніть чат із цими документами, поки режим файлів увімкнено.

Обробка за кожним файлом

Окрім чату з документами, AI-Public також дозволяє застосувати окремий запит до кожного документа та отримати індивідуальні відповіді. Ця функція називається Обробка за кожним файлом.

Обробка за кожним файлом

Цю функцію можна використовувати разом із «Чат із файлами».

Можливий сценарій

Практичний приклад використання «Обробки за кожним файлом»:

  1. Завантажуєте референтний документ і вмикаєте його у Чат із файлами
  2. Завантажуєте кілька документів, які потрібно проаналізувати, та вмикаєте їх у Обробку за кожним файлом
  3. Формулюєте запит, який застосовується до всіх файлів індивідуально

Таким чином ви можете, наприклад, автоматично аналізувати всі документи на основі референтного документу.

Максимальна кількість файлів

Встановлено максимум 30 файлів для функції «Обробка за кожним файлом».

Підтримувані типи файлів

AI-Public підтримує різні типи файлів для чатування з документами:

  • PDF файли з розширенням .pdf
  • Word файли з розширенням .docx
  • CSV файли з розширенням .csv
  • JSON файли з розширенням .json
  • Текстові файли з розширенням .txt
  • Аудіо та відео файли з розширеннями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' або 'webm'

Чат із аудіо або відео файлами

Для чату з аудіо або відео файлами AI-Public використовує модель Whisper від OpenAI.

Після вилучення тексту може бути використана відповідна текстова модель для перевірки та виправлення пунктуації та орфографії.

Потім діє та сама процедура, що й витяг із PDF або Word документів.

Whisper має ліміт 25 МБ на аудіо або відео файл. Тому ми дотримуємося того ж ліміту під час завантаження нових файлів.

Файли, які можна завантажити як приклади

Приклад корпоративного звіту Приклад плану проекту Головний історичний документ

Обробка та повторне використання файлів

Файли, які ви завантажуєте, спочатку обробляються, перш ніж AI-Public зможе використати їхній вміст у чатах, асистентах та робочих процесах. Якщо обробка не вдалася, файл набуває статусу помилки, і ви можете повторно завантажити його або повторно обробити через Менеджер файлів.

Для PDF AI-Public може використати звичайний текстовий шар та, за потреби, провести більш глиблений аналіз PDF. Це корисно для відсканованих документів, заповнених форм, рукописних нотаток, виділених або обґресованих відповідей, таблиць та візуальної інформації. Великі PDF-файли можуть під час обробки розбитись на дрібніші частини.

Коли форма або робочий процес запитує файл, ви можете завантажити новий файл або вибрати існуючий через медіа-менеджер. Файли, додані через таку форму, доступні асистенту в тому чаті, але не автоматично вибрані для звичайних запитів.

Markdown-файли з розширенням .md також підтримуються.