Przejdź do głównej treści

Chat z dokumentami

Kolejny krok w przetwarzaniu informacji

Zamiast polegać na publicznych zestawach danych i ogólnej wiedzy, „Chat z dokumentami” generuje kontekstowo specyficzne odpowiedzi i analizy na podstawie Twoich zaufanych źródeł wewnętrznych. Prześlij swoje dokumenty i używaj ich jako podstawy do odpowiadania na pytania w czacie!

Rozwiązywanie ograniczeń danych

Jeżeli zadajesz pytania modelowi językowemu, jesteś zależny od zestawu danych, na którym model był trenowany. Zwykle są to informacje pochodzące z internetu. Niepubliczne źródła prawdopodobnie nie znajdują się w tym zestawie danych. Korzystając z Twoich dokumentów jako źródła dla czatu, masz pewność, że model ma informacje, których potrzebujesz, aby odpowiedzieć na Twoje pytania.

Możliwości dzięki Twoim dokumentom

Możesz zadawać pytania dotyczące Twoich dokumentów, takie jak wymienienie najważniejszych punktów dokumentu lub streszczenie dokumentu. Możesz również zlecić modelowi językowemu wykonanie konkretnych analiz przy użyciu Twojego własnego zestawu danych.

Wady czatowania opartego na dokumentach

Przesyłanie dokumentów i ich przetwarzanie to dodatkowe kroki, których nie musisz wykonywać, jeśli potrafisz uzyskać dobre odpowiedzi bez kontekstu konkretnej informacji. Generowanie odpowiedzi zajmuje również więcej czasu, ponieważ najpierw trzeba wydobyć potrzebne informacje z dokumentu, zanim żądanie zostanie wysłane do modelu językowego.

Za kulisami czatu z dokumentami

Tekst z dokumentów, które przesyłasz, jest wydobywany z dokumentu i dzielony na fragmenty. Te fragmenty mają stałą liczbę znaków (1024 znaki) i mamy również ustawiony nakład (128 znaków) między fragmentami. Każdy kawałek tekstu jest przechowywany jako wektor w bazie wektorów. Do każdorazowego pytania dobieramy dane na podstawie podobieństwa do zadawanej prośby.

Proces wyboru fragmentów dokumentu

Fragmenty tekstu zostały już przekształcone w wektory. Wektory mają wiele wymiarów, które określają, jak „podobny” jest ten tekst do innych. Pomyśl o systemie RGB. Kolor o podobnej wartości RGB to również podobny kolor, ale nie identyczny. Baza danych wektorów umożliwia zapytanie o fragmenty tekstu w kolejności i z filtrowaniem na podstawie pytania. Wybieramy maksymalnie 100 fragmentów tekstu o 1024 znakach, które mają być przesłane razem z pytaniem.

Odpowiednie modele do czatowania opartego na dokumentach

Wybraliśmy modele z dużą przestrzenią kontekstu, aby umożliwić czatowanie z dokumentami. Chcemy móc przekazać maksymalnie 100 fragmentów po 1024 znaki. To ponad 100 000 znaków. Do tego używaj przede wszystkim wysokiej jakości modelu językowego z centralnego katalogu modeli.

Odpowiednie modele

Odpowiednie modele to takie, które mają wystarczającą przestrzeń kontekstową i dobrą analizę dokumentów, takie jak wysokiej jakości modele OpenAI, Claude, Google lub europejskie AI.

Wybierz jeden lub więcej dokumentów

Możesz włączyć tryb plików, klikając ikonę spinacza po prawej stronie paska pytań. Możesz wybrać do 10 plików do czatowania.

Odpowiednie modele językowe

W momencie rozpoczęcia czatowania z dokumentami sprawdzane jest, czy model językowy jest odpowiedni do czatowania z dokumentami. Jeśli nie, automatycznie zostanie wybrany odpowiedni model z aktualnego katalogu.

Możesz czatować z tymi dokumentami tak długo, jak tryb plików jest włączony.

Przetwarzanie według pliku

Oprócz czatowania z dokumentami, AI-Public oferuje również możliwość zastosowania promptu osobno do każdego dokumentu i uzyskania indywidualnych odpowiedzi. Ta funkcja nazywa się Przetwarzanie per plik.

Przetwarzanie per plik

Funkcja ta może być używana w połączeniu z „Chat z plikami”.

Scenariusz możliwy

Praktyczny przykład użycia „Przetwarzanie per plik”:

  1. Przesyłasz dokument referencyjny i włączasz go w sekcji Chat z plikami
  2. Przesyłasz wiele dokumentów do analizy i włączasz je w sekcji Przetwarzanie per plik
  3. Formułujesz prompt, który zostanie zastosowany do wszystkich plików indywidualnie

W ten sposób możesz na przykład automatycznie poddać wszystkie dokumenty analizie w oparciu o dokument referencyjny.

Maksymalna liczba plików

Obowiązuje maksymalnie 30 plików dla funkcji „Przetwarzanie per plik”.

Obsługiwane typy plików

AI-Public obsługuje różne typy plików do czatowania z dokumentami:

  • pliki PDF o rozszerzeniu .pdf
  • pliki Word o rozszerzeniu .docx
  • pliki CSV o rozszerzeniu .csv
  • pliki JSON o rozszerzeniu .json
  • pliki tekstowe o rozszerzeniu .txt
  • pliki audio i wideo z rozszerzeniami 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' lub 'webm'

Czatowanie z plikami audio lub wideo

Do czatowania z plikami audio lub wideo AI-Public używa modelu Whisper od OpenAI.

Po ekstrakcji tekstu można użyć odpowiedniego modelu językowego do sprawdzenia i poprawienia interpunkcji i pisowni.

Następnie obowiązuje ta sama procedura co ekstrakcja z dokumentów PDF lub Word.

Whisper ma limit 25 MB na plik audio lub wideo. Stosujemy ten sam limit przy przesyłaniu nowych plików.

Pliki, które możesz pobrać jako przykład

Przykładowy raport firmy Przykładowy plan projektu Duży dokument historii

Przetwarzanie i ponowne użycie plików

Pliki, które przesyłasz, najpierw są przetwarzane, zanim AI-Public będzie mógł użyć ich zawartości w czatach, asystentach i przepływach pracy. Jeśli przetwarzanie się nie powiedzie, plik otrzyma status błędu i możesz go ponownie przesłać lub ponownie przetworzyć z poziomu Zarządzania plikami.

W przypadku plików PDF AI-Public może użyć zwykłej warstwy tekstu i w razie potrzeby przeprowadzić szerszą analizę PDF. Jest to przydatne dla dokumentów zeskanowanych, wypełnionych formularzy, odręcznych notatek, zaakcentowanych lub podkreślonych wyborów, tabel i danych wizualnych. Duże PDF-y mogą być podczas przetwarzania podzielone na mniejsze części.

Gdy formularz lub przepływ pracy wymaga pliku, możesz przesłać nowy plik lub wybrać istniejący plik poprzez menedżer multimediów. Pliki dodane za pomocą takiego formularza będą dostępne dla asystenta w danej czacie, ale nie będą automatycznie wybrane do zwykłych pytań czatowych.

Pliki Markdown z rozszerzeniem .md również są obsługiwane.