Przejdź do głównej treści

Chat z dokumentami

Kolejny krok w przetwarzaniu informacji

Zamiast polegać na publicznych zestawach danych i ogólnej wiedzy, „Chat z dokumentami” generuje kontekstowo specyficzne odpowiedzi i analizy na podstawie Twoich zaufanych źródeł wewnętrznych. Prześlij swoje dokumenty i używaj ich jako podstawy do odpowiadania na pytania w czacie!

Rozwiązywanie ograniczeń danych

Jeżeli zadajesz pytania modelowi językowemu, jesteś zależny od zestawu danych, na którym model był trenowany. Zwykle są to informacje pochodzące z internetu. Niepubliczne źródła prawdopodobnie nie znajdują się w tym zestawie danych. Korzystając z Twoich dokumentów jako źródła dla czatu, masz pewność, że model ma informacje, których potrzebujesz, aby odpowiedzieć na Twoje pytania.

Możliwości dzięki Twoim dokumentom

Możesz zadawać pytania dotyczące Twoich dokumentów, takie jak wymienienie najważniejszych punktów dokumentu lub streszczenie dokumentu. Możesz również zlecić modelowi językowemu wykonanie konkretnych analiz przy użyciu Twojego własnego zestawu danych.

Wady czatowania opartego na dokumentach

Przesyłanie dokumentów i ich przetwarzanie to dodatkowe kroki, których nie musisz wykonywać, jeśli potrafisz uzyskać dobre odpowiedzi bez kontekstu konkretnej informacji. Generowanie odpowiedzi zajmuje również więcej czasu, ponieważ najpierw trzeba wydobyć potrzebne informacje z dokumentu, zanim żądanie zostanie wysłane do modelu językowego.

Za kulisami czatu z dokumentami

Tekst z dokumentów, które przesyłasz, jest wydobywany z dokumentu i dzielony na fragmenty. Te fragmenty mają stałą liczbę znaków (1024 znaki) i mamy również ustawiony nakład (128 znaków) między fragmentami. Każdy kawałek tekstu jest przechowywany jako wektor w bazie wektorów. Do każdorazowego pytania dobieramy dane na podstawie podobieństwa do zadawanej prośby.

Proces wyboru fragmentów dokumentu

Fragmenty tekstu zostały już przekształcone w wektory. Wektory mają wiele wymiarów, które określają, jak „podobny” jest ten tekst do innych. Pomyśl o systemie RGB. Kolor o podobnej wartości RGB to również podobny kolor, ale nie identyczny. Baza danych wektorów umożliwia zapytanie o fragmenty tekstu w kolejności i z filtrowaniem na podstawie pytania. Wybieramy maksymalnie 100 fragmentów tekstu o 1024 znakach, które mają być przesłane razem z pytaniem.

Odpowiednie modele do czatowania opartego na dokumentach

Wybraliśmy modele z dużą przestrzenią kontekstu, aby umożliwić czatowanie z dokumentami. Chcemy móc przekazać maksymalnie 100 fragmentów po 1024 znaki. To ponad 100 000 znaków. Do tego używaj przede wszystkim wysokiej jakości modelu językowego z centralnego katalogu modeli.

Odpowiednie modele

Odpowiednie modele to takie, które mają wystarczającą przestrzeń kontekstową i dobrą analizę dokumentów, takie jak wysokiej jakości modele OpenAI, Claude, Google lub europejskie AI.

Wybierz jeden lub więcej dokumentów

Możesz włączyć tryb plików, klikając ikonę spinacza po prawej stronie paska pytań. Możesz wybrać do 10 plików do czatowania.

Odpowiednie modele językowe

W momencie rozpoczęcia czatowania z dokumentami sprawdzane jest, czy model językowy jest odpowiedni do czatowania z dokumentami. Jeśli nie, automatycznie zostanie wybrany odpowiedni model z aktualnego katalogu.

Możesz czatować z tymi dokumentami tak długo, jak tryb plików jest włączony.

Przetwarzanie według pliku

Oprócz czatowania z dokumentami, AI-Public oferuje również możliwość zastosowania promptu osobno do każdego dokumentu i uzyskania indywidualnych odpowiedzi. Ta funkcja nazywa się Przetwarzanie per plik.

Przetwarzanie per plik

Funkcja ta może być używana w połączeniu z „Chat z plikami”.

Scenariusz możliwy

Praktyczny przykład użycia „Przetwarzanie per plik”:

  1. Przesyłasz dokument referencyjny i włączasz go w sekcji Chat z plikami
  2. Przesyłasz wiele dokumentów do analizy i włączasz je w sekcji Przetwarzanie per plik
  3. Formułujesz prompt, który zostanie zastosowany do wszystkich plików indywidualnie

W ten sposób możesz na przykład automatycznie poddać wszystkie dokumenty analizie w oparciu o dokument referencyjny.

Maksymalna liczba plików

Obowiązuje maksymalnie 30 plików dla funkcji „Przetwarzanie per plik”.

Obsługiwane typy plików

AI-Public obsługuje różne typy plików do czatowania z dokumentami:

  • pliki PDF o rozszerzeniu .pdf
  • pliki Word o rozszerzeniu .docx
  • pliki CSV o rozszerzeniu .csv
  • pliki JSON o rozszerzeniu .json
  • pliki tekstowe o rozszerzeniu .txt
  • pliki audio i wideo z rozszerzeniami 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' lub 'webm'

Czat z plikami audio lub wideo

AI-School najpierw transkrybuje pliki audio i wideo przy użyciu ustawionego dostawcy transkrypcji. Przy rozmowach wynik może zawierać bloki czasowe i etykiety mówców. Następnie odpowiedni model tekstowy może poprawić interpunkcję, pisownię, etykiety mówców i terminy fachowe. Długie pliki mogą być przetwarzane inaczej niż krótkie ze względu na limity dostawcy i modelu.

WhatsApp