Chat cu documente
Următorul pas în prelucrarea informației
În loc să te bazezi pe seturi de date publice și pe cunoștințe generale, „Chat cu Documente” generează răspunsuri și analize context-specifice pe baza surselor tale interne de încredere. Încarcă documentele tale și folosește aceste documente ca bază pentru a răspunde la întrebări în chat!
Rezolvarea limitelor de date
Dacă pui întrebări unui model de limbaj, ești dependent de setul de date cu care a fost antrenat modelul. Aceasta este, în general, informația de pe internet. Sursele nepublice probabil nu sunt în acest set de date. Prin folosirea documentelor tale ca sursă pentru chat, te asiguri că modelul are informațiile de care ai nevoie pentru a răspunde la întrebările tale.
Posibilități cu documentele tale
Poți pune întrebări despre documentele tale, cum ar fi enumerarea punctelor principale ale unui document sau rezumarea documentului. De asemenea, poți solicita analize specifice efectuate de modelul de limbaj folosind propriul tău set de date.
Dezavantajele chatului pe baza documentelor
Încărcarea documentelor și procesarea acestora implică pași suplimentari pe care nu trebuie să îi efectuezi dacă poți primi un răspuns bun fără contextul unor informații specifice. De asemenea, durează mai mult să generezi un răspuns deoarece este nevoie să se preia mai întâi informațiile din document înainte de a trimite cererea către modelul de limbaj.
În spatele scenei chatului cu documente
Textul din documentele pe care le încarci este extras din document și împărțit în bucăți. Aceste bucăți au un număr fix de caractere (1024 caractere) și am configurat, de asemenea, o suprapunere (128 de caractere) între bucăți. Fiecare bucată de text este stocată ca o vector în baza de vectori. La fiecare întrebare, se face o selecție din aceste date pe baza similitudinii cu întrebarea pusă.
Procesul de selecție a fragmentelor de document
Fragmentele de text au fost deja convertite în vectori. Vectorii au mai multe dimensiuni care indică cât de „aproape” este acest text de alte texte. Gândește-te la sistemul de culoare RGB. O culoare cu valoare RGB similară este de asemenea o culoare similară, doar puțin diferită. Baza de date vectorială ne permite să recuperăm fragmentele de text rânduite și filtrate în funcție de întrebarea pusă.
Selectăm maxim 100 de fragmente de text de 1024 de caractere pentru a le include în răspunsul către întrebare.
Modele potrivite pentru chatul pe baza documentelor
Am selectat modele cu un context mare pentru a facilita chat-ul cu documente. Dorim să putem include până la 100 de fragmente de text de 1024 de caractere. Acestea reprezintă peste 100.000 de caractere. Folosește, de preferință, un model de înaltă calitate din catalogul central de modele.
Modelele potrivite sunt modele cu suficient spațiu de context și bună analiză a documentelor, cum ar fi modelele de înaltă calitate de la OpenAI, Claude, Google sau AI UE.
Selectează unul sau mai multe documente
Poți activa modul de fișier prin apăsarea clipului de hârtie din partea dreaptă a barei de întrebări. Poți selecta până la 10 fișiere pentru chat.
În momentul în care începi să chat-ezi cu documente, se verifică dacă modelul de limbaj este potrivit pentru chat cu documente. Dacă nu este, se selectează automat un model potrivit din catalogul actual.
Poți conversa cu aceste documente atât timp cât modului de fișier i se menține activ.
Procesare per fișier
Pe lângă chatul cu documente, AI-Public oferă posibilitatea să aplici un prompt separat pentru fiecare document și să primești răspunsuri individuale. Această funcție se numește Procesare per fișier.

Această funcție poate fi utilizată în combinație cu „Chat cu fișiere”.
Scenariu posibil
Un exemplu practic de utilizare a „Procesare per fișier”:
- Încarci un document de referință și îl activezi în cadrul Chat cu fișiere
- Încarci mai multe documente care trebuie analizate și le activezi în cadrul Procesare per fișier
- Formulezi un prompt, aplicat tuturor fișierelor în mod individual
În acest fel poți, de exemplu, să analizezi automat toate documentele pe baza documentului de referință.
Există o limită de 30 de fișiere pentru funcția „Procesare per fișier”.
Tipuri de fișiere acceptate
AI-Public acceptă diferite tipuri de fișiere pentru chat cu documente:
- Fișiere PDF care au extensia .pdf
- Fișiere Word care au extensia .docx
- Fișiere CSV care au extensia .csv
- Fișiere JSON care au extensia .json
- Fișiere text care au extensia .txt
- Fișiere audio și video cu extensiile 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' sau 'webm'
Chat cu fișiere audio sau video
AI-School transcrie mai întâi fișierele audio și video cu furnizorul de transcriere configurat. În conversații, rezultatul poate conține intervale de timp și etichete de vorbitori. Apoi un model text potrivit poate corecta punctuația, ortografia, etichetele de vorbitori și termenii de specialitate. Fișierele lungi pot fi procesate diferit de cele scurte din cauza limitelor furnizorului și modelului.