Chat cu documente
Următorul pas în prelucrarea informației
În loc să te bazezi pe seturi de date publice și pe cunoștințe generale, „Chat cu Documente” generează răspunsuri și analize context-specifice pe baza surselor tale interne de încredere. Încarcă documentele tale și folosește aceste documente ca bază pentru a răspunde la întrebări în chat!
Rezolvarea limitelor de date
Dacă pui întrebări unui model de limbaj, ești dependent de setul de date cu care a fost antrenat modelul. Aceasta este, în general, informația de pe internet. Sursele nepublice probabil nu sunt în acest set de date. Prin folosirea documentelor tale ca sursă pentru chat, te asiguri că modelul are informațiile de care ai nevoie pentru a răspunde la întrebările tale.
Posibilități cu documentele tale
Poți pune întrebări despre documentele tale, cum ar fi enumerarea punctelor principale ale unui document sau rezumarea documentului. De asemenea, poți solicita analize specifice efectuate de modelul de limbaj folosind propriul tău set de date.
Dezavantajele chatului pe baza documentelor
Încărcarea documentelor și procesarea acestora implică pași suplimentari pe care nu trebuie să îi efectuezi dacă poți primi un răspuns bun fără contextul unor informații specifice. De asemenea, durează mai mult să generezi un răspuns deoarece este nevoie să se preia mai întâi informațiile din document înainte de a trimite cererea către modelul de limbaj.
În spatele scenei chatului cu documente
Textul din documentele pe care le încarci este extras din document și împărțit în bucăți. Aceste bucăți au un număr fix de caractere (1024 caractere) și am configurat, de asemenea, o suprapunere (128 de caractere) între bucăți. Fiecare bucată de text este stocată ca o vector în baza de vectori. La fiecare întrebare, se face o selecție din aceste date pe baza similitudinii cu întrebarea pusă.
Procesul de selecție a fragmentelor de document
Fragmentele de text au fost deja convertite în vectori. Vectorii au mai multe dimensiuni care indică cât de „aproape” este acest text de alte texte. Gândește-te la sistemul de culoare RGB. O culoare cu valoare RGB similară este de asemenea o culoare similară, doar puțin diferită. Baza de date vectorială ne permite să recuperăm fragmentele de text rânduite și filtrate în funcție de întrebarea pusă.
Selectăm maxim 100 de fragmente de text de 1024 de caractere pentru a le include în răspunsul către întrebare.
Modele potrivite pentru chatul pe baza documentelor
Am selectat modele cu un context mare pentru a facilita chat-ul cu documente. Dorim să putem include până la 100 de fragmente de text de 1024 de caractere. Acestea reprezintă peste 100.000 de caractere. Folosește, de preferință, un model de înaltă calitate din catalogul central de modele.
Modelele potrivite sunt modele cu suficient spațiu de context și bună analiză a documentelor, cum ar fi modelele de înaltă calitate de la OpenAI, Claude, Google sau AI UE.
Selectează unul sau mai multe documente
Poți activa modul de fișier prin apăsarea clipului de hârtie din partea dreaptă a barei de întrebări. Poți selecta până la 10 fișiere pentru chat.
În momentul în care începi să chat-ezi cu documente, se verifică dacă modelul de limbaj este potrivit pentru chat cu documente. Dacă nu este, se selectează automat un model potrivit din catalogul actual.
Poți conversa cu aceste documente atât timp cât modului de fișier i se menține activ.
Procesare per fișier
Pe lângă chatul cu documente, AI-Public oferă posibilitatea să aplici un prompt separat pentru fiecare document și să primești răspunsuri individuale. Această funcție se numește Procesare per fișier.

Această funcție poate fi utilizată în combinație cu „Chat cu fișiere”.
Scenariu posibil
Un exemplu practic de utilizare a „Procesare per fișier”:
- Încarci un document de referință și îl activezi în cadrul Chat cu fișiere
- Încarci mai multe documente care trebuie analizate și le activezi în cadrul Procesare per fișier
- Formulezi un prompt, aplicat tuturor fișierelor în mod individual
În acest fel poți, de exemplu, să analizezi automat toate documentele pe baza documentului de referință.
Există o limită de 30 de fișiere pentru funcția „Procesare per fișier”.
Tipuri de fișiere acceptate
AI-Public acceptă diferite tipuri de fișiere pentru chat cu documente:
- Fișiere PDF care au extensia .pdf
- Fișiere Word care au extensia .docx
- Fișiere CSV care au extensia .csv
- Fișiere JSON care au extensia .json
- Fișiere text care au extensia .txt
- Fișiere audio și video cu extensiile 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' sau 'webm'
Chat cu fișiere audio sau video
Pentru chatul cu fișiere audio sau video, AI-Public utilizează modelul Whisper de la OpenAI.
După extragerea textului, se poate utiliza un model de text potrivit pentru a verifica și corecta punctuația și ortografia.
Apoi urmează aceeași procedură ca și extragerea din fișiere PDF sau Word.
Whisper are o limită de 25 MB pe fișier audio sau video. De aceea aplicăm aceeași limită și la încărcarea de fișiere noi.
Fișiere pe care le poți descărca ca exemplu
Raport de afaceri exemplu Plan de proiect exemplu Document istoric important
Procesarea și reutilizarea fișierelor
Fișierele pe care le încarci sunt procesate mai întâi înainte ca AI-Public să poată utiliza conținutul în chaturi, asistenți și fluxuri de lucru. Dacă procesarea eșuează, fișierul primește statutul de eroare și îl poți reîncărca sau re- procesa din Managerul de fișiere.
La fișiere PDF, AI-Public poate utiliza stratul obișnuit de text și, atunci când este necesar, poate efectua o analiză PDF mai detaliată. Acest lucru este util pentru documente scanate, formulare completate, notițe scrise de mână, opțiuni circumscrise sau subliniate, tabele și informații vizuale. Fișierele PDF mari pot fi împărțite în părți mai mici în timpul procesării.
Când un formular sau un flux de lucru solicită un fișier, poți încărca un fișier nou sau poți alege un fișier existent prin administratorul media. Fișierele adăugate printr-un astfel de formular sunt disponibile pentru asistent în acel chat, dar nu sunt selectate automat pentru întrebări obișnuite de chat.
Fișiere Markdown cu extensia .md sunt de asemenea acceptate.