Gå til hovedindhold

Chat med dokumenter

Næste skridt i informationsbehandling

I stedet for at basere dig på offentlige datasæt og generel viden, genererer "Chat med Dokumenter" kontekst-specifikke svar og analyser baseret på dine betroede interne kilder. Upload dine dokumenter og brug disse dokumenter som grundlag for at besvare spørgsmål i chatten!

Løsning af databegrænsninger

Hvis du stiller spørgsmål til en sprogmodel, er du afhængig af datasættet, som modellen er trænet på. Dette er generelt information indsamlet fra internettet. Ikke-offentlige kilder er sandsynligvis ikke inkluderet i dette datasæt. Ved at bruge dine dokumenter som kilde for chatten kan du være sikker på, at modellen har den information, du har brug for til at besvare dine spørgsmål.

Muligheder med dine dokumenter

Du kan stille spørgsmål om dine dokumenter, såsom at nævne hovedpunkterne i et dokument eller at opsummere dokumentet. Du kan også få modellen til at udføre specifikke analyser ved hjælp af dit eget datasæt.

Ulemper ved dokumentbaseret chat

Upload af dokumenter og behandlingen heraf er ekstra skridt, som du ikke behøver at tage, hvis du også uden konteksten af specifik information kan få et udtrykligt svar. Det tager også længere tid at generere et svar, fordi den nødvendige information skal trækkes ud af dokumentet, før anmodningen kan sendes til sprogmodellen.

Bag kulissen af chat med dokumenter

Teksten fra de dokumenter, du uploader, udvindes fra dokumentet og opdeles i bidder. Disse bidder har et fast antal tegn (1024 tegn), og vi har også indstillet en overlapping (128 tegn) mellem bidderne. Hver tekstbit gemmes som en vektor i en vektor-database. Ved hvert spørgsmål udvælges der ud fra lighed med det stillede spørgsmål.

Udvælgelsesproces af dokumentfragmenter

Tekststykkerne er allerede omdannet til vektorer. Vektorer har flere dimensioner, der angiver hvor “ens” disse tekster er i forhold til andre tekster. Tænk på RGB-farvesystemet. En farve med en tilsvarende RGB-værdi er også en tilsvarende farve, blot lidt forskellig. Vektor-databasen gør det muligt for os at hente tekst bidder organiseret og filtreret ud fra spørgsmålet. Vi vælger maksimalt 100 tekstbidder af 1024 tegn at sende sammen med spørgsmålet.

Passende modeller til dokumentbaseret chat

Vi har valgt modeller med stort kontekstvindue for at gøre det muligt at chatte med dokumenter. Vi vil gerne kunne sende op til 100 bidder tekst af 1024 tegn. Det er mere end 100.000 tegn. Brug derfor foretrukket et højkvalitets sprogmodel fra den centrale modelkatalog.

Passende modeller

Passende modeller er modeller med tilstrækkelig kontekstrum og god dokumentanalyse, såsom høj-kvalitetsmodeller fra OpenAI, Claude, Google eller Europæisk AI.

Vælg et eller flere dokumenter

Du kan aktivere filtilstanden ved at klikke på papirklippet til højre for spørgsmålsfeltet. Du kan vælge op til 10 filer til chat.

Passende sprogmodeller

På det tidspunkt du begynder at chatte med dokumenter, bliver det kontrolleret, om sprogmodellen er egnet til chat med dokumenter. Hvis ikke, vælges automatisk et passende model fra den aktuelle katalog.

Du chatter med disse dokumenter, så længe filtilstanden er slået til.

Behandling per fil

Ud over at chatte med dokumenter tilbyder AI-Public også muligheden for at anvende en prompt separat på hvert dokument og modtage individuelle svar. Denne funktion kaldes Behandling per fil.

Behandling per fil

Denne funktion kan bruges i kombination med "Chat med filer".

Potentielt scenarie

Et praktisk eksempel på brug af "Behandling per fil":

  1. Upload et referencedokument og aktiver ved Chat med filer
  2. Upload flere dokumenter, der skal analyseres, og aktiver ved Behandling per fil
  3. Formuler en prompt, der anvendes på alle filer individuelt

På denne måde kan du for eksempel få alle dokumenter analyseret automatisk baseret på referencedokumentet.

Maksimalt antal filer

Der gælder en maksimum på 30 filer for funktionen "Behandling per fil".

Understøttede filtyper

AI-Public understøtter forskellige filtyper til chat med dokumenter:

  • PDF-filer som slutter på .pdf
  • Word-filer som slutter på .docx
  • CSV-filer som slutter på .csv
  • JSON-filer som slutter på .json
  • Tekstfiler som slutter på .txt
  • Lyd- og videofiler med filtypenavne 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' eller 'webm'

Chat med lyd- eller videofiler

Til chat med lyd- eller videofiler anvender AI-Public OpenAI Whisper-model.

Efter tekstrivning kan et passende tekstmodel bruges til at kontrollere og rette interpunktion og stavemåde.

Derefter følger den samme procedure som udtrækning fra PDF- eller Word-dokumenter.

Whisper har en grænse på 25 MB per lyd- eller videofil. Vi håndhæver derfor den samme grænse ved upload af nye filer.

Filer, du kan downloade som eksempel

Eksempel på virksomhedsrapport Eksempel på projektplan Grov historik dokument

Behandle og genbruge filer

Filer, som du uploader, bliver først behandlet, før AI-Public kan bruge indholdet i chats, assistenter og workflows. Hvis behandlingen fejler, får filen en fejlstatus, og du kan uploade den igen eller få den behandlet igen fra Filbehandling.

For PDF'er kan AI-Public bruge den sædvanlige tekstlag og, når det er nødvendigt, udføre en mere omfattende PDF-analyse. Dette er nyttigt ved scannede dokumenter, udfyldte formularer, håndskrevne noter, afgrænsede eller understregede valg, tabeller og visuel information. Store PDF'er kan opdele under behandlingen i mindre dele.

Når en formular eller et workflow beder om en fil, kan du uploade en ny fil eller vælge en eksisterende via midlertidig filhåndtering. Filer tilføjet via en sådan formular er tilgængelige for assistenten i den pågældende chat, men vælges ikke automatisk til almindelige chatspørgsmål.

Markdown-filer med filtypenavnet .md understøttes også.