Chat med dokumenter
Neste steg i informasjonsbehandling
I stedet for å stole på åpne datasett og generell kunnskap genererer "Chat med Dokumenter" kontekstspesifikke svar og analyser basert på dine betrodde interne kilder. Last opp dokumentene dine og bruk disse dokumentene som grunnlag for å svare på spørsmål i chatten!
Løse databegrensninger
Når du Still spørsmål til en språkmodell, er du avhengig av datasettet modellen er trent på. Dette er vanligvis informasjon hentet fra nettet. Ikke-offentlige kilder er sannsynligvis ikke i dette datasettet. Ved å bruke dokumentene dine som kilde for chatten, vet du at modellen har den informasjonen du trenger for å svare på spørsmålene dine.
Muligheter med dine dokumenter
Du kan stille spørsmål om dokumentene dine, som å nevne hovedpunktene i et dokument eller oppsummere dokumentet. Du kan også få modellen til å utføre spesifikke analyser ved hjelp av ditt eget datasett.
Ulemper med dokumentbasert chat
Å laste opp dokumenter og behandle dem er ekstra steg som du slipper hvis du også kan få svar uten kontekst av spesifikk informasjon. Det tar også lengre tid å generere et svar fordi nødvendig informasjon må hentes fra dokumentet før forespørselen kan sendes til språkmodellen.
Bak kulissene ved dokumentbasert chat
Teksten fra dokumentene du laster opp blir hentet ut og delt opp i tekstblokker. Disse blokkene har et fast antall tegn (1024 tegn), og vi har også en overlapp innstilt (128 tegn) mellom blokkene. Hver tekstbit lagres som en vektor i en vektor-database. For hver forespørsel blir dataene filtrert og valgt basert på likhet med spørsmålet.
Utvalgsprosess av dokumentfragmenter
Tekstbitene er allerede omgjort til vektorer. Vektorene har flere dimensjoner som angir hvor “like” denne teksten er til annen tekst. Tenk på RGB-fargemodulen. En farge med tilsvarende RGB-verdi er også en tilsvarende farge, men litt annerledes. Vektor-databasen gjør at vi kan hente opp tekstbiter sortert og filtrert etter spørsmålet som stilles. Vi velger maksimalt 100 tekstbiter på 1024 tegn å sende med forespørselen.
Passende modeller for dokumentbasert chat
Vi har valgt modeller med stort kontekstvindu for å muliggjøre chat med dokumenter. Vi ønsker å kunne sende maksimalt 100 tekstbiter på 1024 tegn. Dette er mer enn 100.000 tegn. Bruk derfor foretrukket et høyverdig språkmodell fra den sentrale modellkatalogen.
Passende modeller er modeller med tilstrekkelig kontekstrom og god dokumentanalyse, slik som høykvalitetsmodellene fra OpenAI, Claude, Google eller europeisk AI.
Velg ett eller flere dokumenter
Du kan slå på filmodus ved å klikke på bindersen høyre i spørsmålspanelet. Du kan velge opptil 10 filer å chatte med.
Når du begynner å chatte med dokumenter, blir det verifisert om språkmodellen er egnet for chat med dokumenter. Hvis ikke, blir det automatisk valgt en passende modell fra den gjeldende katalogen.
Du chatte med disse dokumentene så lenge filmodus er på.
Behandle per fil
I tillegg til chat med dokumenter, tilbyr AI-Public også muligheten til å kjøre en prompt separat på hvert dokument og motta individuelle svar. Denne funksjonen kalles Behandle per fil.

Denne funksjonen kan brukes i kombinasjon med "Chat med filer".
Mulig scenario
Et praktisk eksempel på bruk av "Behandle per fil":
- Du laster opp et referanse-dokument og setter det på i Chat med filer
- Du laster opp flere dokumenter som skal analyseres og setter dem på i Behandle per fil
- Du formulerer en prompt som anvendes på alle filer individuelt i forhold til hverandre
På denne måten kan du for eksempel få alle dokumenter automatisk analysert basert på referanse-dokumentet.
Det gjelder en maksgrense på 30 filer for funksjonen "Behandle per fil".
Støttede filtyper
AI-Public støtter forskjellige filtyper for chat med dokumenter:
- PDF-filer som slutter på .pdf
- Word-filer som slutter på .docx
- CSV-filer som slutter på .csv
- JSON-filer som slutter på .json
- Tekstfiler som slutter på .txt
- Lyd- og videofiler med utvidelsene 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' eller 'webm'
Chat med lyd- eller videofiler
For chat med lyd- eller videofiler bruker AI-Public OpenAI sitt Whisper-modell.
Etter teksterestaurering kan et passende tekstmodell brukes for å kontrollere og rette interpunktion og rettskrivning.
Deretter følger samme prosedyre som ved uttrekk fra PDF- eller Word-dokumenter.
Whisper har en grense på 25 MB per lyd- eller videofil. Vi bruker derfor samme grense ved opplasting av nye filer.
Filer du kan laste ned som eksempel
Eksempel på bedriftsrapport Eksempel prosjektplan Gammelt historikk-dokument
Behandle filer og gjenbruke
Filer du laster opp blir først behandlet før AI-Public kan bruke innholdet i chatter, assistenter og arbeidsflyter. Hvis behandlingen mislykkes, får filen en feilkode og du kan laste den opp på nytt eller la den behandles igjen fra Filbehandling.
For PDF-er kan AI-Public bruke den vanlige tekst-laget og, når det er nødvendig, utføre en mer omfattende PDF-analyse. Dette er nyttig for skannede dokumenter, utfylte skjemaer, håndskrevne notater, omskrevet eller understreket valg, tabeller og visuell informasjon. Store PDF-er kan deles opp i mindre deler under prosessen.
Når et skjema eller en arbeidsflyt ber om en fil, kan du laste opp en ny fil eller velge en eksisterende via mediehåndteringen. Filer som legges til via et slikt skjema, er tilgjengelige for assistenten i den aktuelle chatten, men blir ikke automatisk valgt for vanlige chat-spørsmål.
Markdown-filer med utvidelsen .md støttes også.