Chatta med dokument
Nästa steg i informationsbearbetning
I stället för att förlita dig på offentliga datasets och allmän kunskap genererar "Chatta med Dokument" kontextspecifika svar och analyser baserade på dina betrodda interna källor. Ladda upp dina dokument och använd dessa dokument som grund för att besvara frågor i chatten!
Lösning av databegränsningar
Om du ställer frågor till en språkmodell är du beroende av datasetet som modellen är tränad på. Detta är i allmänhet information hämtad från internet. Icke-offentliga källor ligger troligen inte i detta dataset. Genom att använda dina dokument som källa för chatten vet du att modellen har den information du behöver för att besvara dina frågor.
Möjligheter med dina dokument
Du kan ställa frågor om dina dokument, såsom att nämna huvudpunkterna i ett dokument eller sammanfatta det. Du kan också låta språkmodellen utföra specifika analyser med hjälp av ditt eget dataset.
Nackdelar med dokumentbaserad chat
Att ladda upp dokument och bearbeta dem är extra steg som du inte behöver ta om du ändå kan få bra svar utan kontext av specifik information. Det tar också längre tid att generera ett svar eftersom nödvändig information ur dokumentet först måste hämtas innan begäran skickas till språkmodellen.
Bakom kulisserna av dokumentbaserad chat
Texten från de dokument du laddar upp hämtas ur dokumentet och delas upp i bitar. Dessa bitar har ett fast antal tecken (1024 tecken) och vi har också satt en överlappning (128 tecken) mellan bitarna. Varje textstycke sparas som en vektor i en vektordatabas. Vid varje fråga görs ett urval ur dessa data baserat på likhet med den ställda frågan.
Urvalsprocess för dokumentfragment
Textbitarna har redan konverterats till vektorer. Vektorer har flera dimensioner som indikerar hur ”lika” denna text är med annan text. Tänk på RGB-färgsystemet. En färg med liknande RGB-värde är också en liknande färg men lite annorlunda. Vektordatabasen gör det möjligt för oss att hämta textbitarna organiserade och filtrerade baserat på frågan som ställs. Vi väljer upp till 100 textbitar på 1024 tecken att skicka med frågan.
Passande modeller för dokumentbaserad chat
Vi har valt modeller med stort kontextfönster för att möjliggöra chatta med dokument. Vi vill kunna skicka upp till 100 bitar av text på 1024 tecken. Detta är mer än 100 000 tecken. Använd därför gärna en högkvalitativ språkmodell från central modellkatalog.
Passande modeller är modeller med tillräckligt kontextrymd och god dokumentanalys, såsom högkvalitetsmodeller från OpenAI, Claude, Google eller europeisk AI.
Välj ett eller flera dokument
Du kan slå på fil-läget genom att klicka på gem-clippen till höger om frågefältet. Du kan välja upp till 10 filer att chatta med.
När du börjar chatta med dokument kontrolleras om språkmodellen är lämplig för dokumentbaserad chat. Om så inte är fallet väljs automatiskt en lämplig modell ur den aktuella katalogen.
Du chatar med dessa dokument så länge fil-läget är påslaget.
Bearbeta per fil
Förutom att chatta med dokument erbjuder AI-Public också möjlighet att tillämpa en prompt separat på varje dokument och få individuella svar. Denna funktion kallas Bearbeta per fil.

Denna funktion kan användas i kombination med "Chatta med filer".
Möjligt scenario
Ett praktiskt exempel på användning av "Bearbeta per fil":
- Du laddar upp ett referensdokument och aktiverar i Chatta med filer
- Du laddar upp flera dokument som ska analyseras och aktiverar i Bearbeta per fil
- Du formulerar en prompt som tillämpas på varje fil individuellt
På så sätt kan du till exempel låta samtliga dokument automatiskt analyseras utifrån referensdokumentet.
Det gäller ett.max 30 filer för funktionen "Bearbeta per fil".
Stödja filtyper
AI-Public stödjer olika filtyper för chatta med dokument:
- PDF-filer som slutar på .pdf
- Word-filer som slutar på .docx
- CSV-filer som slutar på .csv
- JSON-filer som slutar på .json
- Textfiler som slutar på .txt
- Ljud- och videofiler med extensionerna 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' eller 'webm'
Chatta med ljud- eller videofiler
För att chatta med ljud- eller videofiler används OpenAI:s Whisper-modell av AI-Public.
Efter textutvinning kan en lämplig textmodell användas för att kontrollera och korrigera interpunktion och stavning.
Därefter följer samma procedur som vid utvinning från PDF- eller Word-dokument.
Whisper har en gräns på 25 MB per ljud- eller videofil. Vi tillämpar därför samma gräns vid uppladdning av nya filer.
Filer du kan ladda ned som exempel
Exempelföretagsrapport Exempel projektplan Stor historik dokument
Bearbeta och återanvänd filer
Filer som du laddar upp bearbetas först innan AI-Public kan använda innehållet i chatten, assistenter och arbetsflöden. Om bearbetningen misslyckas får filen ett felstatus och du kan ladda upp den igen eller bearbeta igen från Filhantering.
För PDFs kan AI-Public använda den ordinarie textlagen och när det behövs genomföra en mer omfattande PDF-analys. Detta är användbart för skannade dokument, ifyllda formulär, handskrivna anteckningar, omkryssade eller understrukna val, tabeller och visuell information. Stora PDFs kan delas upp i mindre delar under bearbetningen.
När ett formulär eller arbetsflöde kräver en fil kan du ladda upp en ny fil eller välja en befintlig fil via mediabarsena. Filer som läggs till via ett sådant formulär är tillgängliga för assistenten i den chatten, men väljs inte automatiskt för vanliga chatfrågor.
Markdown-filer med ändelsen .md stöds också.