Ir para o conteúdo principal

Chat com documentos

O próximo passo no processamento de informações

Em vez de depender de conjuntos de dados públicos e conhecimento geral, "Chat com Documentos" gera respostas e análises context-specíficas com base em suas fontes internas confiáveis. Faça upload dos seus documentos e use-os como base para responder a perguntas no chat!

Solução de limitações de dados

Ao fazer perguntas a um modelo de linguagem, você depende do conjunto de dados com o qual o modelo foi treinado. Geralmente é informação retirada da internet. Fontes não públicas provavelmente não estão nesse conjunto de dados. Ao usar seus documentos como fonte para o chat, você tem certeza de que o modelo possui as informações necessárias para responder às suas perguntas.

Possibilidades com seus documentos

Você pode fazer perguntas sobre seus documentos, como listar os pontos principais de um documento ou resumir o documento. Também é possível solicitar análises específicas ao modelo de linguagem usando seu próprio conjunto de dados.

Desvantagens do chat baseado em documentos

O upload de documentos e o processamento deles são etapas extras que você não precisa se puder obter uma boa resposta sem o contexto de informações específicas. Além disso, leva mais tempo para gerar uma resposta, pois as informações necessárias precisam ser extraídas do documento antes que a solicitação possa ser enviada ao modelo de linguagem.

Nos bastidores do chat com documentos

O texto dos documentos que você faz upload é extraído do documento e dividido em partes. Essas partes têm um número fixo de caracteres (1024 caracteres) e também definimos uma sobreposição (128 caracteres) entre as partes. Cada pedaço de texto é armazenado como um vetor em um banco de dados de vetores. A cada pergunta, é feita uma seleção com base na semelhança com a pergunta.

Processo de seleção de fragmentos de documentos

Os trechos de texto já foram convertidos em vetores. Vetores têm várias dimensões que indicam quão “parecido” esse texto está com outro texto. Pense no sistema de cores RGB. Uma cor com valor RGB semelhante também é uma cor semelhante, mas levemente diferente. O banco de vetores nos permite recuperar os trechos de texto classificados e filtrados com base na pergunta feita. Selecionamos no máximo 100 trechos de 1024 caracteres para enviar junto com a pergunta.

Modelos adequados para chat baseado em documentos

Selecionamos modelos com um grande fende de contexto para tornar possível conversar com documentos. Queremos poder enviar no máximo 100 trechos de 1024 caracteres. Isso é mais de 100.000 caracteres. Para isso, utilize preferencialmente um modelo de linguagem de alto nível da catálogo central de modelos.

Modelos adequados

Modelos adequados são modelos com espaço de contexto suficiente e boa análise de documentos, como os modelos de alta qualidade da OpenAI, Claude, Google ou AI Europeia.

Selecione um ou mais documentos

Você pode ligar o modo de arquivo clicando no clipe no lado direito da barra de perguntas. Lá você pode escolher até 10 arquivos para conversar.

Modelos de linguagem adequados

Ao começar a conversar com documentos, é verificado se o modelo de linguagem é adequado para chat com documentos. Se não for, um modelo adequado é automaticamente selecionado a partir do catálogo atual.

Você conversa com esses documentos enquanto o modo de arquivo estiver ativo.

Processar por arquivo

Além de conversar com documentos, o AI-Public também oferece a possibilidade de aplicar um prompt separadamente a cada documento e receber respostas individuais. Essa função é chamada de Processar por arquivo.

Processar por arquivo

Essa função pode ser usada em combinação com "Chat com arquivos".

Cenário possível

Um exemplo prático de uso de "Processar por arquivo":

  1. Você faz upload de um documento de referência e o ativa em Chat com arquivos
  2. Você faz upload de vários documentos que precisam ser analisados e os ativa em Processar por arquivo
  3. Você formula um prompt, que é aplicado a todos os arquivos individualmente

Dessa forma, você pode, por exemplo, fazer com que todos os documentos sejam analisados automaticamente com base no documento de referência.

Número máximo de arquivos

Há um máximo de 30 arquivos para a função "Processar por arquivo".

Tipos de arquivo suportados

AI-Public suporta diferentes tipos de arquivo para o chat com documentos:

  • Arquivos PDF com extensão .pdf
  • Arquivos Word com extensão .docx
  • Arquivos CSV com extensão .csv
  • Arquivos JSON com extensão .json
  • Arquivos de texto com extensão .txt
  • Arquivos de áudio e vídeo com as extensões 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' ou 'webm'

Conversar com arquivos de áudio ou vídeo

Para conversar com arquivos de áudio ou vídeo, o AI-Public utiliza o modelo Whisper da OpenAI.

Após a extração de texto, pode ser utilizado um modelo de texto adequado para checar e corrigir pontuação e ortografia.

Em seguida, segue o mesmo procedimento de extração de PDFs ou documentos Word.

O Whisper tem um limite de 25 MB por arquivo de áudio ou vídeo. Por isso, aplicamos o mesmo limite ao enviar novos arquivos.

Arquivos que você pode baixar como exemplo

Relatório de empresa de exemplo Exemplo de plano de projeto Documento histórico grande

Processar e reutilizar arquivos

Arquivos que você faz upload são processados primeiro antes que o AI-Public possa usar o conteúdo em chats, assistentes e fluxos de trabalho. Se o processamento falhar, o arquivo recebe um status de erro e você pode reenviá-lo ou processá-lo novamente a partir do Gerenciador de Arquivos.

Para PDFs, o AI-Public pode usar a camada de texto comum e, quando necessário, realizar uma análise de PDF mais detalhada. Isso é útil para documentos digitalizados, formulários preenchidos, notas manuscritas, opções marcadas ou sublinhadas, tabelas e informações visuais. PDFs grandes podem ser divididos em partes menores durante o processamento.

Quando um formulário ou fluxo de trabalho solicita um arquivo, você pode fazer upload de um novo arquivo ou selecionar um arquivo existente via o gerenciador de mídia. Arquivos adicionados por meio de tal formulário ficam disponíveis para a assistente naquele chat, mas não são automaticamente selecionados para perguntas de chat comuns.

Arquivos Markdown com a extensão .md também são suportados.