ドキュメントとのチャット
情報処理の次のステップ
公開データセットと一般的な知識に依存する代わりに、「ドキュメントとのチャット」は、信頼できる内部ソースに基づいてコンテキスト特有の回答と分析を生成します。文書をアップロードし、これらの文書をチャットの質問回答の基礎として使用してください。
データ制限の解消
言語モデルに質問する場合、モデルがトレーニングされたデータセットに依存します。通常はインターネットから取得した情報です。公開されていないソースはこのデータセットには含まれていない可能性があります。チャットの情報源としてあなたの文書を使用することで、モデルがあなたの質問に必要な情報を持っていることを確実にできます。
あなたの文書を使う利点
自分の文書について、文書の主要点を挙げる、文書を要約するなどの質問をすることができます。また、独自のデータセットを用いて、言語モデルに特定の分析を実行させることも可能です。
文書ベースのチャットの欠点
文書をアップロードして処理するには追加の手順が必要です。特定情報の文脈なしでも十分に回答を得られる場合、これらの手順は不要です。また、文書から必要な情報を取得してモデルへリクエストを送る前に、処理に時間がかかることがあります。
ドキュメントでのチャットの裏側
アップロードした文書のテキストは文書から抽出され、一定の長さ(1024文字)で分割されます。分割には重複(128文字)も設定します。各テキストの断片はベクトルとしてベクトルデータベースに保存されます。質問ごとにこのデータから、質問と類似度に基づいて選択が行われます。
文書断片の選択プロセス
断片はすでにベクトル化されています。ベクトルには複数の次元があり、他のテキストとの“類似度”を示します。RGBカラー値を例に挙げると、類似したRGB値は類似した色ですが、少し異なることがあります。ベクトルデータベースは、質問に基づいてテキスト断片を整列・フィルタリングして取得することを可能にします。質問と一致する最大100の断片を選択して、質問とともに送信します。