メインコンテンツへスキップ

ドキュメントとのチャット

情報処理の次のステップ

公開データセットと一般的な知識に依存する代わりに、「ドキュメントとのチャット」は、信頼できる内部ソースに基づいてコンテキスト特有の回答と分析を生成します。文書をアップロードし、これらの文書をチャットの質問回答の基礎として使用してください。

データ制限の解消

言語モデルに質問する場合、モデルがトレーニングされたデータセットに依存します。通常はインターネットから取得した情報です。公開されていないソースはこのデータセットには含まれていない可能性があります。チャットの情報源としてあなたの文書を使用することで、モデルがあなたの質問に必要な情報を持っていることを確実にできます。

あなたの文書を使う利点

自分の文書について、文書の主要点を挙げる、文書を要約するなどの質問をすることができます。また、独自のデータセットを用いて、言語モデルに特定の分析を実行させることも可能です。

文書ベースのチャットの欠点

文書をアップロードして処理するには追加の手順が必要です。特定情報の文脈なしでも十分に回答を得られる場合、これらの手順は不要です。また、文書から必要な情報を取得してモデルへリクエストを送る前に、処理に時間がかかることがあります。

ドキュメントでのチャットの裏側

アップロードした文書のテキストは文書から抽出され、一定の長さ(1024文字)で分割されます。分割には重複(128文字)も設定します。各テキストの断片はベクトルとしてベクトルデータベースに保存されます。質問ごとにこのデータから、質問と類似度に基づいて選択が行われます。

文書断片の選択プロセス

断片はすでにベクトル化されています。ベクトルには複数の次元があり、他のテキストとの“類似度”を示します。RGBカラー値を例に挙げると、類似したRGB値は類似した色ですが、少し異なることがあります。ベクトルデータベースは、質問に基づいてテキスト断片を整列・フィルタリングして取得することを可能にします。質問と一致する最大100の断片を選択して、質問とともに送信します。

文書ベースのチャットに適したモデル

文書とチャットできるように、広いコンテキスト窓を持つモデルを選定しました。最大で100断片、各断片1024文字を送ることを想定しています。これらは合計で100,000文字以上になります。中央のモデルカタログから高品質モデルを優先的に使用してください。

適切なモデル

適切なモデルとは、十分なコンテキスト領域と優れた文書分析能力を備えたモデルのことです。OpenAI、Claude、Google、欧州AIの高品質モデルなどです。

1つまたは複数の文書を選択

質問バーの右側にあるクリップのアイコンをクリックしてファイルモードを有効にできます。チャットに使用するファイルは最大10件まで選択できます。

適切な言語モデル

文書とチャットを開始するとき、文書チャットに適した言語モデルかどうかを検証します。適切でない場合は、現在のカタログから自動的に適切なモデルが選択されます。

この文書に対して、ファイルモードを有効にしている限り、チャットを継続します。

ファイルごとに処理

文書とのチャットに加え、AI-Public では各文書に個別のプロンプトを適用して個別の回答を受け取る機能も提供します。この機能は「ファイルごとに処理」と呼ばれます。

ファイルごとに処理

この機能は「ファイル付きチャット」と併用して使用できます。

典型的なシナリオ

「ファイルごとに処理」機能の実用例:

  1. 参照文書をアップロードし、ファイル付きチャットを有効にします
  2. 分析対象の複数の文書をアップロードし、ファイルごとに処理を有効にします
  3. すべてのファイルに対して適用されるプロンプトを作成します

この方法で、参照文書に基づいてすべての文書を自動的に分析させるなどの運用が可能です。

最大ファイル数

「ファイルごとに処理」機能には最大30ファイルの制限があります。

対応するファイルタイプ

AI-Public は文書とのチャットに向けて、さまざまなファイルタイプをサポートします。

  • PDF (.pdf)
  • Word (.docx)
  • CSV (.csv)
  • JSON (.json)
  • テキスト (.txt)
  • 音声・動画ファイル(拡張子: mp3, mp4, mpeg, mpga, m4a, wav, webm)

音声または動画ファイルとのチャット

音声または動画ファイルのチャットには、OpenAI の Whisper モデルを使用します。

テキスト抽出後、適切なテキストモデルを用いて句読点や綴りの確認・修正を行います。

その後、PDFまたはWord文書の抽出と同じ手順を適用します。

Whisper の音声/動画ファイルあたりの制限は25MBです。新しいファイルのアップロード時にも同じ制限を適用します。

ダウンロード可能なサンプルファイル

企業レポートのサンプル プロジェクト計画のサンプル 履歴が大きい文書のサンプル

ファイルを処理して再利用する

アップロードしたファイルは、AI-Public がチャット、アシスタント、およびワークフローで内容を利用できるように処理されます。処理に失敗した場合、ファイルにはエラーステータスが付与され、再アップロードまたは「ファイル管理」から再処理できます。

PDF の場合、通常のテキスト層を使用できます。必要に応じて、より詳しい PDF 分析を実行します。これはスキャン文書、手書きノート、囲まれたまたは下線付きの選択、表、視覚情報などに有用です。大きなPDFは処理中に分割されることがあります。

フォームやワークフローがファイルを要求する場合、新しいファイルをアップロードするか、メディアマネージャー経由で既存ファイルを選択します。フォーム経由で追加されたファイルは、チャットのアシスタントには利用可能ですが、通常のチャット質問には自動的には選択されません。

拡張子 .md の Markdown ファイルもサポートされます。