メインコンテンツへスキップ

オーディオ文字起こしと会議要約

AI-Public は OpenAI のリアルタイム API を使用して音声をテキストに変換する強力な文字起こし機能を提供します。文字起こしはリアルタイムで行われるので、テキストが正しく表示されているかを即座に確認できます。さらに、文字起こしを基に自動で会議要約を作成することも可能です。

スタート画面

文字起こしモジュールのスタート画面では、新規のリアルタイム録音を選ぶか、既存の音声ファイルをアップロードするかを選択できます。

音声の投入

文字起こしには、音声を投入する方法が2通りあります。

AI-Public での直接録音

大きな「Start Opname(録音開始)」ボタンをクリックして、リアルタイム録音を開始します。録音を開始する前には、録音設定のダイアログが表示されます。

録音設定

録音を開始する際に、以下の設定を構成できます。

  1. 録音タイプ: 音質を最適化するための録音タイプを選択します。

    • プライベート録音: マイクに近い1人用(ポッドキャスト、個人的メモ)
    • 会議(標準): 複数の話者が同じ部屋にいる場合
    • 授業またはプレゼンテーション: 主講者がいて、対話の可能性がある場合

    選択に基づいて適切な音声フィルターが適用されます:

    • プライベート録音には Near-field フィルター
    • 会議には フィルターなし(全ての話者を正確に捉えるため)
    • 授業・プレゼンには Far-field フィルター
  2. 音声の録音保存: 録音中の音声を保存するかどうかを選択します。

    • はい: 音声は Firebase Storage に保存されます
    • いいえ: 文字起こしテキストのみが保存されます
  3. 音声アップロード間隔(音声録音を選択した場合のみ):

    • 音声が保存される間隔を設定します(1–15分)
    • デフォルト: 5分
    • 短い間隔(例: 1–2分): より多くの音声ファイルになりますが、コンピュータのクラッシュ時には安全性が高くなります
    • 長い間隔(例: 10–15分): ファイル数は少なくなりますが、技術的な問題での損失リスクが高まります

既存の音声ファイルを使用

以前に録音した音声ファイルを AI-Public にアップロードすることもできます。「音声ファイルを選択」をクリックしてファイルを選択します。対応形式は MP3、WAV、M4A、WebM です。

ライブ文字起こし

文字起こし中、AI-Public は OpenAI のリアルタイム API を使用します。これにより、リアルタイムで読み進めたり、文字起こしが正しく表示されているかを確認できます。

注意: 文字起こしが話し言葉と 100% 一致しない場合は以下を実行してください。

  • 発話をより明確に、はっきりと話す
  • 使っているマイクが良好かを確認
  • スピーカーの近くにマイクを適切に配置する
  • 設定の録音タイプを正しく選択する

会議要約

録音および文字起こしの後、会議要約を自動で作成します。タブ「会議要約」に切り替え、「会議要約を作成」ボタンをクリックします。

会議要約は文字起こしとアクティブなプロンプトを基に自動的に作成されます。

高度な設定

プロンプトの管理

会議要約のプロンプトを完全にカスタマイズして管理できます。「プロンプトを設定」をクリックして、プロンプト設定ダイアログを開きます。

標準プロンプト

AI-Public は2つの標準プロンプトを提供します。

  1. 標準会議: 一般的なセクションを含む構造化された会議要約を作成します
  2. 話者認識付き: 話者認識を含む会議要約を作成し、各話者に一意の番号を付けます

独自プロンプト

自分のカスタムプロンプトを作成することもできます。

  • 「独自プロンプトを追加」をクリック
  • プロンプトに名前を付ける
  • 会議要約をどう作成すべきかの指示を記述
  • プロンプトを保存

すべてのカスタムプロンプトはアカウントに保存され、将来の文字起こしですぐに利用できます。

履歴の管理

過去の文字起こしの履歴を表示・管理できます。ボタン「履歴」をクリックします。

履歴では以下を実行できます。

  • タイトル、日付、内容で検索
  • 鉛筆アイコンをクリックしてタイトルを編集
  • もう一度閲覧・編集するために文字起こしをロード
  • もう必要のない文字起こしを削除
  • 文字起こしに音声が含まれていれば「音声を再生」

文字起こしの活用

文字起こしをさまざまな方法で活用できます。

  • コピー: コピー用ボタンで文字起こしをコピー
  • PDF にエクスポート: 文字起こしを PDF としてダウンロード
  • チャットで使用: チャットに貼り付けて質問や分析を実施
  • 会議要約をエクスポート: 会議要約を PDF または Word にエクスポート

自動音声共有

ライブ文字起こし中、AI-Public は音声をセグメントごとに保存します。バックグラウンドでアップロード・処理され、接続・ブラウザ・デバイスの中断時にも長時間の録音を保護します。

間隔アップロードはリアルタイム録音を止めません。各間隔は独立した WAV 音声ファイルとして保存され、処理サービスが完全で有効な音声ファイルを受け取れるようにします。録音を停止した時点で最後の部分も保存されます。

音声データの処理に失敗した場合、録音自体は継続します。終了後にファイル状態を確認し、必要に応じてその部分を再アップロードまたは再処理してください。