برو به محتوای اصلی

چت با اسناد

مرحله بعدی در پردازش اطلاعات

به جای تکیه بر مجموعه‌های داده عمومی و دانش عمومی، «چت با اسناد» پاسخ‌ها و تحلیل‌های مرتبط با زمینه را بر پایه منابع داخلی قابل اعتماد شما تولید می‌کند. اسناد خود را آپلود کنید و از این اسناد به عنوان منبع برای پاسخ به سوالات در چت استفاده کنید!

رفع محدودیت‌های داده

اگر از یک مدل زبانی سوال بپرسید، به مجموعه داده‌ای که مدل بر اساس آن آموزش دیده است وابسته هستید. این به طور کلی اطلاعاتی است که از اینترنت گردآوری شده است. منابع غیرعمومی احتمالاً در این مجموعه گنجانده نشده‌اند. با استفاده از اسناد شما به عنوان منبع برای چت، مطمئن می‌شوید که مدل به اطلاعاتی که برای پاسخ به سوالات شما نیاز دارید دسترسی دارد.

امکانات با اسناد شما

می‌توانید درباره اسناد خود سوال بپرسید مانند ذکر نکات اصلی یک سند یا خلاصه‌کردن سند. همچنین می‌توانید تحلیل‌های خاصی توسط مدل زبانی با استفاده از مجموعه داده‌های خود انجام دهید.

معایب چت مبتنی بر سند

بارگذاری اسناد و پردازش آن‌ها کارهای اضافی هستند که لازم نیست انجام دهید اگر با متن خاصی به عنوان زمینه بتوانید بدون آن پاسخ خوبی بگیرید. همچنین تولید پاسخ طول می‌کشد زیرا ابتدا باید اطلاعات لازم از سند استخراج شود قبل از اینکه درخواست به مدل زبان ارسال گردد.

پشت صحنه چت با اسناد

متن از اسنادی که شما آپلود می‌کنید از سند استخراج شده و به قطعات تقسیم می‌شود. این قطعات دارای تعدادی کاراکتر مشخص هستند (1024 کاراکتر) و همچنین همپوشی تعیین شده‌ای (128 کاراکتر) بین قطعات وجود دارد. هر تکه متن به عنوان یک بردار در یک دیتابیس برداری ذخیره می‌شود. با هر سوال، از این داده‌ها بر اساس تشابه با سوال استخراج می‌شود.

فرایند انتخاب تکه‌های سند

تکه‌های متن قبلاً به بردار تبدیل شده‌اند. بردارها ابعاد متعددی دارند که نشان می‌دهد چقدر این متن با متن دیگر «یک‌دست» است. به زبان ساده مانند سیستم رنگ RGB. رنگی با مقدار RGB مشابه رنگی مشابه است اما با تفاوت جزئی. دیتابیس بردارها به ما امکان می‌دهد تکه‌های متن را به صورت مرتب و فیلترشده با توجه به سوالی که مطرح می‌شود بازیابی کنیم. ما حداکثر ۱۰۰ تکه متن از ۱۰۲۴ کاراکتر را برای ارسال با سوال انتخاب می‌کنیم.

مدل‌های مناسب برای چت مبتنی بر سند

ما مدل‌هایی با پنجره کانتکست بزرگ را انتخاب کرده‌ایم تا امکان چت با اسناد فراهم شود. ما می‌خواستیم حداکثر ۱۰۰ تکه متن از ۱۰۲۴ کاراکتر را بتوانیم ارسال کنیم. این بیشتر از ۱۰۰٬۰۰۰ کاراکتر است. لطفاً از یک مدل زبانی باکیفیت بالا از کاتالوگ مدل مرکزی استفاده کنید.

مدل‌های مناسب

مدل‌های مناسب مدل‌هایی هستند با فضای کانتکست کافی و تجزیه‌وتحلیل خوب اسناد، مانند مدل‌های باکیفیت OpenAI، Claude، Google یا هوش مصنوعی اروپایی.

انتخاب یک یا چند سند

می‌توانید حالت فایل را با کلیک روی گیره در سمت راست میکروفن سوال فعال کنید. تا حداکثر ۱۰ فایل را می‌توانید برای چت انتخاب کنید.

مدل‌های زبان مناسب

هنگام آغاز چت با اسناد، بررسی می‌شود که آیا مدل زبان مناسب چت با اسناد است یا نه. اگر نباشد، به طور خودکار یک مدل مناسب از کاتالوگ فعلی انتخاب می‌شود.

با این اسناد تا زمانی که حالت فایل روشن است، چت کنید.

پردازش فایل به تفکیک

علاوه بر چت با اسناد، AI-Public همچنین امکان اعمال یک پرامپ خاص بر هر سند و دریافت پاسخ‌های جداگانه را ارائه می‌دهد. این قابلیت «پردازش هر فایل» نام دارد.

پردازش هر فایل

این قابلیت می‌تواند با «چت با فایل‌ها» ترکیب شود.

سناریوی ممکن

مثالی عملی از استفاده از «پردازش هر فایل»:

  1. شما یک سند مرجع را آپلود می‌کنید و آن را با «Chat با فایل‌ها» فعال می‌کنید
  2. چندین سند آپلود می‌کنید که باید تحلیل شوند و آن‌ها را با «پردازش هر فایل» فعال می‌کنید
  3. پرامپی را فرمول‌بندی می‌کنید که به صورت جداگانه بر همه فایل‌ها اعمال می‌شود

به این ترتیب می‌توانید مثلاً تمام اسناد را به طور خودکار بر اساس سند مرجع تحلیل کنید.

حداکثر تعداد فایل‌ها

برای ویژگی «پردازش هر فایل»، حداکثر ۳۰ فایل وجود دارد.

فرمت‌های فایل پشتیبانی‌شده

AI-Public فرمت‌های مختلف فایل را برای چت با اسناد پشتیبانی می‌کند:

  • فایل‌های PDF با پسوند .pdf
  • فایل‌های Word با پسوند .docx
  • فایل‌های CSV با پسوند .csv
  • فایل‌های JSON با پسوند .json
  • فایل‌های متنی با پسوند .txt
  • فایل‌های صوتی و تصویری با پسوندهای 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' یا 'webm'

چت با فایل‌های صوتی یا ویدئویی

برای چت با فایل‌های صوتی یا ویدئویی، AI-Public از مدل Whisper شرکت OpenAI استفاده می‌کند.

پس از استخراج متن می‌توان از یک مدل متنی مناسب برای بررسی و اصلاح نقطه‌گذاری و املا استفاده کرد.

سپس همان روال استخراج از PDF یا Word دنبال می‌شود.

Whisper حد مجاز ۲۵ مگابایت برای هر فایل صوتی یا ویدئویی دارد. به همین محدودیت برای آپلود فایل‌های جدید پایبندیم.

فایل‌هایی که می‌توانید به عنوان نمونه دانلود کنید

گزارش شرکت نمونه نمونه برنامه پروژه سند تاریخچه بزرگ

پردازش و استفاده مجدد فایل‌ها

فایل‌هایی که آپلود می‌کنید ابتدا پردازش می‌شوند تا AI-Public بتواند محتوای آنها را در چت‌ها، دستیاران و گردش‌کارها استفاده کند. اگر پردازش موفق نباشد، فایل وضعیت خطا می‌گیرد و می‌توانید دوباره آپلود یا دوباره پردازش کنید از مدیریت فایل.

برای PDFها، AI-Public می‌تواند از لایه متن معمول استفاده کند و در صورت نیاز تجزیه و تحلیل PDF گسترده‌تری انجام دهد. این برای اسناد اسکن‌شده، فرم‌های پرشده، یادداشت‌های دست‌نویس، انتخاب‌های محیطی یا زیرخط‌دار، جداول و اطلاعات دیداری مفید است. فایل‌های بزرگ PDF می‌توانند در طول پردازش به قطعات کوچکتری تقسیم شوند.

وقتی فرمی یا گردش کار به یک فایل نیاز دارد، می‌توانید یک فایل جدید آپلود کنید یا از طریق مدیر رسانه یک فایل موجود را انتخاب کنید. فایل‌هایی که از طریق چنین فرم‌هایی اضافه می‌شوند، برای دستیار در همان چت در دسترس هستند، اما به طور خودکار برای سوالات عادی چت انتخاب نمی‌شوند.

فایل‌های Markdown با پسوند .md نیز پشتیبانی می‌شوند.