چت با اسناد
مرحله بعدی در پردازش اطلاعات
به جای تکیه بر مجموعههای داده عمومی و دانش عمومی، «چت با اسناد» پاسخها و تحلیلهای مرتبط با زمینه را بر پایه منابع داخلی قابل اعتماد شما تولید میکند. اسناد خود را آپلود کنید و از این اسناد به عنوان منبع برای پاسخ به سوالات در چت استفاده کنید!
رفع محدودیتهای داده
اگر از یک مدل زبانی سوال بپرسید، به مجموعه دادهای که مدل بر اساس آن آموزش دیده است وابسته هستید. این به طور کلی اطلاعاتی است که از اینترنت گردآوری شده است. منابع غیرعمومی احتمالاً در این مجموعه گنجانده نشدهاند. با استفاده از اسناد شما به عنوان منبع برای چت، مطمئن میشوید که مدل به اطلاعاتی که برای پاسخ به سوالات شما نیاز دارید دسترسی دارد.
امکانات با اسناد شما
میتوانید درباره اسناد خود سوال بپرسید مانند ذکر نکات اصلی یک سند یا خلاصهکردن سند. همچنین میتوانید تحلیلهای خاصی توسط مدل زبانی با استفاده از مجموعه دادههای خود انجام دهید.
معایب چت مبتنی بر سند
بارگذاری اسناد و پردازش آنها کارهای اضافی هستند که لازم نیست انجام دهید اگر با متن خاصی به عنوان زمینه بتوانید بدون آن پاسخ خوبی بگیرید. همچنین تولید پاسخ طول میکشد زیرا ابتدا باید اطلاعات لازم از سند استخراج شود قبل از اینکه درخواست به مدل زبان ارسال گردد.
پشت صحنه چت با اسناد
متن از اسنادی که شما آپلود میکنید از سند استخراج شده و به قطعات تقسیم میشود. این قطعات دارای تعدادی کاراکتر مشخص هستند (1024 ک اراکتر) و همچنین همپوشی تعیین شدهای (128 کاراکتر) بین قطعات وجود دارد. هر تکه متن به عنوان یک بردار در یک دیتابیس برداری ذخیره میشود. با هر سوال، از این دادهها بر اساس تشابه با سوال استخراج میشود.
فرایند انتخاب تکههای سند
تکههای متن قبلاً به بردار تبدیل شدهاند. بردارها ابعاد متعددی دارند که نشان میدهد چقدر این متن با متن دیگر «یکدست» است. به زبان ساده مانند سیستم رنگ RGB. رنگی با مقدار RGB مشابه رنگی مشابه است اما با تفاوت جزئی. دیتابیس بردارها به ما امکان میدهد تکههای متن را به صورت مرتب و فیلترشده با توجه به سوالی که مطرح میشود بازیابی کنیم. ما حداکثر ۱۰۰ تکه متن از ۱۰۲۴ کاراکتر را برای ارسال با سوال انتخاب میکنیم.
مدلهای مناسب برای چت مبتنی بر سند
ما مدل هایی با پنجره کانتکست بزرگ را انتخاب کردهایم تا امکان چت با اسناد فراهم شود. ما میخواستیم حداکثر ۱۰۰ تکه متن از ۱۰۲۴ کاراکتر را بتوانیم ارسال کنیم. این بیشتر از ۱۰۰٬۰۰۰ کاراکتر است. لطفاً از یک مدل زبانی باکیفیت بالا از کاتالوگ مدل مرکزی استفاده کنید.
مدلهای مناسب مدلهایی هستند با فضای کانتکست کافی و تجزیهوتحلیل خوب اسناد، مانند مدلهای باکیفیت OpenAI، Claude، Google یا هوش مصنوعی اروپایی.
انتخاب یک یا چند سند
میتوانید حالت فایل را با کلیک روی گیره در سمت راست میکروفن سوال فعال کنید. تا حداکثر ۱۰ فایل را میتوانید برای چت انتخاب کنید.
هنگام آغاز چت با اسناد، بررسی میشود که آیا مدل زبان مناسب چت با اسناد است یا نه. اگر نباشد، به طور خودکار یک مدل مناسب از کاتالوگ فعلی انتخاب میشود.
با این اسناد تا زمانی که حالت فایل روشن است، چت کنید.
پردازش فایل به تفکیک
علاوه بر چت با اسناد، AI-Public همچنین امکان اعمال یک پرامپ خاص بر هر سند و دریافت پاسخهای جداگانه را ارائه میدهد. این قابلیت «پردازش هر فایل» نام دارد.

این قابلیت میتواند با «چت با فایلها» ترکیب شود.
سناریوی ممکن
مثالی عملی از استفاده از «پردازش هر فایل»:
- شما یک سند مرجع را آپلود میکنید و آن را با «Chat با فایلها» فعال میکنید
- چندین سند آپلود میکنید که باید تحلیل شوند و آنها را با «پردازش هر فایل» فعال میکنید
- پرامپی را فرمولبندی میکنید که به صورت جداگانه بر همه فایلها اعمال میشود
به این ترتیب میتوانید مثلاً تمام اسناد را به طور خودکار بر اساس سند مرجع تحلیل کنید.
برای ویژگی «پردازش هر فایل»، حداکثر ۳۰ فایل وجود دارد.
فرمتهای فایل پشتیبانیشده
AI-Public فرمتهای مختلف فایل را برای چت با اسناد پشتیبانی میکند:
- فایلهای PDF با پسوند .pdf
- فایلهای Word با پسوند .docx
- فایلهای CSV با پسوند .csv
- فایلهای JSON با پسوند .json
- فایلهای متنی با پسوند .txt
- فایلهای صوتی و تصویری با پسوندهای 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' یا 'webm'
گفتوگو با فایلهای صوتی یا ویدیویی
AI-School ابتدا فایلهای صوتی و ویدیویی را با ارائهدهنده رونویسی تنظیمشده به متن تبدیل میکند. در گفتوگوها، نتیجه میتواند بازههای زمانی و برچسب گوینده داشته باشد. سپس یک مدل متنی مناسب میتواند نشانهگذاری، املا، برچسبهای گوینده و واژههای تخصصی را اصلاح کند. فایلهای طولانی به دلیل محدودیتهای ارائهدهنده و مدل ممکن است متفاوت از فایلهای کوتاه پردازش شوند.