چت با اسناد

مرحله بعدی در پردازش اطلاعات

به جای تکیه بر مجموعه‌های داده عمومی و دانش عمومی، «چت با اسناد» پاسخ‌ها و تحلیل‌های مرتبط با زمینه را بر پایه منابع داخلی قابل اعتماد شما تولید می‌کند. اسناد خود را آپلود کنید و از این اسناد به عنوان منبع برای پاسخ به سوالات در چت استفاده کنید!

رفع محدودیت‌های داده

اگر از یک مدل زبانی سوال بپرسید، به مجموعه داده‌ای که مدل بر اساس آن آموزش دیده است وابسته هستید. این به طور کلی اطلاعاتی است که از اینترنت گردآوری شده است. منابع غیرعمومی احتمالاً در این مجموعه گنجانده نشده‌اند. با استفاده از اسناد شما به عنوان منبع برای چت، مطمئن می‌شوید که مدل به اطلاعاتی که برای پاسخ به سوالات شما نیاز دارید دسترسی دارد.

امکانات با اسناد شما

می‌توانید درباره اسناد خود سوال بپرسید مانند ذکر نکات اصلی یک سند یا خلاصه‌کردن سند. همچنین می‌توانید تحلیل‌های خاصی توسط مدل زبانی با استفاده از مجموعه داده‌های خود انجام دهید.

معایب چت مبتنی بر سند

بارگذاری اسناد و پردازش آن‌ها کارهای اضافی هستند که لازم نیست انجام دهید اگر با متن خاصی به عنوان زمینه بتوانید بدون آن پاسخ خوبی بگیرید. همچنین تولید پاسخ طول می‌کشد زیرا ابتدا باید اطلاعات لازم از سند استخراج شود قبل از اینکه درخواست به مدل زبان ارسال گردد.

پشت صحنه چت با اسناد

متن از اسنادی که شما آپلود می‌کنید از سند استخراج شده و به قطعات تقسیم می‌شود. این قطعات دارای تعدادی کاراکتر مشخص هستند (1024 کاراکتر) و همچنین همپوشی تعیین شده‌ای (128 کاراکتر) بین قطعات وجود دارد. هر تکه متن به عنوان یک بردار در یک دیتابیس برداری ذخیره می‌شود. با هر سوال، از این داده‌ها بر اساس تشابه با سوال استخراج می‌شود.

فرایند انتخاب تکه‌های سند

تکه‌های متن قبلاً به بردار تبدیل شده‌اند. بردارها ابعاد متعددی دارند که نشان می‌دهد چقدر این متن با متن دیگر «یک‌دست» است. به زبان ساده مانند سیستم رنگ RGB. رنگی با مقدار RGB مشابه رنگی مشابه است اما با تفاوت جزئی. دیتابیس بردارها به ما امکان می‌دهد تکه‌های متن را به صورت مرتب و فیلترشده با توجه به سوالی که مطرح می‌شود بازیابی کنیم. ما حداکثر ۱۰۰ تکه متن از ۱۰۲۴ کاراکتر را برای ارسال با سوال انتخاب می‌کنیم.

مدل‌های مناسب برای چت مبتنی بر سند

ما مدل‌هایی با پنجره کانتکست بزرگ را انتخاب کرده‌ایم تا امکان چت با اسناد فراهم شود. ما می‌خواستیم حداکثر ۱۰۰ تکه متن از ۱۰۲۴ کاراکتر را بتوانیم ارسال کنیم. این بیشتر از ۱۰۰٬۰۰۰ کاراکتر است. لطفاً از یک مدل زبانی باکیفیت بالا از کاتالوگ مدل مرکزی استفاده کنید.

مدل‌های مناسب

مدل‌های مناسب مدل‌هایی هستند با فضای کانتکست کافی و تجزیه‌وتحلیل خوب اسناد، مانند مدل‌های باکیفیت OpenAI، Claude، Google یا هوش مصنوعی اروپایی.

انتخاب یک یا چند سند

می‌توانید حالت فایل را با کلیک روی گیره در سمت راست میکروفن سوال فعال کنید. تا حداکثر ۱۰ فایل را می‌توانید برای چت انتخاب کنید.

مدل‌های زبان مناسب

هنگام آغاز چت با اسناد، بررسی می‌شود که آیا مدل زبان مناسب چت با اسناد است یا نه. اگر نباشد، به طور خودکار یک مدل مناسب از کاتالوگ فعلی انتخاب می‌شود.

با این اسناد تا زمانی که حالت فایل روشن است، چت کنید.

پردازش فایل به تفکیک

علاوه بر چت با اسناد، AI-Public همچنین امکان اعمال یک پرامپ خاص بر هر سند و دریافت پاسخ‌های جداگانه را ارائه می‌دهد. این قابلیت «پردازش هر فایل» نام دارد.

پردازش هر فایل

این قابلیت می‌تواند با «چت با فایل‌ها» ترکیب شود.

سناریوی ممکن

مثالی عملی از استفاده از «پردازش هر فایل»:

شما یک سند مرجع را آپلود می‌کنید و آن را با «Chat با فایل‌ها» فعال می‌کنید
چندین سند آپلود می‌کنید که باید تحلیل شوند و آن‌ها را با «پردازش هر فایل» فعال می‌کنید
پرامپی را فرمول‌بندی می‌کنید که به صورت جداگانه بر همه فایل‌ها اعمال می‌شود

به این ترتیب می‌توانید مثلاً تمام اسناد را به طور خودکار بر اساس سند مرجع تحلیل کنید.

حداکثر تعداد فایل‌ها

برای ویژگی «پردازش هر فایل»، حداکثر ۳۰ فایل وجود دارد.

فرمت‌های فایل پشتیبانی‌شده

AI-Public فرمت‌های مختلف فایل را برای چت با اسناد پشتیبانی می‌کند:

فایل‌های PDF با پسوند .pdf
فایل‌های Word با پسوند .docx
فایل‌های CSV با پسوند .csv
فایل‌های JSON با پسوند .json
فایل‌های متنی با پسوند .txt
فایل‌های صوتی و تصویری با پسوندهای 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' یا 'webm'

گفت‌وگو با فایل‌های صوتی یا ویدیویی

AI-School ابتدا فایل‌های صوتی و ویدیویی را با ارائه‌دهنده رونویسی تنظیم‌شده به متن تبدیل می‌کند. در گفت‌وگوها، نتیجه می‌تواند بازه‌های زمانی و برچسب گوینده داشته باشد. سپس یک مدل متنی مناسب می‌تواند نشانه‌گذاری، املا، برچسب‌های گوینده و واژه‌های تخصصی را اصلاح کند. فایل‌های طولانی به دلیل محدودیت‌های ارائه‌دهنده و مدل ممکن است متفاوت از فایل‌های کوتاه پردازش شوند.

رفع محدودیت‌های داده​

امکانات با اسناد شما​

معایب چت مبتنی بر سند​

پشت صحنه چت با اسناد​

فرایند انتخاب تکه‌های سند​

مدل‌های مناسب برای چت مبتنی بر سند​

انتخاب یک یا چند سند​

پردازش فایل به تفکیک​

سناریوی ممکن​

فرمت‌های فایل پشتیبانی‌شده​

گفت‌وگو با فایل‌های صوتی یا ویدیویی​