چت با اسناد
مرحله بعدی در پردازش اطلاعات
به جای تکیه بر مجموعههای داده عمومی و دانش عمومی، «چت با اسناد» پاسخها و تحلیلهای مرتبط با زمینه را بر پایه منابع داخلی قابل اعتماد شما تولید میکند. اسناد خود را آپلود کنید و از این اسناد به عنوان منبع برای پاسخ به سوالات در چت استفاده کنید!
رفع محدودیتهای داده
اگر از یک مدل زبانی سوال بپرسید، به مجموعه دادهای که مدل بر اساس آن آموزش دیده است وابسته هستید. این به طور کلی اطلاعاتی است که از اینترنت گردآوری شده است. منابع غیرعمومی احتمالاً در این مجموعه گنجانده نشدهاند. با استفاده از اسناد شما به عنوان منبع برای چت، مطمئن میشوید که مدل به اطلاعاتی که برای پاسخ به سوالات شما نیاز دارید دسترسی دارد.
امکانات با اسناد شما
میتوانید درباره اسناد خود سوال بپرسید مانند ذکر نکات اصلی یک سند یا خلاصهکردن سند. همچنین میتوانید تحلیلهای خاصی توسط مدل زبانی با استفاده از مجموعه دادههای خود انجام دهید.
معایب چت مبتنی بر سند
بارگذاری اسناد و پردازش آنها کارهای اضافی هستند که لازم نیست انجام دهید اگر با متن خاصی به عنوان زمینه بتوانید بدون آن پاسخ خوبی بگیرید. همچنین تولید پاسخ طول میکشد زیرا ابتدا باید اطلاعات لازم از سند استخراج شود قبل از اینکه درخواست به مدل زبان ارسال گردد.
پشت صحنه چت با اسناد
متن از اسنادی که شما آپلود میکنید از سند استخراج شده و به قطعات تقسیم میشود. این قطعات دارای تعدادی کاراکتر مشخص هستند (1024 کاراکتر) و همچنین همپوشی تعیین شدهای (128 کاراکتر) بین قطعات وجود دارد. هر تکه متن به عنوان یک بردار در یک دیتابیس برداری ذخیره میشود. با هر سوال، از این دادهها بر اساس تشابه با سوال استخراج میشود.
فرایند انتخاب تکههای سند
تکههای متن قبلاً به بردار تبدیل شدهاند. بردارها ابعاد متعددی دارند که نشان میدهد چقدر این متن با متن دیگر «یکدست» است. به زبان ساده مانند سیستم رنگ RGB. رنگی با مقدار RGB مشابه رنگی مشابه است اما با تفاوت جزئی. دیتابیس بردارها به ما امکان میدهد تکههای متن را به صورت مرتب و فیلترشده با توجه به سوالی که مطرح میشود بازیابی کنیم. ما حداکثر ۱۰۰ تکه متن از ۱۰۲۴ کاراکتر را برای ارسال با سوال انتخاب میکنیم.
مدلهای مناسب برای چت مبتنی بر سند
ما مدلهایی با پنجره کانتکست بزرگ را انتخاب کردهایم تا امکان چت با اسناد فراهم شود. ما میخواستیم حداکثر ۱۰۰ تکه متن از ۱۰۲۴ کاراکتر ر ا بتوانیم ارسال کنیم. این بیشتر از ۱۰۰٬۰۰۰ کاراکتر است. لطفاً از یک مدل زبانی باکیفیت بالا از کاتالوگ مدل مرکزی استفاده کنید.
مدلهای مناسب مدلهایی هستند با فضای کانتکست کافی و تجزیهوتحلیل خوب اسناد، مانند مدلهای باکیفیت OpenAI، Claude، Google یا هوش مصنوعی اروپایی.
انتخاب یک یا چند سند
میتوانید حالت فایل را با کلیک روی گیره در سمت راست میکروفن سوال فعال کنید. تا حداکثر ۱۰ فایل را میتوانید برای چت انتخاب کنید.
هنگام آغاز چت با اسناد، بررسی میشود که آیا مدل زبان مناسب چت با اسناد است یا نه. اگر نباشد، به طور خودکار یک مدل مناسب از کاتالوگ فعلی انتخاب میشود.
با این اسناد تا زمانی که حالت فایل روشن است، چت کنید.
پردازش فایل به تفکیک
علاوه بر چت با اسناد، AI-Public همچنین امکان اعمال یک پرامپ خاص بر هر سند و دریافت پاسخهای جداگانه را ارائه میدهد. این قابلیت «پردازش هر فایل» نام دارد.

این قابلیت میتواند با «چت با فایلها» ترکیب شود.
سناریوی ممکن
مثالی عملی از استفاده از «پردازش هر فایل»:
- شما یک سند مرجع را آپلود میکنید و آن را با «Chat با فایلها» فعال میکنید
- چندین سند آپلود م یکنید که باید تحلیل شوند و آنها را با «پردازش هر فایل» فعال میکنید
- پرامپی را فرمولبندی میکنید که به صورت جداگانه بر همه فایلها اعمال میشود
به این ترتیب میتوانید مثلاً تمام اسناد را به طور خودکار بر اساس سند مرجع تحلیل کنید.
برای ویژگی «پردازش هر فایل»، حداکثر ۳۰ فایل وجود دارد.
فرمتهای فایل پشتیبانیشده
AI-Public فرمتهای مختلف فایل را برای چت با اسناد پشتیبانی میکند:
- فایلهای PDF با پسوند .pdf
- فایلهای Word با پسوند .docx
- فایلهای CSV با پسوند .csv
- فایلهای JSON با پسوند .json
- فایلهای متنی با پسوند .txt
- فایلهای صوتی و تصویری با پسوندهای 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' یا 'webm'
چت با فایلهای صوتی یا ویدئویی
برای چت با فایلهای صوتی یا ویدئویی، AI-Public از مدل Whisper شرکت OpenAI استفاده میکند.
پس از استخراج متن میتوان از یک مدل متنی مناسب برای بررسی و اصلاح نقطهگذاری و املا استفاده کرد.
سپس همان روال استخراج از PDF یا Word دنبال میشود.
Whisper حد مجاز ۲۵ مگابایت برای هر فایل صوتی یا ویدئویی دارد. به همین محدودیت برای آپلود فایلهای جدید پایبندیم.
فایلهایی که میتوانید به عنوان نمونه دانلود کنید
گز ارش شرکت نمونه نمونه برنامه پروژه سند تاریخچه بزرگ
پردازش و استفاده مجدد فایلها
فایلهایی که آپلود میکنید ابتدا پردازش میشوند تا AI-Public بتواند محتوای آنها را در چتها، دستیاران و گردشکارها استفاده کند. اگر پردازش موفق نباشد، فایل وضعیت خطا میگیرد و میتوانید دوباره آپلود یا دوباره پردازش کنید از مدیریت فایل.
برای PDFها، AI-Public میتواند از لایه متن معمول استفاده کند و در صورت نیاز تجزیه و تحلیل PDF گستردهتری انجام دهد. این برای اسناد اسکنشده، فرمهای پرشده، یادداشتهای دستنویس، انتخابهای محیطی یا زیرخطدار، جداول و اطلاعات دیداری مفید است. فایلهای بزرگ PDF میتوانند در طول پردازش به قطعات کوچکتری تقسیم شوند.
وقتی فرمی یا گردش کار به یک فایل نیاز دارد، میتوانید یک فایل جدید آپلود کنید یا از طریق مدیر رسانه یک فایل موجود را انتخاب کنید. فایلهایی که از طریق چنین فرمهایی اضافه میشوند، برای دستیار در همان چت در دسترس هستند، اما به طور خودکار برای سوالات عادی چت انتخاب نمیشوند.
فایلهای Markdown با پسوند .md نیز پشتیبانی میشوند.