انتقل إلى المحتوى الرئيسي

الدردشة مع المستندات

الخطوة التالية في معالجة المعلومات

بدلاً من الاعتماد على مجموعات البيانات العامة والمعرفة العامة، تولّد "الدردشة مع المستندات" إجابات وتحليلات سياقية محددة بالسياق بناءً على مصادرك الداخلية الموثوقة. قم بتحميل مستنداتك واستخدم هذه المستندات كقاعدة للإجابة على الأسئلة في الدردشة!

حل قيود البيانات

إذا طرحت أسئلة على نموذج لغوي، فأنت تعتمد على مجموعة البيانات التي تم تدريب النموذج عليها. عادةً ما تكون هذه معلومات مأخوذة من الإنترنت. من غير المحتمل أن تكون المصادر غير العامة مدرجة في هذه المجموعة. باستخدام مستنداتك كمصدر للدردشة، تتأكد من أن النموذج لديه المعلومات التي تحتاجها للإجابة على أسئلتك.

الإمكانات مع مستنداتك

يمكنك سؤال المستندات الخاصة بك مثل ذكر النقاط الأساسية لمستند أو تلخيص المستند. كما يمكنك أن تطلب من النموذج اللغوي إجراء تحليلات محددة باستخدام مجموعة البيانات الخاصة بك.

عيوب الدردشة المستندة

تحميل المستندات ومعالجتها يتطلب خطوات إضافية لا تحتاج إليها إذا كنت تستطيع الحصول على إجابة جيدة حتى بدون سياق معلومات محددة. كما سيستغرق توليد الإجابة وقتًا أطول لأن المعلومات اللازمة من المستند يجب سحبها أولاً قبل إرسال الطلب إلى النموذج اللغوي.

وراء كواليس الدردشة مع المستندات

يتم استخراج النص من المستندات التي تقوم بتحميلها وتقسيمه إلى مقاطع. هذه المقاطع لها عدد ثابت من الأحرف (1024 حرفًا) وهناك تداخل محدد بين المقاطع (128 حرفًا). يتم حفظ كل قطعة نص كـ vector في قاعدة بيانات متجهة. مع كل سؤال، يتم اختيار البيانات بناءً على مدى تشابهها مع السؤال المطروح.

عملية اختيار مقاطع المستند

تم تحويل قطع النص بالفعل إلى متجهات. للمتجهات أبعاد متعددة تشير إلى مدى “تشابهه” هذه النصوص مع نصوص أخرى. فكر في نظام ألوان RGB. لون بقيمة RGB مشابه يعتبر لونًا مشابهًا أيضًا، لكن مختلفًا قليلًا. تمكّننا قاعدة البيانات المتجهة من سحب مقاطع النص مرتبة ومفلترة وفقًا للسؤال. نختار حتى 100 قطعة نص من 1024 حرفًا لضمها إلى السؤال.

النماذج المناسبة للدردشة المستندة

لقد اخترنا نماذج ذات نافذة سياقية كبيرة للسماح بالدردشة مع المستندات. نرغب في إرسال حتى 100 مقطع نص من 1024 حرفًا كحد أقصى. هذا يزيد عن 100,000 حرف. استخدم نموذج لغة عالي الجودة من كتالوج النماذج المركزي عند الاقتضاء.

النماذج المناسبة

النماذج المناسبة هي تلك التي لديها مساحة سياق كافية وتحليل مستند جيد، مثل نماذج OpenAI عالية الجودة، Claude، Google أو نماذجة أوروبية للذكاء الاصطناعي.

اختيار مستند واحد أو أكثر

يمكنك تفعيل وضع الملف بالنقر على مشبك الورق على يمين شريط الأسئلة. يمكنك اختيار حتى 10 ملفات للدردشة معها.

النماذج اللغوية المناسبة

عند البدء بالدردشة مع المستندات، يتم التحقق من ملاءمة النموذج اللغوي للدردشة مع المستندات. إذا لم يكن مناسبًا، يتم تلقائيًا اختيار نموذج مناسب من الكتالوج الحالي.

أنت تدردش مع هذه المستندات ما دام وضع الملف مفعلًا.

المعالجة لكل ملف

بالإضافة إلى الدردشة مع المستندات، تقدم AI-Public أيضًا إمكانية تطبيق prompt بشكل منفصل على كل مستند وتلقي إجابات فردية. تسمى هذه الميزة المعالجة لكل ملف.

معالجة لكل ملف

يمكن استخدام هذه الميزة جنبًا إلى جنب مع "الدردشة مع الملفات".

سيناريو محتمل

مثال عملي على استخدام "المعالجة لكل ملف":

  1. تقوم بتحميل مستند مرجعي وتفعيله مع الدردشة مع الملفات
  2. تقوم بتحميل عدة مستندات يجب تحليلها وتفعّلها مع المعالجة لكل ملف
  3. تصيغ prompt يتم تطبيقها على جميع الملفات بشكل فردي

بهذه الطريقة يمكن على سبيل المثال أن يتم تحليل جميع المستندات تلقائيًا بناءً على المستند المرجعي.

الحد الأقصى لعدد الملفات

هناك حد أقصى قدره 30 ملفًا لوظيفة "المعالجة لكل ملف".

أنواع الملفات المدعومة

يدعم AI-Public أنواع ملفات مختلفة للدردشة مع المستندات:

  • ملفات PDF التي تنتهي بـ .pdf
  • ملفات Word التي تنتهي بـ .docx
  • ملفات CSV التي تنتهي بـ .csv
  • ملفات JSON التي تنتهي بـ .json
  • ملفات نصية التي تنتهي بـ .txt
  • ملفات الصوت والفيديو بالامتدادات 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' أو 'webm'

الدردشة مع ملفات الصوت أو الفيديو

للدردشة مع ملفات الصوت أو الفيديو، يستخدم AI-Public نموذج Whisper من OpenAI.

بعد استخراج النص يمكن استخدام نموذج نصي مناسب للتحقق من علامات الترقيم والتهجئة وتصحيحها.

ثم تتبع نفس الإجراءات مثل استخراج النص من مستندات PDF أو Word.

لدى Whisper حد أقصى 25 ميجابايت لكل ملف صوت أو فيديو. لذا نحن نطبق نفس الحد عند رفع ملفات جديدة.

الملفات التي يمكنك تنزيلها كمثال

تقرير شركة مثالي خطة مشروع مثالية مستند تاريخ طويل

معالجة الملفات وإعادة استخدامها

الملفات التي تقوم بتحميلها يتم معالجتها أولاً قبل أن تتمكن AI-Public من استخدام محتواها في الدردشات والمساعدين وتدفقات العمل. إذا فشلت المعالجة، يحصل الملف على حالة خطأ ويمكنك إعادة رفعه أو إعادة معالجته من خلال إدارة الملفات.

في ملفات PDF يمكن لـ AI-Public استخدام طبقة النص العادية، وعند الحاجة إجراء تحليل PDF موسع. هذا مفيد للمستندات الممسوحة ضوئيًا، النماذج المعبأة، الملاحظات المكتوبة بخط اليد، الخيارات المحاطة أو المسطرة، الجداول والمعلومات البصرية. يمكن تقسيم ملفات PDF الكبيرة أثناء المعالجة إلى أجزاء أصغر.

عندما يطلب نموذج أو خطوة عمل ملفًا، يمكنك رفع ملف جديد أو اختيار ملف موجود من خلال مدير الوسائط. الملفات المضافة عبر هذا النوع من النماذج تكون متاحة للمساعد في تلك الدردشة، لكنها لا تُحدد تلقائيًا للدردشات العادية.

كما تدعم ملفات Markdown بالامتداد .md.