चैट दस्तावेज़ के साथ
सूचना प्रसंस्करण में अगला कदम
सार्वजनिक डेटासेट और सामान्य ज्ञान पर निर्भर रहने के बजाय, "डॉक्यूमेंट्स के साथ चैट" संदर्भ-विशिष्ट उत्तर और विश्लेषण आपके भरोसेमंद आंतरिक स्रोतों के आधार पर उत्पन्न करता है। अपने दस्तावेज़ अपलोड करें और चैट के उत्तर के लिए इन दस्तावेज़ों को आधार बनाएं!
डेटा सीमाओं का समाधान
जब आप किसी भाषा मॉडल से प्रश्न पूछते हैं, तो आप उस डेटासेट पर निर्भर होते हैं जिस पर मॉडल प्रशिक्षित है। यह आम तौर पर इंटरनेट से लिया गया जानकारी होती है। गैर-प्रकाशित स्रोत संभवतः उस डेटासेट में नहीं होंगे। चैट के लिए दस्तावेज़ों को स्रोत के रूप में इस्तेमाल करके, आप सुनिश्चित कर लेते हैं कि मॉडल के पास वही जानकारी है जो आपके प्रश्नों के उत्तर के लिए चाहिए।
आपके दस्तावेज़ों के साथ सुविधाएं
आप अपने दस्तावेज़ों के बारे में प्रश्न पूछ सकते हैं जैसे कि किसी दस्तावेज़ के मुख्य बिंदुओं का उल्लेख या दस्तावेज़ का संक्षेप। साथ ही आप अपने ही डेटासेट के साथ भाषा मॉडल से विश्लेषण विशिष्ट तरीके से करवाने के लिए अनुरोध कर सकते हैं।
दस्तावेज़-आधारित चैटिंग के नुकसान
दस्तावेज़ों को अपलोड करना और उनका प्रसंस्करण करना ऐसे अतिरिक्त चरण हैं जिन्हें आप बिना कर भी ठीक से उत्तर प्राप्त कर सकते हैं। साथ ही उत्तर बनाने में अधिक समय लगता है क्योंकि आवश्यक जानकारी दस्तावेज़ से पहले खींची जानी चाहिए और फिर मॉडल को अनुरोध भेजना होता है।
दस्तावेज़ों के साथ चैट के पीछे क्या होता है
आप जो दस्तावेज़ अपलोड करते हैं उनमें से टेक्स्ट को दस्तावेज़ से नि काला जाता है और टुकड़ों में बाँट दिया जाता है। इन टुकड़ों की एक निर्धारित अक्षर संख्या होती है (1024 अक्षर) और टुकड़ों के बीच ओवरलैप भी सेट किया गया है (128 अक्षर)। हर टेक्स्ट स्निपेट को एक वेक्टर के रूप में वेक्टर डेटाबेस में संग्रहीत किया जाता है। हर प्रश्न के लिए इन डेटा से समानता के आधार पर चयन किया जाता है।
दस्तावेज़ fragment चयन प्रक्रिया
टुकड़े पहले से वेक्टरों में परिवर्तित हो चुके हैं। वेक्टरों के पास कई आयाम होते हैं जो बताते हैं कि यह टेक्स्ट अन्य टेक्स्ट से कितना “सामान है”。 RGB कलर मॉडल की तरह समझिए। किसी रंग की समान RGB मान भी उसी रंग के समान होने के समान है, लेकिन थोड़ा अलग। वेक्टर डेटाबेस हमें प्रश्न के अनुसार टुकड़ों को क्रमबद्ध और फ़िल्टर करके निकालना संभव बनाता है।हम अधिकतम 100 टुकड़े 1024 अक्षर के साथ प्रश्न के साथ भेजने के लिए चुनते हैं।
दस्तावेज़-आधारित चैट के लिए उपयुक्त मॉडल
हमने ऐसे मॉडल चयनित किए हैं जिनमें बड़ा कॉन्टेक्स्ट विंडो है ताकि दस्तावेज़ों के साथ चैट संभव हो सके। हम अधिकतम 100 टुकड़े 1024 अक्षर भेजना चाहते हैं। यह 100,000 से अधिक अक्षर है। कृपया इसके लिए केंद्रीय मॉडल कैटलॉग से उच्च-गुणवत्ता वाले भाषा मॉडल का प्राथमिकता से उपयोग करें।
उपयुक्त मॉडल वे मॉडल होते हैं जिनमें पर्याप्त कॉन्टेक्स्ट स्पेस और अच्छी दस्तावेज़ विश्लेषण होती है, जैसे OpenAI के उच्च-गुणवत्ता मॉडलों, Claude, Google या यूरोपियन AI के मॉडल।
एक या अधिक दस्तावेज़ चुनें
आप दस्तावेज़ मोड को सक्षम कर सकते हैं ताकि प्रश्न बॉक्स की दाहिनी ओर पेपरक्लिप पर क्लिक करें। आप उसे chat करने के लिए 10 तक फ़ाइलें चुन सकते हैं।
जैसे ही आप दस्तावेज़ों के साथ चैट करना शुरू करेंगे, यह जाँच की जाएगी कि भाषा मॉडल दस ्तावेज़ों के साथ चैटिंग के लिए उपयुक्त है या नहीं। अगर यह उपयुक्त नहीं है, तो मौजूदा कैटलॉग से एक उपयुक्त मॉडल स्वचालित रूप से चयनित हो जाएगा।
इन दस्तावेज़ों के साथ आप तब तक चैट कर सकते हैं जब तक फ़ाइल मोड सक्रिय रहता है।
प्रति फ़ाइल प्रसंस्करण
दस्तावेज़ों के साथ चैट के अलावा, AI-Public एक फ़ंक्शन भी प्रदान करता है जिसमें आप प्रत्येक दस्तावेज़ पर एक अलग प्रॉम्प्ट लागू कर सकते हैं और индивиду-tailored उत्तर प्राप्त कर सकते हैं। इस फ़ंक्शन को Per Bestand Verwerken कहा गया है।

यह फ़ंक्शन "Chat with files" के साथ मिलकर इस्तेमाल किया जा सकता है।
संभावित परिदृश्य
"Per bestand verwerken" के उपयोग का एक व्यावहारिक उदाहरण:
- आप एक संदर्भ-डाक्यूमेंट अपलोड करते हैं और इसे Chat met bestanden के साथ चालू करते हैं
- आप ऐसे कई दस्तावेज़ अपलोड करते हैं जिन्हें विश्लेषण करने की जरूरत है और इन्हें Per bestand verwerken के साथ चालू करते हैं
- आप एक प्रॉम्प्ट बनाते हैं, जो सभी फ़ाइलों पर व्यक्तिगत रूप से लागू होता है
इस प्रकार आप उदाहरण के लिए सभी दस्तावेज़ों को संदर्भ-डाक्यूमेंट के आधार पर स्वतः विश्लेषित कर सकते हैं।
"Per bestand verwerken" फ़ंक्शन के लिए फ़ाइलों की अधिकतम संख्या 30 है।
समर्थित फ़ाइल प्रकार
AI-Public दस्तावेज़ों के साथ चैट करने के लिए विभिन्न फ़ाइल प्रकारों का समर्थन करता है:
- .pdf एक्सटेंशन वाले PDF फाइलें
- .docx एक्सटेंशन वाले Word फाइलें
- .csv एक्सटेंशन वाले CSV फाइलें
- .json एक्सटेंशन वाले JSON फाइलें
- .txt एक्सटेंशन वाले टेक्स्ट फाइलें
- .mp3, .mp4, .mpeg, .mpga, .m4a, .wav, .webm एक्सटेंशन वाले ऑडियो और वीडियो फाइलें
ऑडियो या वीडियो फाइलों के साथ चैट
ऑडियो या वीडियो फाइलों के साथ चैट करने के लिए AI-Public OpenAI के Whisper मॉडल का उपयोग करता है।
टेक्स्ट एक्सट्रैक्शन के बाद उपयुक्त टेक्स्ट मॉडल को इंटरपунк्शन और स्पेलिंग जाँच के लिए इस्तेमाल किया जा सकता है।
फिर वही प्रक्रिया PDF या Word दस्तावेज़ से एक्सट्रैक्शन की तरह ही होती है।
Whisper के लिए ऑडियो या वीडियो फाइल पर 25 MB तक की सीमा है। इसलिए नई फ़ाइलें अपलोड करते समय उसी सीमा का पालन करें।
आप डाउनलोड कर सकते हैं जैसे उदाहरण
व्यावसायिक रिपोर्ट का उदाहरण प्रोजेक्ट प्लान का उदाहरण बड़ा इतिहास दस्तावेज़