मेटा का लामा 3 हाल ही में जारी किया गया था और एआई समुदाय से बहुत उत्साह के साथ मिला था। आइए लामा 3 के बारे में अधिक जानें - मेटा एआई प्रगति में नवीनतम।
जब हमने 2024 की पहली तिमाही के कृत्रिम बुद्धिमत्ता (एआई) नवाचारों को गोल किया, तो हमने देखा कि एलएलएम, या बड़े भाषा मॉडल, विभिन्न संगठनों द्वारा दाएं और बाएं जारी किए जा रहे थे। इस प्रवृत्ति को जारी रखते हुए, 18 अप्रैल, 2024 को, मेटा ने लामा 3 जारी किया, जो अगली पीढ़ी का अत्याधुनिक ओपन-सोर्स एलएलएम है।
आप सोच रहे होंगे: यह सिर्फ एक और एलएलएम है। एआई समुदाय इससे इतना उत्साहित क्यों है?
जब आप अनुकूलित प्रतिक्रियाओं के लिए GPT-3 या Gemini जैसे मॉडल को फ़ाइन-ट्यून कर सकते हैं, तो वे अपने आंतरिक कार्य, जैसे कि उनके प्रशिक्षण डेटा, मॉडल पैरामीटर या एल्गोरिदम के संबंध में पूर्ण पारदर्शिता प्रदान नहीं करते हैं। इसके विपरीत, मेटा का लामा 3 अधिक पारदर्शी है, इसकी वास्तुकला और वजन डाउनलोड के लिए उपलब्ध हैं। एआई समुदाय के लिए, इसका मतलब प्रयोग करने की अधिक स्वतंत्रता है।
इस लेख में, हम जानेंगे कि लामा 3 क्या कर सकता है, यह कैसे हुआ और एआई क्षेत्र पर इसका प्रभाव। चलो इसे सही करने के लिए मिलता है!
इससे पहले कि हम लामा 3 में गोता लगाएँ, आइए इसके पहले के संस्करणों को देखें।
मेटा ने फरवरी 1 में लामा 2023 लॉन्च किया, जो 7 बिलियन से 64 बिलियन तक के मापदंडों के साथ चार वेरिएंट में आया था। मशीन लर्निंग में, "पैरामीटर" मॉडल के तत्वों को संदर्भित करता है जो प्रशिक्षण डेटा से सीखे जाते हैं। मापदंडों की अपनी कम संख्या के कारण, लामा 1 कभी-कभी बारीक समझ के साथ संघर्ष करता था और असंगत प्रतिक्रियाएं देता था।
लामा 1 के कुछ समय बाद, मेटा ने जुलाई 2 में लामा 2023 लॉन्च किया। इसे 2 ट्रिलियन टोकन पर प्रशिक्षित किया गया था। एक टोकन पाठ के एक टुकड़े का प्रतिनिधित्व करता है, जैसे शब्द या शब्द का हिस्सा, मॉडल में प्रसंस्करण के लिए डेटा की मूल इकाई के रूप में उपयोग किया जाता है। मॉडल में लंबे मार्ग को समझने के लिए 4096 टोकन की दोगुनी संदर्भ खिड़की और त्रुटियों को कम करने के लिए 1 मिलियन से अधिक मानव एनोटेशन जैसे संवर्द्धन भी शामिल थे। इन सुधारों के बावजूद, लामा 2 को अभी भी बहुत अधिक कंप्यूटिंग शक्ति की आवश्यकता थी, कुछ मेटा ने लामा 3 के साथ ठीक करने का लक्ष्य रखा था।
लामा 3 चार वेरिएंट के साथ आता है जिन्हें चौंका देने वाले 15 ट्रिलियन टोकन के खिलाफ प्रशिक्षित किया गया था। उस प्रशिक्षण डेटा का 5% से अधिक (लगभग 800 मिलियन टोकन) 30 विभिन्न भाषाओं में डेटा का प्रतिनिधित्व करता है। सभी लामा 3 वेरिएंट विभिन्न प्रकार के उपभोक्ता हार्डवेयर पर चलाए जा सकते हैं और इनकी संदर्भ लंबाई 8k टोकन है।
मॉडल वेरिएंट दो आकारों में आते हैं: 8B और 70B, क्रमशः 8 बिलियन और 70 बिलियन पैरामीटर दर्शाते हैं। दो संस्करण भी हैं, आधार और निर्देश। "बेस" मानक पूर्व-प्रशिक्षित संस्करण को संदर्भित करता है। "निर्देश" प्रासंगिक डेटा पर अतिरिक्त प्रशिक्षण के माध्यम से विशिष्ट अनुप्रयोगों या डोमेन के लिए अनुकूलित एक ठीक-ठाक संस्करण है।
ये हैं लामा 3 मॉडल वेरिएंट:
किसी भी अन्य मेटा एआई प्रगति के साथ, लामा 3 को विकसित करते समय डेटा अखंडता बनाए रखने और पूर्वाग्रहों को कम करने के लिए कठोर गुणवत्ता नियंत्रण उपाय किए गए थे। तो, अंतिम उत्पाद एक शक्तिशाली मॉडल है जिसे जिम्मेदारी से बनाया गया था।
लामा 3 मॉडल आर्किटेक्चर प्राकृतिक भाषा प्रसंस्करण कार्यों में दक्षता और प्रदर्शन पर अपना ध्यान केंद्रित करने के लिए खड़ा है। ट्रांसफार्मर-आधारित ढांचे पर निर्मित, यह कम्प्यूटेशनल दक्षता पर जोर देता है, विशेष रूप से पाठ निर्माण के दौरान, डिकोडर-केवल आर्किटेक्चर का उपयोग करके।
मॉडल इनपुट को एन्कोड करने के लिए एनकोडर के बिना पूरी तरह से पूर्ववर्ती संदर्भ के आधार पर आउटपुट उत्पन्न करता है, जिससे यह बहुत तेज़ हो जाता है।
लामा 3 मॉडल में 128K टोकन की शब्दावली के साथ एक टोकनाइज़र है। एक बड़ी शब्दावली का मतलब है कि मॉडल पाठ को बेहतर ढंग से समझ और संसाधित कर सकते हैं। इसके अलावा, मॉडल अब अनुमान दक्षता में सुधार के लिए समूहीकृत क्वेरी ध्यान (जीक्यूए) का उपयोग करते हैं। जीक्यूए एक ऐसी तकनीक है जिसे आप स्पॉटलाइट के रूप में सोच सकते हैं जो मॉडल को तेजी से और अधिक सटीक प्रतिक्रिया उत्पन्न करने के लिए इनपुट डेटा के प्रासंगिक भागों पर ध्यान केंद्रित करने में मदद करता है।
लामा 3 के मॉडल आर्किटेक्चर के बारे में कुछ और दिलचस्प विवरण यहां दिए गए हैं:
सबसे बड़े लामा 3 मॉडल को प्रशिक्षित करने के लिए, तीन प्रकार के समांतरकरण को जोड़ा गया था: डेटा समांतरीकरण, मॉडल समांतरकरण और पाइपलाइन समांतरीकरण।
डेटा समांतरकरण प्रशिक्षण डेटा को कई GPU में विभाजित करता है, जबकि मॉडल समांतरकरण प्रत्येक GPU की कम्प्यूटेशनल शक्ति का उपयोग करने के लिए मॉडल आर्किटेक्चर को विभाजित करता है। पाइपलाइन समांतरकरण प्रशिक्षण प्रक्रिया को अनुक्रमिक चरणों में विभाजित करता है, गणना और संचार का अनुकूलन करता है।
सबसे कुशल कार्यान्वयन ने उल्लेखनीय गणना उपयोग हासिल किया, जो समवर्ती रूप से 16,000 जीपीयू पर प्रशिक्षित होने पर प्रति जीपीयू 400 टीएफएलओपीएस से अधिक था। ये प्रशिक्षण रन दो कस्टम-निर्मित जीपीयू क्लस्टर पर आयोजित किए गए थे, जिनमें से प्रत्येक में 24,000 जीपीयू शामिल थे। इस पर्याप्त कम्प्यूटेशनल बुनियादी ढांचे ने बड़े पैमाने पर लामा 3 मॉडल को कुशलतापूर्वक प्रशिक्षित करने के लिए आवश्यक शक्ति प्रदान की।
GPU अपटाइम को अधिकतम करने के लिए, एक उन्नत नया प्रशिक्षण स्टैक विकसित किया गया था, जो त्रुटि का पता लगाने, हैंडलिंग और रखरखाव को स्वचालित करता है। मूक डेटा भ्रष्टाचार जोखिमों को कम करने के लिए हार्डवेयर विश्वसनीयता और पहचान तंत्र में बहुत सुधार किया गया था। इसके अलावा, चेकपॉइंटिंग और रोलबैक ओवरहेड्स को कम करने के लिए नए स्केलेबल स्टोरेज सिस्टम विकसित किए गए थे।
इन सुधारों के कारण 95% से अधिक प्रभावशीलता का समग्र प्रशिक्षण समय हुआ। संयुक्त, उन्होंने लामा 2 की तुलना में लामा 3 प्रशिक्षण की दक्षता में लगभग तीन गुना वृद्धि की। यह दक्षता सिर्फ प्रभावशाली नहीं है; यह एआई प्रशिक्षण विधियों के लिए नई संभावनाएं खोल रहा है।
क्योंकि लामा 3 ओपन-सोर्स है, शोधकर्ता और छात्र इसके कोड का अध्ययन कर सकते हैं, प्रयोग कर सकते हैं और नैतिक चिंताओं और पूर्वाग्रहों के बारे में चर्चा में संलग्न हो सकते हैं। हालाँकि, लामा 3 सिर्फ अकादमिक भीड़ के लिए नहीं है। यह व्यावहारिक अनुप्रयोगों में भी लहरें बना रहा है। यह मेटा एआई चैट इंटरफेस की रीढ़ बन रहा है, जो फेसबुक, इंस्टाग्राम, व्हाट्सएप और मैसेंजर जैसे प्लेटफॉर्म में मूल रूप से एकीकृत हो रहा है। मेटा एआई के साथ, उपयोगकर्ता प्राकृतिक भाषा की बातचीत में संलग्न हो सकते हैं, व्यक्तिगत अनुशंसाओं तक पहुंच सकते हैं, कार्य कर सकते हैं और दूसरों के साथ आसानी से जुड़ सकते हैं।
लामा 3 कई प्रमुख बेंचमार्क पर असाधारण रूप से अच्छा प्रदर्शन करता है जो जटिल भाषा समझ और तर्क क्षमताओं का मूल्यांकन करते हैं। यहां कुछ बेंचमार्क दिए गए हैं जो लामा 3 की क्षमताओं के विभिन्न पहलुओं का परीक्षण करते हैं:
इन परीक्षणों में लामा 3 के उत्कृष्ट परिणाम स्पष्ट रूप से इसे Google के जेम्मा 7 बी, मिस्ट्रल के मिस्ट्रल 7 बी और जैसे प्रतिस्पर्धियों से अलग करते हैं। Anthropicक्लाउड 3 सॉनेट। प्रकाशित आंकड़ों के अनुसार, विशेष रूप से 70B मॉडल, लामा 3 उपरोक्त सभी बेंचमार्क में इन मॉडलों से बेहतर प्रदर्शन करता है।
मेटा सामान्य उपयोगकर्ताओं और डेवलपर्स दोनों के लिए विभिन्न प्लेटफार्मों पर उपलब्ध कराकर लामा 3 की पहुंच का विस्तार कर रहा है। रोजमर्रा के उपयोगकर्ताओं के लिए, लामा 3 मेटा के लोकप्रिय प्लेटफॉर्म जैसे व्हाट्सएप, इंस्टाग्राम, फेसबुक और मैसेंजर में एकीकृत है। उपयोगकर्ता वास्तविक समय की खोज और इन ऐप्स के भीतर सीधे रचनात्मक सामग्री उत्पन्न करने की क्षमता जैसी उन्नत सुविधाओं का उपयोग कर सकते हैं।
लामा 3 को रे-बैन मेटा स्मार्ट ग्लास और मेटा क्वेस्ट वीआर हेडसेट जैसी पहनने योग्य तकनीकों में भी शामिल किया जा रहा है।
लामा 3 डेवलपर्स के लिए विभिन्न प्लेटफार्मों पर उपलब्ध है, जिसमें AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, और स्नोफ्लेक। आप इन मॉडलों को सीधे मेटा से भी एक्सेस कर सकते हैं। विकल्पों की विस्तृत श्रृंखला डेवलपर्स के लिए इन उन्नत एआई मॉडल क्षमताओं को अपनी परियोजनाओं में एकीकृत करना आसान बनाती है, चाहे वे सीधे मेटा के साथ या अन्य लोकप्रिय प्लेटफार्मों के माध्यम से काम करना पसंद करते हों।
मशीन सीखने की प्रगति यह बदलती रहती है कि हम हर दिन प्रौद्योगिकी के साथ कैसे बातचीत करते हैं। मेटा के लामा 3 से पता चलता है कि एलएलएम अब केवल पाठ उत्पन्न करने के बारे में नहीं हैं। एलएलएम जटिल समस्याओं से निपट रहे हैं और कई भाषाओं को संभाल रहे हैं। कुल मिलाकर, लामा 3 एआई को पहले से कहीं अधिक अनुकूलनीय और सुलभ बना रहा है। आगे देखते हुए, लामा 3 के लिए नियोजित उन्नयन और भी अधिक क्षमताओं का वादा करता है, जैसे कई मॉडलों को संभालना और बड़े संदर्भों को समझना।
हमारी जाँच करें GitHub भंडार और AI के बारे में अधिक जानने के लिए हमारे समुदाय में शामिल हों। हमारे समाधान पृष्ठों पर जाएं यह देखने के लिए कि विनिर्माण और कृषि जैसे क्षेत्रों में एआई कैसे लागू किया जा रहा है।
मशीन लर्निंग के भविष्य के साथ अपनी यात्रा शुरू करें