X
Ultralytics YOLOv8.2 रिलीज़Ultralytics YOLOv8.2 रिलीज़Ultralytics YOLOv8.2 रिलीज़ तीर
ग्रीन चेक
लिंक क्लिपबोर्ड पर कॉपी किया गया

मेटा के लामा 3 के बारे में जानना

मेटा का लामा 3 हाल ही में जारी किया गया था और एआई समुदाय से बहुत उत्साह के साथ मिला था। आइए लामा 3 के बारे में अधिक जानें - मेटा एआई प्रगति में नवीनतम।

फेसबुक लोगोट्विटर लोगोलिंक्डइन लोगोकॉपी-लिंक प्रतीक

जब हमने 2024 की पहली तिमाही के कृत्रिम बुद्धिमत्ता (एआई) नवाचारों को गोल किया, तो हमने देखा कि एलएलएम, या बड़े भाषा मॉडल, विभिन्न संगठनों द्वारा दाएं और बाएं जारी किए जा रहे थे। इस प्रवृत्ति को जारी रखते हुए, 18 अप्रैल, 2024 को, मेटा ने लामा 3 जारी किया, जो अगली पीढ़ी का अत्याधुनिक ओपन-सोर्स एलएलएम है। 

आप सोच रहे होंगे: यह सिर्फ एक और एलएलएम है। एआई समुदाय इससे इतना उत्साहित क्यों है? 

जब आप अनुकूलित प्रतिक्रियाओं के लिए GPT-3 या Gemini जैसे मॉडल को फ़ाइन-ट्यून कर सकते हैं, तो वे अपने आंतरिक कार्य, जैसे कि उनके प्रशिक्षण डेटा, मॉडल पैरामीटर या एल्गोरिदम के संबंध में पूर्ण पारदर्शिता प्रदान नहीं करते हैं। इसके विपरीत, मेटा का लामा 3 अधिक पारदर्शी है, इसकी वास्तुकला और वजन डाउनलोड के लिए उपलब्ध हैं। एआई समुदाय के लिए, इसका मतलब प्रयोग करने की अधिक स्वतंत्रता है।

इस लेख में, हम जानेंगे कि लामा 3 क्या कर सकता है, यह कैसे हुआ और एआई क्षेत्र पर इसका प्रभाव। चलो इसे सही करने के लिए मिलता है!

मेटा के लामा मॉडल का विकास

इससे पहले कि हम लामा 3 में गोता लगाएँ, आइए इसके पहले के संस्करणों को देखें।

मेटा ने फरवरी 1 में लामा 2023 लॉन्च किया, जो 7 बिलियन से 64 बिलियन तक के मापदंडों के साथ चार वेरिएंट में आया था। मशीन लर्निंग में, "पैरामीटर" मॉडल के तत्वों को संदर्भित करता है जो प्रशिक्षण डेटा से सीखे जाते हैं। मापदंडों की अपनी कम संख्या के कारण, लामा 1 कभी-कभी बारीक समझ के साथ संघर्ष करता था और असंगत प्रतिक्रियाएं देता था।

लामा 1 के कुछ समय बाद, मेटा ने जुलाई 2 में लामा 2023 लॉन्च किया। इसे 2 ट्रिलियन टोकन पर प्रशिक्षित किया गया था। एक टोकन पाठ के एक टुकड़े का प्रतिनिधित्व करता है, जैसे शब्द या शब्द का हिस्सा, मॉडल में प्रसंस्करण के लिए डेटा की मूल इकाई के रूप में उपयोग किया जाता है। मॉडल में लंबे मार्ग को समझने के लिए 4096 टोकन की दोगुनी संदर्भ खिड़की और त्रुटियों को कम करने के लिए 1 मिलियन से अधिक मानव एनोटेशन जैसे संवर्द्धन भी शामिल थे। इन सुधारों के बावजूद, लामा 2 को अभी भी बहुत अधिक कंप्यूटिंग शक्ति की आवश्यकता थी, कुछ मेटा ने लामा 3 के साथ ठीक करने का लक्ष्य रखा था।

पेश है मेटा का लामा 3

लामा 3 चार वेरिएंट के साथ आता है जिन्हें चौंका देने वाले 15 ट्रिलियन टोकन के खिलाफ प्रशिक्षित किया गया था। उस प्रशिक्षण डेटा का 5% से अधिक (लगभग 800 मिलियन टोकन) 30 विभिन्न भाषाओं में डेटा का प्रतिनिधित्व करता है। सभी लामा 3 वेरिएंट विभिन्न प्रकार के उपभोक्ता हार्डवेयर पर चलाए जा सकते हैं और इनकी संदर्भ लंबाई 8k टोकन है। 

चित्र 1. लामा 3 बनाम लामा 2.

मॉडल वेरिएंट दो आकारों में आते हैं: 8B और 70B, क्रमशः 8 बिलियन और 70 बिलियन पैरामीटर दर्शाते हैं। दो संस्करण भी हैं, आधार और निर्देश। "बेस" मानक पूर्व-प्रशिक्षित संस्करण को संदर्भित करता है। "निर्देश" प्रासंगिक डेटा पर अतिरिक्त प्रशिक्षण के माध्यम से विशिष्ट अनुप्रयोगों या डोमेन के लिए अनुकूलित एक ठीक-ठाक संस्करण है।

ये हैं लामा 3 मॉडल वेरिएंट:

  • मेटा-लामा-3-8बी: बेस 8बी मॉडल मौलिक एआई क्षमताएं प्रदान करता है, और ग्राहक सेवा चैटबॉट विकसित करने जैसे सामान्य कार्यों के लिए आदर्श है।
  • मेटा-लामा-3-8बी-निर्देश: 8B मॉडल का एक निर्देश ठीक-ठीक संस्करण जो विशिष्ट कार्यों के लिए अनुकूलित है। उदाहरण के लिए, इसका उपयोग शैक्षिक उपकरण बनाने के लिए किया जा सकता है जो जटिल विषयों की व्याख्या करते हैं।
  • मेटा-लामा-3-70बी: बेस 70बी मॉडल को उच्च-प्रदर्शन वाले एआई अनुप्रयोगों के लिए इंजीनियर किया गया है। यह मॉडल दवा की खोज के लिए व्यापक जैव चिकित्सा साहित्य के प्रसंस्करण जैसे अनुप्रयोगों के लिए अच्छी तरह से काम करेगा।
  • मेटा-लामा-3-70बी-निर्देश: यह संस्करण अत्यधिक सटीक अनुप्रयोगों के लिए 70B मॉडल से ठीक है, जैसे कानूनी या चिकित्सा दस्तावेजों का विश्लेषण, जहां सटीकता महत्वपूर्ण है।

मेटा का लामा 3 मॉडल आर्किटेक्चर

किसी भी अन्य मेटा एआई प्रगति के साथ, लामा 3 को विकसित करते समय डेटा अखंडता बनाए रखने और पूर्वाग्रहों को कम करने के लिए कठोर गुणवत्ता नियंत्रण उपाय किए गए थे। तो, अंतिम उत्पाद एक शक्तिशाली मॉडल है जिसे जिम्मेदारी से बनाया गया था। 

लामा 3 मॉडल आर्किटेक्चर प्राकृतिक भाषा प्रसंस्करण कार्यों में दक्षता और प्रदर्शन पर अपना ध्यान केंद्रित करने के लिए खड़ा है। ट्रांसफार्मर-आधारित ढांचे पर निर्मित, यह कम्प्यूटेशनल दक्षता पर जोर देता है, विशेष रूप से पाठ निर्माण के दौरान, डिकोडर-केवल आर्किटेक्चर का उपयोग करके। 

मॉडल इनपुट को एन्कोड करने के लिए एनकोडर के बिना पूरी तरह से पूर्ववर्ती संदर्भ के आधार पर आउटपुट उत्पन्न करता है, जिससे यह बहुत तेज़ हो जाता है।

चित्र 2. लामा 3 जिम्मेदार मॉडल वास्तुकला।

लामा 3 मॉडल में 128K टोकन की शब्दावली के साथ एक टोकनाइज़र है। एक बड़ी शब्दावली का मतलब है कि मॉडल पाठ को बेहतर ढंग से समझ और संसाधित कर सकते हैं। इसके अलावा, मॉडल अब अनुमान दक्षता में सुधार के लिए समूहीकृत क्वेरी ध्यान (जीक्यूए) का उपयोग करते हैं। जीक्यूए एक ऐसी तकनीक है जिसे आप स्पॉटलाइट के रूप में सोच सकते हैं जो मॉडल को तेजी से और अधिक सटीक प्रतिक्रिया उत्पन्न करने के लिए इनपुट डेटा के प्रासंगिक भागों पर ध्यान केंद्रित करने में मदद करता है।

लामा 3 के मॉडल आर्किटेक्चर के बारे में कुछ और दिलचस्प विवरण यहां दिए गए हैं:

  • सीमा-जागरूक दस्तावेज़ प्रसंस्करण: लामा 3 दस्तावेज़ सीमाओं में स्पष्टता बनाए रखता है, जो संक्षेपण जैसे कार्यों के लिए महत्वपूर्ण है।
  • बेहतर कोड समझ: लामा 3 के प्रशिक्षण डेटा में चार गुना अधिक कोड नमूने शामिल हैं, जो इसकी कोडिंग क्षमताओं को बढ़ाते हैं।
  • मजबूत गुणवत्ता नियंत्रण: अनुमानी फिल्टर और NSFW हटाने सहित कठोर उपाय, डेटा अखंडता सुनिश्चित करते हैं और पूर्वाग्रहों को कम करते हैं।

लामा 3 बदल रहा है कि हम मॉडल प्रशिक्षण कैसे करते हैं

सबसे बड़े लामा 3 मॉडल को प्रशिक्षित करने के लिए, तीन प्रकार के समांतरकरण को जोड़ा गया था: डेटा समांतरीकरण, मॉडल समांतरकरण और पाइपलाइन समांतरीकरण। 

डेटा समांतरकरण प्रशिक्षण डेटा को कई GPU में विभाजित करता है, जबकि मॉडल समांतरकरण प्रत्येक GPU की कम्प्यूटेशनल शक्ति का उपयोग करने के लिए मॉडल आर्किटेक्चर को विभाजित करता है। पाइपलाइन समांतरकरण प्रशिक्षण प्रक्रिया को अनुक्रमिक चरणों में विभाजित करता है, गणना और संचार का अनुकूलन करता है।

सबसे कुशल कार्यान्वयन ने उल्लेखनीय गणना उपयोग हासिल किया, जो समवर्ती रूप से 16,000 जीपीयू पर प्रशिक्षित होने पर प्रति जीपीयू 400 टीएफएलओपीएस से अधिक था। ये प्रशिक्षण रन दो कस्टम-निर्मित जीपीयू क्लस्टर पर आयोजित किए गए थे, जिनमें से प्रत्येक में 24,000 जीपीयू शामिल थे। इस पर्याप्त कम्प्यूटेशनल बुनियादी ढांचे ने बड़े पैमाने पर लामा 3 मॉडल को कुशलतापूर्वक प्रशिक्षित करने के लिए आवश्यक शक्ति प्रदान की।

GPU अपटाइम को अधिकतम करने के लिए, एक उन्नत नया प्रशिक्षण स्टैक विकसित किया गया था, जो त्रुटि का पता लगाने, हैंडलिंग और रखरखाव को स्वचालित करता है। मूक डेटा भ्रष्टाचार जोखिमों को कम करने के लिए हार्डवेयर विश्वसनीयता और पहचान तंत्र में बहुत सुधार किया गया था। इसके अलावा, चेकपॉइंटिंग और रोलबैक ओवरहेड्स को कम करने के लिए नए स्केलेबल स्टोरेज सिस्टम विकसित किए गए थे। 

इन सुधारों के कारण 95% से अधिक प्रभावशीलता का समग्र प्रशिक्षण समय हुआ। संयुक्त, उन्होंने लामा 2 की तुलना में लामा 3 प्रशिक्षण की दक्षता में लगभग तीन गुना वृद्धि की। यह दक्षता सिर्फ प्रभावशाली नहीं है; यह एआई प्रशिक्षण विधियों के लिए नई संभावनाएं खोल रहा है। 

लामा 3 के साथ दरवाजे खोलना

क्योंकि लामा 3 ओपन-सोर्स है, शोधकर्ता और छात्र इसके कोड का अध्ययन कर सकते हैं, प्रयोग कर सकते हैं और नैतिक चिंताओं और पूर्वाग्रहों के बारे में चर्चा में संलग्न हो सकते हैं। हालाँकि, लामा 3 सिर्फ अकादमिक भीड़ के लिए नहीं है। यह व्यावहारिक अनुप्रयोगों में भी लहरें बना रहा है। यह मेटा एआई चैट इंटरफेस की रीढ़ बन रहा है, जो फेसबुक, इंस्टाग्राम, व्हाट्सएप और मैसेंजर जैसे प्लेटफॉर्म में मूल रूप से एकीकृत हो रहा है। मेटा एआई के साथ, उपयोगकर्ता प्राकृतिक भाषा की बातचीत में संलग्न हो सकते हैं, व्यक्तिगत अनुशंसाओं तक पहुंच सकते हैं, कार्य कर सकते हैं और दूसरों के साथ आसानी से जुड़ सकते हैं।

चित्र 3. मेटा एआई: लामा द्वारा संचालित 3.

अन्य एलएलएम के साथ लामा 3 की तुलना

लामा 3 कई प्रमुख बेंचमार्क पर असाधारण रूप से अच्छा प्रदर्शन करता है जो जटिल भाषा समझ और तर्क क्षमताओं का मूल्यांकन करते हैं। यहां कुछ बेंचमार्क दिए गए हैं जो लामा 3 की क्षमताओं के विभिन्न पहलुओं का परीक्षण करते हैं:

  • बड़े पैमाने पर मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग (एमएमएलयू) - विभिन्न डोमेन में अपने ज्ञान को मापता है। 
  • सामान्य प्रयोजन प्रश्न उत्तर (GPQA) - सामान्य ज्ञान के प्रश्नों की एक विस्तृत श्रृंखला के सुसंगत और सही उत्तर उत्पन्न करने के लिए मॉडल की क्षमता का मूल्यांकन करता है।
  • HumanEval - कोडिंग और समस्या को सुलझाने के कार्यों पर ध्यान केंद्रित करता है, कार्यात्मक प्रोग्रामिंग कोड उत्पन्न करने और एल्गोरिथम चुनौतियों को हल करने के लिए मॉडल की क्षमता का परीक्षण करता है।

इन परीक्षणों में लामा 3 के उत्कृष्ट परिणाम स्पष्ट रूप से इसे Google के जेम्मा 7 बी, मिस्ट्रल के मिस्ट्रल 7 बी और जैसे प्रतिस्पर्धियों से अलग करते हैं। Anthropicक्लाउड 3 सॉनेट। प्रकाशित आंकड़ों के अनुसार, विशेष रूप से 70B मॉडल, लामा 3 उपरोक्त सभी बेंचमार्क में इन मॉडलों से बेहतर प्रदर्शन करता है।

चित्र 4. अन्य एलएलएम के साथ लामा 3 की तुलना।

मेटा लामा 3 को व्यापक रूप से सुलभ बनाया जा रहा है

मेटा सामान्य उपयोगकर्ताओं और डेवलपर्स दोनों के लिए विभिन्न प्लेटफार्मों पर उपलब्ध कराकर लामा 3 की पहुंच का विस्तार कर रहा है। रोजमर्रा के उपयोगकर्ताओं के लिए, लामा 3 मेटा के लोकप्रिय प्लेटफॉर्म जैसे व्हाट्सएप, इंस्टाग्राम, फेसबुक और मैसेंजर में एकीकृत है। उपयोगकर्ता वास्तविक समय की खोज और इन ऐप्स के भीतर सीधे रचनात्मक सामग्री उत्पन्न करने की क्षमता जैसी उन्नत सुविधाओं का उपयोग कर सकते हैं। 

लामा 3 को रे-बैन मेटा स्मार्ट ग्लास और मेटा क्वेस्ट वीआर हेडसेट जैसी पहनने योग्य तकनीकों में भी शामिल किया जा रहा है।

लामा 3 डेवलपर्स के लिए विभिन्न प्लेटफार्मों पर उपलब्ध है, जिसमें AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, और स्नोफ्लेक। आप इन मॉडलों को सीधे मेटा से भी एक्सेस कर सकते हैं। विकल्पों की विस्तृत श्रृंखला डेवलपर्स के लिए इन उन्नत एआई मॉडल क्षमताओं को अपनी परियोजनाओं में एकीकृत करना आसान बनाती है, चाहे वे सीधे मेटा के साथ या अन्य लोकप्रिय प्लेटफार्मों के माध्यम से काम करना पसंद करते हों।

टेकअवे

मशीन सीखने की प्रगति यह बदलती रहती है कि हम हर दिन प्रौद्योगिकी के साथ कैसे बातचीत करते हैं। मेटा के लामा 3 से पता चलता है कि एलएलएम अब केवल पाठ उत्पन्न करने के बारे में नहीं हैं। एलएलएम जटिल समस्याओं से निपट रहे हैं और कई भाषाओं को संभाल रहे हैं। कुल मिलाकर, लामा 3 एआई को पहले से कहीं अधिक अनुकूलनीय और सुलभ बना रहा है। आगे देखते हुए, लामा 3 के लिए नियोजित उन्नयन और भी अधिक क्षमताओं का वादा करता है, जैसे कई मॉडलों को संभालना और बड़े संदर्भों को समझना। 

हमारी जाँच करें GitHub भंडार और AI के बारे में अधिक जानने के लिए हमारे समुदाय में शामिल हों। हमारे समाधान पृष्ठों पर जाएं यह देखने के लिए कि विनिर्माण और कृषि जैसे क्षेत्रों में एआई कैसे लागू किया जा रहा है।

चलो भविष्य का निर्माण करते हैं
एआई का एक साथ!

मशीन लर्निंग के भविष्य के साथ अपनी यात्रा शुरू करें

इस श्रेणी में और पढ़ें