2024 की पहली तिमाही से रोमांचक एआई नवाचारों पर एक नज़र। हम OpenAI की Sora AI, Neuralink की ब्रेन चिप और नवीनतम LLMs जैसी सफलताओं को कवर करेंगे।
एआई समुदाय लगभग रोजाना सुर्खियां बटोरता है। 2024 के पहले कुछ महीने रोमांचक रहे हैं और नए एआई नवाचारों से भरे हुए हैं। शक्तिशाली नए बड़े भाषा मॉडल से लेकर मानव मस्तिष्क प्रत्यारोपण तक, 2024 अद्भुत होने के लिए आकार ले रहा है।
हम एआई को उद्योगों को बदलते हुए देख रहे हैं, जानकारी को अधिक सुलभ बना रहे हैं, और यहां तक कि मशीनों के साथ हमारे दिमाग को विलय करने की दिशा में पहला कदम उठा रहे हैं। आइए 2024 की पहली तिमाही को रिवाइंड करें और कुछ ही महीनों में एआई में हुई प्रगति पर करीब से नज़र डालें।
बड़ी मात्रा में पाठ डेटा के आधार पर मानव भाषा को समझने, उत्पन्न करने और हेरफेर करने के लिए डिज़ाइन किए गए बड़े भाषा मॉडल (एलएलएम) ने 2024 की पहली तिमाही में केंद्र स्तर पर कब्जा कर लिया। कई प्रमुख टेक कंपनियों ने अपने स्वयं के एलएलएम मॉडल जारी किए, जिनमें से प्रत्येक अद्वितीय क्षमताओं के साथ था। GPT-3 जैसे पूर्व एलएलएम की अविश्वसनीय सफलता ने इस प्रवृत्ति को प्रेरित किया। यहां 2024 की शुरुआत से कुछ सबसे उल्लेखनीय एलएलएम रिलीज़ हैं।
Anthropic क्लाउड 3 को 14 मार्च, 2024 को रिलीज़ किया। क्लाउड 3 मॉडल तीन संस्करणों में आता है: ओपस, सॉनेट और हाइकू, प्रत्येक विभिन्न बाजारों और उद्देश्यों की सेवा करता है। हाइकू, सबसे तेज मॉडल, तेज, बुनियादी प्रतिक्रियाओं के लिए अनुकूलित है। सॉनेट बुद्धि के साथ गति को संतुलित करता है और उद्यम अनुप्रयोगों पर लक्षित होता है। ओपस, सबसे उन्नत संस्करण, अद्वितीय बुद्धि और तर्क प्रदान करता है और जटिल कार्यों और शीर्ष बेंचमार्क प्राप्त करने के लिए आदर्श है।
क्लाउड 3 में कई उन्नत सुविधाएँ और सुधार हैं:
Databricks DBRX 27 मार्च, 2024 को Databricks द्वारा जारी किया गया एक खुला, सामान्य-उद्देश्य वाला LLM है। डीबीआरएक्स भाषा समझ, प्रोग्रामिंग और गणित सहित विभिन्न बेंचमार्क में वास्तव में अच्छा करता है। यह समान मॉडल की तुलना में लगभग 40% छोटा होने के दौरान अन्य स्थापित मॉडलों को पार करता है।
डीबीआरएक्स को अगले-टोकन भविष्यवाणी का उपयोग करके एक बढ़िया मिश्रण-विशेषज्ञों (एमओई) वास्तुकला के साथ प्रशिक्षित किया गया था, और इसीलिए हम प्रशिक्षण और अनुमान प्रदर्शन में महत्वपूर्ण सुधार देख सकते हैं। इसकी वास्तुकला मॉडल को विशेष उप-मॉडल ("विशेषज्ञ") के विविध सेट से परामर्श करके अनुक्रम में अगले शब्द की अधिक सटीक भविष्यवाणी करने की अनुमति देती है। ये उपमॉडल विभिन्न प्रकार की जानकारी या कार्यों को संभालने में अच्छे हैं।
Google ने 1.5 फरवरी, 15 को Gemini 2024, एक गणना-कुशल, मल्टीमॉडल AI मॉडल पेश किया, जो व्यापक टेक्स्ट, वीडियो और ऑडियो डेटा का विश्लेषण कर सकता है। नवीनतम मॉडल प्रदर्शन, दक्षता और क्षमताओं के मामले में अधिक उन्नत है। मिथुन 1.5 की एक प्रमुख विशेषता लंबे संदर्भ की समझ में इसकी सफलता है। मॉडल लगातार 1 मिलियन टोकन तक संभालने में सक्षम है। मिथुन की 1.5 क्षमताएं भी एक नए एमओई-आधारित वास्तुकला के लिए धन्यवाद हैं।
यहाँ मिथुन राशि के 1.5 सबसे दिलचस्प विशेषताओं में से कुछ हैं:
2024 की पहली तिमाही ने जनरेटिव एआई मॉडल का अनावरण किया है जो दृश्य इतने वास्तविक बना सकते हैं कि उन्होंने सोशल मीडिया के भविष्य और एआई की प्रगति पर बहस छेड़ दी है। आइए बातचीत को उत्तेजित करने वाले मॉडलों में गोता लगाएँ।
OpenAI, के निर्माता ChatGPT, 15 फरवरी, 2024 को सोरा नामक एक अत्याधुनिक टेक्स्ट-टू-वीडियो डीप लर्निंग मॉडल की घोषणा की। सोरा एक टेक्स्ट-टू-वीडियो जनरेटर है जो पाठ्य उपयोगकर्ता संकेतों के आधार पर उच्च दृश्य गुणवत्ता वाले मिनट-लंबे वीडियो बनाने में सक्षम है।
उदाहरण के लिए, निम्न संकेत पर एक नज़र डालें।
"एक प्रवाल भित्ति की एक भव्य रूप से प्रदान की गई पेपरक्राफ्ट दुनिया, रंगीन मछलियों और समुद्री जीवों के साथ व्याप्त है।
और, यहाँ आउटपुट वीडियो से एक फ्रेम है।
सोरा की वास्तुकला संरचनात्मक सुसंगतता के लिए बनावट पीढ़ी और ट्रांसफार्मर मॉडल के लिए प्रसार मॉडल को सम्मिश्रण करके इसे संभव बनाती है। अब तक, सोरा तक पहुंच रेड टीमर्स और दृश्य कलाकारों, डिजाइनरों और फिल्म निर्माताओं के एक चुनिंदा समूह को जोखिमों को समझने और प्रतिक्रिया प्राप्त करने के लिए दी गई है।
Stability AI 3 फरवरी, 22 को टेक्स्ट-टू-इमेज जनरेशन मॉडल, स्टेबल डिफ्यूजन 2024 के आगमन की घोषणा की। मॉडल प्रसार ट्रांसफार्मर वास्तुकला और प्रवाह मिलान को मिलाता है। उन्होंने अभी तक एक तकनीकी पेपर जारी नहीं किया है, लेकिन देखने के लिए कुछ प्रमुख विशेषताएं हैं।
स्टेबल डिफ्यूजन का नवीनतम मॉडल कई विषयों के साथ चित्र बनाने में बेहतर प्रदर्शन, छवि गुणवत्ता और सटीकता प्रदान करता है। स्टेबल डिफ्यूजन 3 800 मिलियन से 8 बिलियन पैरामीटर तक के विभिन्न मॉडल भी पेश करेगा। यह उपयोगकर्ताओं को मापनीयता और विस्तार के लिए उनकी विशिष्ट आवश्यकताओं के आधार पर चुनने की अनुमति देगा।
23 जनवरी, 2024 को, Google ने Lumiere, एक टेक्स्ट-टू-वीडियो डिफ्यूजन मॉडल लॉन्च किया। Lumiere स्पेस-टाइम-यू-नेट नामक आर्किटेक्चर का उपयोग करता है, या संक्षेप में STUNet। यह Lumiere को यह समझने में मदद करता है कि चीजें कहां हैं और वे वीडियो में कैसे चलती हैं। ऐसा करने से, यह सहज और सजीव वीडियो उत्पन्न कर सकता है।
प्रति वीडियो 80 फ्रेम उत्पन्न करने की क्षमता के साथ, Lumiere सीमाओं को आगे बढ़ा रहा है और AI स्पेस में वीडियो गुणवत्ता के लिए नए मानक स्थापित कर रहा है। यहाँ Lumiere की कुछ विशेषताएं दी गई हैं:
2024 की शुरुआत ने कई एआई नवाचारों को भी सामने लाया है जो एक विज्ञान-फाई फिल्म से कुछ ऐसा महसूस करते हैं। जिन चीजों को हम पहले असंभव कहते थे, उन पर अब काम किया जा रहा है। भविष्य निम्नलिखित खोजों के साथ इतना दूर महसूस नहीं करता है।
एलोन मस्क के न्यूरालिंक ने 29 जनवरी, 2024 को एक मानव में अपनी वायरलेस ब्रेन चिप को सफलतापूर्वक प्रत्यारोपित किया। यह मानव दिमाग को कंप्यूटर से जोड़ने की दिशा में एक बड़ा कदम है। एलोन मस्क ने साझा किया कि न्यूरालिंक का पहला उत्पाद, जिसका नाम 'टेलीपैथी' है, पाइपलाइन में है।
लक्ष्य उपयोगकर्ताओं को सक्षम करना है, विशेष रूप से वे जो अंग कार्यक्षमता खो चुके हैं, अपने विचारों के माध्यम से उपकरणों को सहजता से नियंत्रित करने के लिए। संभावित अनुप्रयोग सुविधा से परे हैं। एलोन मस्क एक ऐसे भविष्य की कल्पना करते हैं जहां पक्षाघात वाले व्यक्ति आसानी से संवाद कर सकते हैं।
18 जनवरी, 2024 को वॉल्ट डिज़नी इमेजिनियरिंग ने होलोटाइल फ्लोर का अनावरण किया। इसे दुनिया का पहला बहु-व्यक्ति, सर्वदिशात्मक ट्रेडमिल ग्राउंड करार दिया गया है।
यह किसी भी व्यक्ति या वस्तु के नीचे जा सकता है जैसे टेलीकिनेसिस एक इमर्सिव वर्चुअल और संवर्धित वास्तविकता अनुभव के लिए। आप किसी भी दिशा में चल सकते हैं, और उस पर टकराव से बच सकते हैं। डिज्नी के होलोटाइल फ्लोर को नाटकीय चरणों में नृत्य करने और रचनात्मक तरीकों से स्थानांतरित करने के लिए भी लगाया जा सकता है।
2 फरवरी, 2024 को Apple का बहुप्रतीक्षित विजन प्रो हेडसेट बाजार में आया। इसमें आभासी और संवर्धित वास्तविकता अनुभव को फिर से परिभाषित करने के लिए डिज़ाइन की गई सुविधाओं और अनुप्रयोगों की एक सरणी है। विजन प्रो हेडसेट मनोरंजन, उत्पादकता और स्थानिक कंप्यूटिंग को मिलाकर विविध दर्शकों को पूरा करता है। ऐप्पल ने गर्व से घोषणा की कि 600 से अधिक ऐप, उत्पादकता उपकरण से लेकर गेमिंग और मनोरंजन सेवाओं तक, इसके लॉन्च पर विजन प्रो के लिए अनुकूलित किए गए थे।
12 मार्च, 2024 को, कॉग्निशन ने डेविन नामक एक सॉफ्टवेयर इंजीनियरिंग सहायक जारी किया। डेविन एक स्वायत्त एआई सॉफ्टवेयर इंजीनियर में दुनिया का पहला प्रयास है। पारंपरिक कोडिंग सहायकों के विपरीत जो सुझाव देते हैं या विशिष्ट कार्यों को पूरा करते हैं, डेविन को प्रारंभिक अवधारणा से लेकर पूरा होने तक संपूर्ण सॉफ्टवेयर विकास परियोजनाओं को संभालने के लिए डिज़ाइन किया गया है।
यह नई तकनीकों को सीख सकता है, पूर्ण ऐप्स बना और तैनात कर सकता है, बग ढूंढ और ठीक कर सकता है, अपने स्वयं के मॉडल को प्रशिक्षित कर सकता है, ओपन-सोर्स और प्रोडक्शन कोडबेस में योगदान कर सकता है, और यहां तक कि Upwork जैसी साइटों से वास्तविक विकास कार्य भी कर सकता है।
डेविन का मूल्यांकन एसडब्ल्यूई-बेंच पर किया गया था, जो एक चुनौतीपूर्ण बेंचमार्क है जो एजेंटों को डीजेंगो और स्किकिट-लर्न जैसी ओपन-सोर्स परियोजनाओं में पाए जाने वाले वास्तविक दुनिया के गिटहब मुद्दों को हल करने के लिए कहता है। इसने 1.96% के पिछले अत्याधुनिक की तुलना में एंड-टू-एंड 13.86% मुद्दों को सही ढंग से हल किया।
इतना कुछ हो रहा है कि इस लेख में सब कुछ कवर करना संभव नहीं है। लेकिन, यहां कुछ और सम्मानजनक उल्लेख हैं।
2024 की शुरुआत में एआई में अभूतपूर्व प्रगति और कई प्रमुख तकनीकी मील के पत्थर देखे गए। लेकिन यह सिर्फ शुरुआत है कि एआई क्या कर सकता है। यदि आप नवीनतम एआई विकास के बारे में अधिक जानना चाहते हैं, Ultralytics आपको कवर कर लिया है।
कंप्यूटर विज़न और AI में हमारे नवीनतम योगदान देखने के लिए हमारे GitHub रिपॉजिटरी देखें। आप हमारे समाधान पृष्ठों को यह देखने के लिए भी देख सकते हैं कि विनिर्माण और स्वास्थ्य सेवा जैसे उद्योगों में एआई का उपयोग कैसे किया जा रहा है।
मशीन लर्निंग के भविष्य के साथ अपनी यात्रा शुरू करें