X
Ultralytics YOLOv8.2 रिलीज़Ultralytics YOLOv8.2 रिलीज़Ultralytics YOLOv8.2 रिलीज़ तीर
ग्रीन चेक
लिंक क्लिपबोर्ड पर कॉपी किया गया

2024 एक जनरेटिव एआई वेव के साथ शुरू होता है

2024 की पहली तिमाही से रोमांचक एआई नवाचारों पर एक नज़र। हम OpenAI की Sora AI, Neuralink की ब्रेन चिप और नवीनतम LLMs जैसी सफलताओं को कवर करेंगे।

फेसबुक लोगोट्विटर लोगोलिंक्डइन लोगोकॉपी-लिंक प्रतीक

एआई समुदाय लगभग रोजाना सुर्खियां बटोरता है। 2024 के पहले कुछ महीने रोमांचक रहे हैं और नए एआई नवाचारों से भरे हुए हैं। शक्तिशाली नए बड़े भाषा मॉडल से लेकर मानव मस्तिष्क प्रत्यारोपण तक, 2024 अद्भुत होने के लिए आकार ले रहा है।

हम एआई को उद्योगों को बदलते हुए देख रहे हैं, जानकारी को अधिक सुलभ बना रहे हैं, और यहां तक कि मशीनों के साथ हमारे दिमाग को विलय करने की दिशा में पहला कदम उठा रहे हैं। आइए 2024 की पहली तिमाही को रिवाइंड करें और कुछ ही महीनों में एआई में हुई प्रगति पर करीब से नज़र डालें।

एलएलएम ट्रेंडिंग हैं

बड़ी मात्रा में पाठ डेटा के आधार पर मानव भाषा को समझने, उत्पन्न करने और हेरफेर करने के लिए डिज़ाइन किए गए बड़े भाषा मॉडल (एलएलएम) ने 2024 की पहली तिमाही में केंद्र स्तर पर कब्जा कर लिया। कई प्रमुख टेक कंपनियों ने अपने स्वयं के एलएलएम मॉडल जारी किए, जिनमें से प्रत्येक अद्वितीय क्षमताओं के साथ था। GPT-3 जैसे पूर्व एलएलएम की अविश्वसनीय सफलता ने इस प्रवृत्ति को प्रेरित किया। यहां 2024 की शुरुआत से कुछ सबसे उल्लेखनीय एलएलएम रिलीज़ हैं।

Anthropicक्लाउड 3

Anthropic क्लाउड 3 को 14 मार्च, 2024 को रिलीज़ किया। क्लाउड 3 मॉडल तीन संस्करणों में आता है: ओपस, सॉनेट और हाइकू, प्रत्येक विभिन्न बाजारों और उद्देश्यों की सेवा करता है। हाइकू, सबसे तेज मॉडल, तेज, बुनियादी प्रतिक्रियाओं के लिए अनुकूलित है। सॉनेट बुद्धि के साथ गति को संतुलित करता है और उद्यम अनुप्रयोगों पर लक्षित होता है। ओपस, सबसे उन्नत संस्करण, अद्वितीय बुद्धि और तर्क प्रदान करता है और जटिल कार्यों और शीर्ष बेंचमार्क प्राप्त करने के लिए आदर्श है।

क्लाउड 3 में कई उन्नत सुविधाएँ और सुधार हैं:

  • उन्नत बहुभाषी वार्तालाप: स्पेनिश, जापानी और फ्रेंच सहित भाषाओं में बेहतर क्षमताएं।
  • उन्नत दृष्टि विशेषताएं: विभिन्न दृश्य प्रारूपों को संभालने में सक्षम
  • कम से कम इनकार: कम अनावश्यक इनकार के साथ अधिक समझ दिखाता है, जो बेहतर प्रासंगिक समझ का संकेत देता है
  • विस्तारित संदर्भ विंडो: यह 200K संदर्भ विंडो प्रदान करता है, लेकिन ग्राहकों की जरूरतों के आधार पर 1 मिलियन टोकन से अधिक इनपुट संसाधित करने में सक्षम है।
चित्र 1. क्लाउड 3 पिछले संस्करणों की तुलना में अधिक प्रासंगिक रूप से जागरूक है।

डेटाब्रिक्स का डीबीआरएक्स

Databricks DBRX 27 मार्च, 2024 को Databricks द्वारा जारी किया गया एक खुला, सामान्य-उद्देश्य वाला LLM है। डीबीआरएक्स भाषा समझ, प्रोग्रामिंग और गणित सहित विभिन्न बेंचमार्क में वास्तव में अच्छा करता है। यह समान मॉडल की तुलना में लगभग 40% छोटा होने के दौरान अन्य स्थापित मॉडलों को पार करता है।

चित्र 2. अन्य मॉडलों के साथ डीबीआरएक्स की तुलना।

डीबीआरएक्स को अगले-टोकन भविष्यवाणी का उपयोग करके एक बढ़िया मिश्रण-विशेषज्ञों (एमओई) वास्तुकला के साथ प्रशिक्षित किया गया था, और इसीलिए हम प्रशिक्षण और अनुमान प्रदर्शन में महत्वपूर्ण सुधार देख सकते हैं। इसकी वास्तुकला मॉडल को विशेष उप-मॉडल ("विशेषज्ञ") के विविध सेट से परामर्श करके अनुक्रम में अगले शब्द की अधिक सटीक भविष्यवाणी करने की अनुमति देती है। ये उपमॉडल विभिन्न प्रकार की जानकारी या कार्यों को संभालने में अच्छे हैं।

गूगल का मिथुन 1.5

Google ने 1.5 फरवरी, 15 को Gemini 2024, एक गणना-कुशल, मल्टीमॉडल AI मॉडल पेश किया, जो व्यापक टेक्स्ट, वीडियो और ऑडियो डेटा का विश्लेषण कर सकता है। नवीनतम मॉडल प्रदर्शन, दक्षता और क्षमताओं के मामले में अधिक उन्नत है। मिथुन 1.5 की एक प्रमुख विशेषता लंबे संदर्भ की समझ में इसकी सफलता है। मॉडल लगातार 1 मिलियन टोकन तक संभालने में सक्षम है। मिथुन की 1.5 क्षमताएं भी एक नए एमओई-आधारित वास्तुकला के लिए धन्यवाद हैं।

चित्र 3. लोकप्रिय एलएलएम की संदर्भ लंबाई की तुलना करना

यहाँ मिथुन राशि के 1.5 सबसे दिलचस्प विशेषताओं में से कुछ हैं:

  • बेहतर डेटा हैंडलिंग: संकेतों के रूप में बड़े PDF, कोड रिपॉजिटरी या लंबे वीडियो के सीधे अपलोड की अनुमति देता है। मॉडल तौर-तरीकों और आउटपुट टेक्स्ट में तर्क कर सकता है।
  • एकाधिक फ़ाइल अपलोड और प्रश्न: डेवलपर अब कई फाइलें अपलोड कर सकते हैं और प्रश्न पूछ सकते हैं।
  • विभिन्न कार्यों के लिए इस्तेमाल किया जा सकता है: यह विविध कार्यों में पैमाने पर अनुकूलित है, और गणित, विज्ञान, तर्क, बहुभाषीता, वीडियो समझ और कोड जैसे क्षेत्रों में सुधार दिखाता है

एआई से आश्चर्यजनक दृश्य

2024 की पहली तिमाही ने जनरेटिव एआई मॉडल का अनावरण किया है जो दृश्य इतने वास्तविक बना सकते हैं कि उन्होंने सोशल मीडिया के भविष्य और एआई की प्रगति पर बहस छेड़ दी है। आइए बातचीत को उत्तेजित करने वाले मॉडलों में गोता लगाएँ।

OpenAI का सोरा 

OpenAI, के निर्माता ChatGPT, 15 फरवरी, 2024 को सोरा नामक एक अत्याधुनिक टेक्स्ट-टू-वीडियो डीप लर्निंग मॉडल की घोषणा की। सोरा एक टेक्स्ट-टू-वीडियो जनरेटर है जो पाठ्य उपयोगकर्ता संकेतों के आधार पर उच्च दृश्य गुणवत्ता वाले मिनट-लंबे वीडियो बनाने में सक्षम है। 

उदाहरण के लिए, निम्न संकेत पर एक नज़र डालें। 

"एक प्रवाल भित्ति की एक भव्य रूप से प्रदान की गई पेपरक्राफ्ट दुनिया, रंगीन मछलियों और समुद्री जीवों के साथ व्याप्त है। 

और, यहाँ आउटपुट वीडियो से एक फ्रेम है। 

चित्र 4. सोरा द्वारा उत्पन्न वीडियो का एक फ्रेम।

सोरा की वास्तुकला संरचनात्मक सुसंगतता के लिए बनावट पीढ़ी और ट्रांसफार्मर मॉडल के लिए प्रसार मॉडल को सम्मिश्रण करके इसे संभव बनाती है। अब तक, सोरा तक पहुंच रेड टीमर्स और दृश्य कलाकारों, डिजाइनरों और फिल्म निर्माताओं के एक चुनिंदा समूह को जोखिमों को समझने और प्रतिक्रिया प्राप्त करने के लिए दी गई है। 

Stability AIस्थिर प्रसार 3 

Stability AI 3 फरवरी, 22 को टेक्स्ट-टू-इमेज जनरेशन मॉडल, स्टेबल डिफ्यूजन 2024 के आगमन की घोषणा की। मॉडल प्रसार ट्रांसफार्मर वास्तुकला और प्रवाह मिलान को मिलाता है। उन्होंने अभी तक एक तकनीकी पेपर जारी नहीं किया है, लेकिन देखने के लिए कुछ प्रमुख विशेषताएं हैं।

चित्र 5. प्रॉम्प्ट के आधार पर आउटपुट छवि: "रात में एक पहाड़ के ऊपर एक जादूगर की महाकाव्य एनीमे कलाकृति अंधेरे आकाश में एक ब्रह्मांडीय जादू कास्टिंग करती है जो कहती है" स्थिर प्रसार 3 "रंगीन ऊर्जा से बना है"

स्टेबल डिफ्यूजन का नवीनतम मॉडल कई विषयों के साथ चित्र बनाने में बेहतर प्रदर्शन, छवि गुणवत्ता और सटीकता प्रदान करता है। स्टेबल डिफ्यूजन 3 800 मिलियन से 8 बिलियन पैरामीटर तक के विभिन्न मॉडल भी पेश करेगा। यह उपयोगकर्ताओं को मापनीयता और विस्तार के लिए उनकी विशिष्ट आवश्यकताओं के आधार पर चुनने की अनुमति देगा।

Google का Lumiere 

23 जनवरी, 2024 को, Google ने Lumiere, एक टेक्स्ट-टू-वीडियो डिफ्यूजन मॉडल लॉन्च किया। Lumiere स्पेस-टाइम-यू-नेट नामक आर्किटेक्चर का उपयोग करता है, या संक्षेप में STUNet। यह Lumiere को यह समझने में मदद करता है कि चीजें कहां हैं और वे वीडियो में कैसे चलती हैं। ऐसा करने से, यह सहज और सजीव वीडियो उत्पन्न कर सकता है।

चित्र 6. प्रॉम्प्ट के आधार पर उत्पन्न वीडियो का एक फ्रेम: "पांडा घर पर गिटार बजाते हैं।

प्रति वीडियो 80 फ्रेम उत्पन्न करने की क्षमता के साथ, Lumiere सीमाओं को आगे बढ़ा रहा है और AI स्पेस में वीडियो गुणवत्ता के लिए नए मानक स्थापित कर रहा है। यहाँ Lumiere की कुछ विशेषताएं दी गई हैं:

  • इमेज-टू-वीडियो: एक छवि और एक संकेत से शुरू होकर, Lumiere छवियों को वीडियो में एनिमेट कर सकता है।
  • शैलीबद्ध पीढ़ी: Lumiere एकल संदर्भ छवि का उपयोग करके विशिष्ट शैलियों में वीडियो बना सकता है।
  • सिनेमाग्राफ: Lumiere गतिशील दृश्यों को बनाने के लिए एक छवि के भीतर विशिष्ट क्षेत्रों को चेतन कर सकता है, जैसे कि एक विशेष वस्तु चलती है जबकि शेष दृश्य स्थिर रहता है।
  • वीडियो इनपेंटिंग: यह वीडियो के कुछ हिस्सों को संशोधित कर सकता है, जैसे कि इसके भीतर लोगों की पोशाक बदलना या पृष्ठभूमि विवरण बदलना।

भविष्य यहाँ लगता है

2024 की शुरुआत ने कई एआई नवाचारों को भी सामने लाया है जो एक विज्ञान-फाई फिल्म से कुछ ऐसा महसूस करते हैं। जिन चीजों को हम पहले असंभव कहते थे, उन पर अब काम किया जा रहा है। भविष्य निम्नलिखित खोजों के साथ इतना दूर महसूस नहीं करता है।

एलोन मस्क का न्यूरालिंक

एलोन मस्क के न्यूरालिंक ने 29 जनवरी, 2024 को एक मानव में अपनी वायरलेस ब्रेन चिप को सफलतापूर्वक प्रत्यारोपित किया। यह मानव दिमाग को कंप्यूटर से जोड़ने की दिशा में एक बड़ा कदम है। एलोन मस्क ने साझा किया कि न्यूरालिंक का पहला उत्पाद, जिसका नाम 'टेलीपैथी' है, पाइपलाइन में है। 

चित्र 7. न्यूरालिंक इम्प्लांट

लक्ष्य उपयोगकर्ताओं को सक्षम करना है, विशेष रूप से वे जो अंग कार्यक्षमता खो चुके हैं, अपने विचारों के माध्यम से उपकरणों को सहजता से नियंत्रित करने के लिए। संभावित अनुप्रयोग सुविधा से परे हैं। एलोन मस्क एक ऐसे भविष्य की कल्पना करते हैं जहां पक्षाघात वाले व्यक्ति आसानी से संवाद कर सकते हैं।

डिज्नी का होलोटाइल फ्लोर 

18 जनवरी, 2024 को वॉल्ट डिज़नी इमेजिनियरिंग ने होलोटाइल फ्लोर का अनावरण किया। इसे दुनिया का पहला बहु-व्यक्ति, सर्वदिशात्मक ट्रेडमिल ग्राउंड करार दिया गया है। 

चित्र 8. डिज्नी इमेजिनेर लनी स्मूट अपने नवीनतम नवाचार, होलोटाइल फ्लोर पर बना है।

यह किसी भी व्यक्ति या वस्तु के नीचे जा सकता है जैसे टेलीकिनेसिस एक इमर्सिव वर्चुअल और संवर्धित वास्तविकता अनुभव के लिए। आप किसी भी दिशा में चल सकते हैं, और उस पर टकराव से बच सकते हैं। डिज्नी के होलोटाइल फ्लोर को नाटकीय चरणों में नृत्य करने और रचनात्मक तरीकों से स्थानांतरित करने के लिए भी लगाया जा सकता है।

एप्पल के विजन प्रो

2 फरवरी, 2024 को Apple का बहुप्रतीक्षित विजन प्रो हेडसेट बाजार में आया। इसमें आभासी और संवर्धित वास्तविकता अनुभव को फिर से परिभाषित करने के लिए डिज़ाइन की गई सुविधाओं और अनुप्रयोगों की एक सरणी है। विजन प्रो हेडसेट मनोरंजन, उत्पादकता और स्थानिक कंप्यूटिंग को मिलाकर विविध दर्शकों को पूरा करता है। ऐप्पल ने गर्व से घोषणा की कि 600 से अधिक ऐप, उत्पादकता उपकरण से लेकर गेमिंग और मनोरंजन सेवाओं तक, इसके लॉन्च पर विजन प्रो के लिए अनुकूलित किए गए थे।

अनुभूति का डेविन

12 मार्च, 2024 को, कॉग्निशन ने डेविन नामक एक सॉफ्टवेयर इंजीनियरिंग सहायक जारी किया। डेविन एक स्वायत्त एआई सॉफ्टवेयर इंजीनियर में दुनिया का पहला प्रयास है। पारंपरिक कोडिंग सहायकों के विपरीत जो सुझाव देते हैं या विशिष्ट कार्यों को पूरा करते हैं, डेविन को प्रारंभिक अवधारणा से लेकर पूरा होने तक संपूर्ण सॉफ्टवेयर विकास परियोजनाओं को संभालने के लिए डिज़ाइन किया गया है। 

यह नई तकनीकों को सीख सकता है, पूर्ण ऐप्स बना और तैनात कर सकता है, बग ढूंढ और ठीक कर सकता है, अपने स्वयं के मॉडल को प्रशिक्षित कर सकता है, ओपन-सोर्स और प्रोडक्शन कोडबेस में योगदान कर सकता है, और यहां तक कि Upwork जैसी साइटों से वास्तविक विकास कार्य भी कर सकता है। 

चित्र 9. अन्य मॉडलों के साथ डेविन की तुलना।

डेविन का मूल्यांकन एसडब्ल्यूई-बेंच पर किया गया था, जो एक चुनौतीपूर्ण बेंचमार्क है जो एजेंटों को डीजेंगो और स्किकिट-लर्न जैसी ओपन-सोर्स परियोजनाओं में पाए जाने वाले वास्तविक दुनिया के गिटहब मुद्दों को हल करने के लिए कहता है। इसने 1.96% के पिछले अत्याधुनिक की तुलना में एंड-टू-एंड 13.86% मुद्दों को सही ढंग से हल किया।

माननीय उल्लेख

इतना कुछ हो रहा है कि इस लेख में सब कुछ कवर करना संभव नहीं है। लेकिन, यहां कुछ और सम्मानजनक उल्लेख हैं। 

  • 21 मार्च, 2024 को घोषित NVIDIA का LATTE3D एक टेक्स्ट-टू-3D AI मॉडल है जो टेक्स्ट प्रॉम्प्ट से तुरंत 3D प्रतिनिधित्व बनाता है।
  • सीईओ डेविड होल्ज़ द्वारा छेड़े गए मिडजर्नी के नए टेक्स्ट-टू-वीडियो जनरेटर ने जनवरी में प्रशिक्षण शुरू किया और जल्द ही लॉन्च होने की उम्मीद है।
  • एआई पीसी क्रांति को आगे बढ़ाते हुए, लेनोवो ने 13 जनवरी, 8 को ई इंक प्रिज्म तकनीक और उच्च प्रदर्शन वाले एआई लैपटॉप के साथ थिंकबुक 2024x जारी किया।

हमारे साथ एआई रुझानों पर अपडेट रहें!

2024 की शुरुआत में एआई में अभूतपूर्व प्रगति और कई प्रमुख तकनीकी मील के पत्थर देखे गए। लेकिन यह सिर्फ शुरुआत है कि एआई क्या कर सकता है। यदि आप नवीनतम एआई विकास के बारे में अधिक जानना चाहते हैं, Ultralytics आपको कवर कर लिया है।

कंप्यूटर विज़न और AI में हमारे नवीनतम योगदान देखने के लिए हमारे GitHub रिपॉजिटरी देखें। आप हमारे समाधान पृष्ठों को यह देखने के लिए भी देख सकते हैं कि विनिर्माण और स्वास्थ्य सेवा जैसे उद्योगों में एआई का उपयोग कैसे किया जा रहा है। 

चलो भविष्य का निर्माण करते हैं
एआई का एक साथ!

मशीन लर्निंग के भविष्य के साथ अपनी यात्रा शुरू करें

इस श्रेणी में और पढ़ें