इसके बारे में जानें YOLO-वर्ल्ड, एक अभिनव ऑब्जेक्ट डिटेक्शन मॉडल जो टेक्स्ट प्रॉम्प्ट के माध्यम से वस्तुओं की पहचान कर सकता है। इसका तरीका एक्सप्लोर करें YOLO-World काम करता है और इसके अनुप्रयोग, और एक त्वरित कोड उदाहरण के साथ हाथ मिलाते हैं।
कंप्यूटर दृष्टि परियोजनाओं में अक्सर डेटा को एनोटेट करने और ऑब्जेक्ट डिटेक्शन मॉडल को प्रशिक्षित करने में बहुत समय व्यतीत करना शामिल होता है। लेकिन, यह जल्द ही अतीत की बात हो सकती है। Tencent की AI लैब जारी की गई YOLO-वर्ल्ड, एक वास्तविक समय, खुली शब्दावली वस्तु का पता लगाने वाला मॉडल, 31 जनवरी, 2024 को। YOLO-वर्ल्ड एक शून्य-शॉट मॉडल है, जिसका अर्थ है कि आप इसे प्रशिक्षित किए बिना छवियों पर ऑब्जेक्ट डिटेक्शन अनुमान चला सकते हैं।
शून्य-शॉट मॉडल में कंप्यूटर दृष्टि अनुप्रयोगों के दृष्टिकोण के तरीके को बदलने की क्षमता है। इस ब्लॉग में, हम देखेंगे कि कैसे YOLO-वर्ल्ड वर्क्स और इसके संभावित उपयोग और आपको आरंभ करने के लिए एक व्यावहारिक कोड उदाहरण साझा करते हैं।
आप एक छवि और पाठ संकेत पास कर सकते हैं जो वर्णन करता है कि आप किन वस्तुओं की तलाश कर रहे हैं YOLO-वर्ल्ड मॉडल। उदाहरण के लिए, यदि आप किसी फ़ोटो में "लाल शर्ट पहने हुए व्यक्ति" को खोजने में रुचि रखते हैं, YOLO-वर्ल्ड इस इनपुट को लेता है और काम पर लग जाता है।
मॉडल की अनूठी वास्तुकला तीन मुख्य तत्वों को जोड़ती है:
वही YOLO डिटेक्टर संभावित वस्तुओं की पहचान करने के लिए आपकी इनपुट छवि को स्कैन करता है। टेक्स्ट एनकोडर आपके विवरण को एक प्रारूप में बदल देता है जिसे मॉडल समझ सकता है। सूचना की इन दो धाराओं को फिर बहु-स्तरीय क्रॉस-मोडलिटी फ्यूजन का उपयोग करके RepVL-PAN के माध्यम से विलय कर दिया जाता है। यह देता है YOLO-World छवि के भीतर आपके प्रॉम्प्ट में वर्णित वस्तुओं का सटीक पता लगाता है और उनका पता लगाता है।
उपयोग करने के सबसे बड़े लाभों में से एक YOLO-दुनिया यह है कि आपको किसी विशिष्ट वर्ग के लिए मॉडल को प्रशिक्षित करने की आवश्यकता नहीं है। यह पहले से ही छवियों और ग्रंथों के जोड़े से सीखा है, इसलिए यह जानता है कि विवरण के आधार पर वस्तुओं को कैसे खोजना है। आप डेटा एकत्र करने, डेटा को एनोटेट करने, महंगे GPU पर प्रशिक्षण आदि से घंटों बच सकते हैं।
उपयोग करने के कुछ अन्य लाभ यहां दिए गए हैं YOLO-संसार:
YOLO-वर्ल्ड मॉडल का उपयोग विभिन्न प्रकार के अनुप्रयोगों के लिए किया जा सकता है। आइए उनमें से कुछ का पता लगाएं।
असेंबली लाइन पर निर्मित उत्पादों को पैक करने से पहले दोषों के लिए नेत्रहीन रूप से जांचा जाता है। दोष का पता लगाना अक्सर हाथ से किया जाता है, जिसमें समय लगता है और इससे गलतियाँ हो सकती हैं। ये गलतियाँ उच्च लागत और मरम्मत या रिकॉल की आवश्यकता जैसी समस्याएँ पैदा कर सकती हैं। इसके साथ मदद करने के लिए, इन जांचों को करने के लिए विशेष मशीन विजन कैमरे और एआई सिस्टम बनाए गए हैं।
YOLO-विश्व मॉडल इस क्षेत्र में एक बड़ी प्रगति है। वे उत्पादों में दोष पा सकते हैं, भले ही उन्हें अपनी शून्य-शॉट क्षमताओं का उपयोग करके उस विशिष्ट समस्या के लिए प्रशिक्षित नहीं किया गया हो। उदाहरण के लिए, पानी की बोतलों का निर्माण करने वाला एक कारखाना आसानी से बोतल कैप बनाम बोतल के साथ ठीक से सील की गई बोतल के बीच की पहचान कर सकता है जहां एक टोपी छूट गई थी या दोषपूर्ण थी YOLO-संसार।
YOLO-वर्ल्ड मॉडल रोबोट को अपरिचित वातावरण के साथ बातचीत करने की अनुमति देते हैं। विशिष्ट वस्तुओं पर प्रशिक्षित किए बिना जो एक कमरे में हो सकते हैं, वे अभी भी पहचान सकते हैं कि कौन सी वस्तुएं मौजूद हैं। तो, मान लीजिए कि एक रोबोट एक ऐसे कमरे में प्रवेश करता है जिसमें वह पहले कभी नहीं गया है। एक के साथ YOLO-वर्ल्ड मॉडल, यह अभी भी कुर्सियों, तालिकाओं या लैंप जैसी वस्तुओं को पहचान और पहचान सकता है, भले ही इसे उन वस्तुओं पर विशेष रूप से प्रशिक्षित नहीं किया गया हो।
ऑब्जेक्ट डिटेक्शन के अलावा, YOLO-वर्ल्ड उन वस्तुओं की स्थितियों को भी निर्धारित कर सकता है, इसकी 'प्रॉम्प्ट-फिर-डिटेक्ट' सुविधा के लिए धन्यवाद। उदाहरण के लिए, कृषि रोबोटिक्स में, इसका उपयोग पके फलों की पहचान करने के लिए किया जा सकता है बनाम पके फलों की पहचान करने के लिए रोबोट को प्रोग्रामिंग करके नहीं।
ऑटोमोबाइल उद्योग में कई चलती भागों शामिल हैं, और YOLO-वर्ल्ड का उपयोग विभिन्न कार अनुप्रयोगों के लिए किया जा सकता है। उदाहरण के लिए, जब कार के रखरखाव की बात आती है, YOLOमैनुअल टैगिंग या व्यापक पूर्व-प्रशिक्षण के बिना विभिन्न प्रकार की वस्तुओं को पहचानने की दुनिया की क्षमता बेहद उपयोगी है। YOLO-वर्ल्ड का उपयोग कार भागों की पहचान करने के लिए किया जा सकता है जिन्हें बदलने की आवश्यकता है। यह नई कारों में गुणवत्ता जांच, दोषों का पता लगाने या लापता टुकड़ों जैसे कार्यों को भी स्वचालित कर सकता है।
एक अन्य एप्लिकेशन सेल्फ-ड्राइविंग कारों में शून्य-शॉट ऑब्जेक्ट डिटेक्शन है। YOLO-वर्ल्ड की शून्य-शॉट पहचान क्षमताएं वास्तविक समय में पैदल चलने वालों, यातायात संकेतों और अन्य वाहनों जैसे सड़क पर वस्तुओं का पता लगाने और वर्गीकृत करने के लिए एक स्वायत्त वाहन की क्षमता में सुधार कर सकती हैं। ऐसा करने से, यह सुरक्षित यात्रा के लिए बाधाओं का पता लगाने और दुर्घटनाओं को रोकने में मदद कर सकता है।
खुदरा दुकानों में अलमारियों पर वस्तुओं की पहचान करना इन्वेंट्री को ट्रैक करने, स्टॉक को बनाए रखने और प्रक्रियाओं को स्वचालित करने का एक महत्वपूर्ण हिस्सा है। Ultralytics YOLOमैनुअल टैगिंग या व्यापक पूर्व-प्रशिक्षण के बिना विभिन्न प्रकार की वस्तुओं को पहचानने की दुनिया की क्षमता इन्वेंट्री प्रबंधन के लिए बेहद उपयोगी है।
उदाहरण के लिए, इन्वेंट्री प्रबंधन में, YOLO-वर्ल्ड तेजी से एक शेल्फ पर वस्तुओं को स्पॉट और वर्गीकृत कर सकता है, जैसे कि ऊर्जा पेय के विभिन्न ब्रांड। खुदरा स्टोर सटीक इन्वेंट्री रख सकते हैं, स्टॉक स्तरों को कुशलतापूर्वक प्रबंधित कर सकते हैं और आपूर्ति श्रृंखला संचालन को सुचारू कर सकते हैं।
सभी एप्लिकेशन अद्वितीय हैं और दिखाते हैं कि कितने बड़े पैमाने पर YOLO-दुनिया का इस्तेमाल किया जा सकता है। अगला, चलो हाथ से चलते हैं YOLO-World और एक कोडिंग उदाहरण पर एक नज़र डालें।
जैसा कि हमने पहले बताया, YOLO-वर्ल्ड का उपयोग रखरखाव के लिए कार के विभिन्न हिस्सों का पता लगाने के लिए किया जा सकता है। एक कंप्यूटर विज़न एप्लिकेशन जो किसी भी मरम्मत की आवश्यकता का पता लगाता है, उसमें कार की तस्वीर लेना, कार के पुर्जों की पहचान करना, क्षति के लिए कार के प्रत्येक भाग की जांच करना और मरम्मत की सिफारिश करना शामिल होगा। इस प्रणाली का प्रत्येक भाग विभिन्न एआई तकनीकों और दृष्टिकोणों का उपयोग करेगा। इस कोड वॉकथ्रू के प्रयोजन के लिए, आइए उस हिस्से पर ध्यान दें जब कार के पुर्जों का पता चलता है।
के साथ YOLO-दुनिया, आप 5 मिनट से कम समय में एक छवि में विभिन्न कार भागों की पहचान कर सकते हैं। आप विभिन्न अनुप्रयोगों का उपयोग करके प्रयास करने के लिए इस कोड का विस्तार कर सकते हैं YOLO-दुनिया भी! आरंभ करने के लिए, हमें pip install Ultralytics पैकेज जैसा कि नीचे दिखाया गया है।
स्थापना प्रक्रिया से संबंधित अधिक निर्देशों और सर्वोत्तम प्रथाओं के लिए, हमारी जाँच करें Ultralytics इंस्टालेशन गाइड। के लिए आवश्यक पैकेज स्थापित करते समय YOLOv8, यदि आपको कोई कठिनाई आती है, तो समाधान और सुझावों के लिए हमारी सामान्य समस्याएं मार्गदर्शिका देखें।
एक बार जब आप आवश्यक पैकेज स्थापित कर लेते हैं, तो हम अपने निष्कर्षों को चलाने के लिए इंटरनेट से एक छवि डाउनलोड कर सकते हैं। हम नीचे दी गई छवि का उपयोग करने जा रहे हैं।
फिर, हम आवश्यक पैकेज आयात करेंगे, हमारे मॉडल को इनिशियलाइज़ करेंगे, और उन कक्षाओं को सेट करेंगे जिन्हें हम अपनी इनपुट इमेज में ढूंढ रहे हैं। यहां, हम निम्नलिखित वर्गों में रुचि रखते हैं: कार, पहिया, कार का दरवाजा, कार का दर्पण, और लाइसेंस प्लेट।
फिर हम भविष्यवाणी विधि का उपयोग करेंगे, छवि पर एक अनुमान चलाने के लिए अधिकतम संख्या में डिटेक्शन के लिए मापदंडों के साथ छवि का पथ प्रदान करेंगे, और यूनियन (IoU) और आत्मविश्वास (कॉन्फिग) पर चौराहे के लिए थ्रेसहोल्ड। अंत में, पता लगाए गए ऑब्जेक्ट्स को 'result.jpg' नाम की फ़ाइल में सहेजा जाता है।
निम्न आउटपुट छवि आपकी फ़ाइलों में सहेजी जाएगी।
यदि आप देखना पसंद करते हैं कि क्या YOLO-वर्ल्ड कोडिंग के बिना कर सकता है, आप जा सकते हैं YOLO-वर्ल्ड डेमो पेज, एक इनपुट इमेज अपलोड करें, और कस्टम क्लासेस दर्ज करें।
हमारे पढ़ें डॉक्स पेज पर YOLO-वर्ल्ड कस्टम कक्षाओं के साथ मॉडल को बचाने का तरीका जानने के लिए ताकि इसे बार-बार कस्टम कक्षाओं में प्रवेश किए बिना सीधे बाद में उपयोग किया जा सके।
यदि आप आउटपुट छवि पर फिर से एक नज़र डालते हैं, तो आप देखेंगे कि कस्टम क्लास "कार दरवाजा" का पता नहीं चला था। अपनी महान उपलब्धियों के बावजूद, YOLOदुनिया की कुछ सीमाएं हैं। इन सीमाओं का मुकाबला करने और उपयोग करने के लिए YOLO-विश्व मॉडल प्रभावी ढंग से, सही प्रकार के शाब्दिक संकेतों का उपयोग करना महत्वपूर्ण है।
यहाँ इसके बारे में कुछ जानकारी दी गई है:
कुल मिलाकर YOLO-वर्ल्ड मॉडल, उनकी उन्नत वस्तु का पता लगाने की क्षमताओं के साथ एक शक्तिशाली उपकरण में बनाया जा सकता है यह महान दक्षता, सटीकता प्रदान करता है, और विभिन्न अनुप्रयोगों में विभिन्न कार्यों को स्वचालित करने में मदद करता है, जैसे कार भागों की पहचान करने का उदाहरण जो हमने व्यावहारिक रूप से चर्चा की थी।
कंप्यूटर विज़न और AI में हमारे योगदान के बारे में अधिक जानने के लिए हमारे GitHub रिपॉजिटरी का बेझिझक पता लगाएं। यदि आप इस बारे में उत्सुक हैं कि एआई स्वास्थ्य सेवा प्रौद्योगिकी जैसे क्षेत्रों को कैसे नया आकार दे रहा है, तो हमारे समाधान पृष्ठ देखें। नवाचारों के साथ संभावनाएं जैसे YOLOदुनिया अंतहीन हो रहे हैं!
मशीन लर्निंग के भविष्य के साथ अपनी यात्रा शुरू करें