एआई कंपनियां सिंथेटिक डेटा की ओर रुख कर रही हैं, लेकिन इसमें एक छिपी हुई लागत है #AICompanies #SyntheticData #HiddenCost #AI
- Khabar Editor
- 20 Jan, 2025
- 84599
Email:-infokhabarforyou@gmail.com
Instagram:-@khabar_for_you
पिछले हफ्ते अरबपति और एक्स के मालिक एलन मस्क ने दावा किया था कि मानव-जनित डेटा का पूल, जिसका उपयोग चैटजीपीटी जैसे कृत्रिम बुद्धिमत्ता (एआई) मॉडल को प्रशिक्षित करने के लिए किया जाता है, खत्म हो गया है।
Read More - कोलकाता डॉक्टर के बलात्कार-हत्या के दोषी को जल्द ही सजा सुनाई जाएगी: 10 अंक
मस्क ने इसका समर्थन करने के लिए सबूत का हवाला नहीं दिया। लेकिन अन्य प्रमुख तकनीकी उद्योग के दिग्गजों ने हाल के महीनों में इसी तरह के दावे किए हैं। और पहले के शोध से संकेत मिलता है कि मानव-जनित डेटा दो से आठ वर्षों के भीतर समाप्त हो जाएगा।
इसका मुख्य कारण यह है कि मनुष्य एआई मॉडल की तीव्र और भारी मांगों को पूरा करने के लिए टेक्स्ट, वीडियो और छवियों जैसे नए डेटा को इतनी तेजी से नहीं बना सकते हैं। जब वास्तविक डेटा ख़त्म हो जाएगा, तो यह AI के डेवलपर्स और उपयोगकर्ताओं दोनों के लिए एक बड़ी समस्या पेश करेगा।
यह तकनीकी कंपनियों को एआई द्वारा उत्पन्न डेटा पर अधिक निर्भर होने के लिए मजबूर करेगा, जिसे "सिंथेटिक डेटा" के रूप में जाना जाता है। और इसके परिणामस्वरूप, वर्तमान में लाखों लोगों द्वारा उपयोग की जाने वाली एआई प्रणालियाँ कम सटीक और विश्वसनीय हो सकती हैं - और इसलिए उपयोगी भी हो सकती हैं।
लेकिन यह कोई अपरिहार्य परिणाम नहीं है. वास्तव में, यदि सावधानीपूर्वक उपयोग और प्रबंधन किया जाए, तो सिंथेटिक डेटा एआई मॉडल में सुधार कर सकता है।
टेक कंपनियां चैटजीपीटी जैसे जेनेरिक एआई मॉडल बनाने, प्रशिक्षित करने और परिष्कृत करने के लिए डेटा - वास्तविक या सिंथेटिक - पर निर्भर करती हैं। इस डेटा की गुणवत्ता महत्वपूर्ण है. खराब डेटा से खराब आउटपुट मिलता है, उसी तरह खाना पकाने में कम गुणवत्ता वाली सामग्री का उपयोग करने से कम गुणवत्ता वाले भोजन का उत्पादन हो सकता है।
वास्तविक डेटा का तात्पर्य मनुष्यों द्वारा बनाए गए टेक्स्ट, वीडियो और छवियों से है। कंपनियां इसे सर्वेक्षण, प्रयोग, अवलोकन या वेबसाइटों और सोशल मीडिया के खनन जैसे तरीकों से एकत्र करती हैं।
वास्तविक डेटा को आम तौर पर मूल्यवान माना जाता है क्योंकि इसमें सच्ची घटनाएं शामिल होती हैं और परिदृश्यों और संदर्भों की एक विस्तृत श्रृंखला शामिल होती है। हालाँकि, यह पूर्ण नहीं है.
उदाहरण के लिए, इसमें वर्तनी की त्रुटियाँ और असंगत या अप्रासंगिक सामग्री हो सकती है। यह अत्यधिक पक्षपाती भी हो सकता है, उदाहरण के लिए, जेनरेटिव एआई मॉडल ऐसी छवियां बना सकता है जो कुछ नौकरियों में केवल पुरुषों या श्वेत लोगों को दिखाती हैं।
इस प्रकार के डेटा को तैयार करने में भी बहुत समय और प्रयास की आवश्यकता होती है। सबसे पहले, लोग डेटासेट एकत्र करते हैं, उन्हें एआई मॉडल के लिए सार्थक बनाने के लिए लेबल करने से पहले। कंप्यूटर द्वारा फ़िल्टर करने, व्यवस्थित करने और सत्यापित करने से पहले, वे किसी भी विसंगति को हल करने के लिए इस डेटा की समीक्षा करेंगे और साफ़ करेंगे।
इस प्रक्रिया में एआई प्रणाली के विकास में कुल समय निवेश का 80% तक लग सकता है।
लेकिन जैसा कि ऊपर कहा गया है, वास्तविक डेटा की आपूर्ति भी लगातार कम होती जा रही है क्योंकि मनुष्य बढ़ती एआई मांग को पूरा करने के लिए इसे जल्दी से उत्पादित नहीं कर सकता है।
सिंथेटिक डेटा का उदय
सिंथेटिक डेटा कृत्रिम रूप से एल्गोरिदम द्वारा बनाया या उत्पन्न किया जाता है, जैसे चैटजीपीटी द्वारा उत्पन्न पाठ या DALL-E द्वारा उत्पन्न छवि।
सिद्धांत रूप में, सिंथेटिक डेटा एआई मॉडल के प्रशिक्षण के लिए एक लागत प्रभावी और तेज़ समाधान प्रदान करता है।
यह गोपनीयता संबंधी चिंताओं और नैतिक मुद्दों को भी संबोधित करता है, विशेष रूप से स्वास्थ्य डेटा जैसी संवेदनशील व्यक्तिगत जानकारी के साथ।
महत्वपूर्ण बात यह है कि वास्तविक डेटा के विपरीत इसकी आपूर्ति कम नहीं है। वास्तव में, यह असीमित है.
सिंथेटिक डेटा की चुनौतियाँ
इन कारणों से, तकनीकी कंपनियां अपने एआई सिस्टम को प्रशिक्षित करने के लिए सिंथेटिक डेटा की ओर तेजी से रुख कर रही हैं। रिसर्च फर्म गार्टनर का अनुमान है कि 2030 तक सिंथेटिक डेटा एआई में उपयोग किए जाने वाले डेटा का मुख्य रूप बन जाएगा।
लेकिन यद्यपि सिंथेटिक डेटा आशाजनक समाधान प्रदान करता है, लेकिन यह अपनी चुनौतियों से रहित नहीं है।
प्राथमिक चिंता यह है कि कृत्रिम डेटा पर बहुत अधिक भरोसा करने पर एआई मॉडल "ढह" सकते हैं। इसका मतलब यह है कि वे इतने सारे "मतिभ्रम" उत्पन्न करना शुरू कर देते हैं - एक प्रतिक्रिया जिसमें गलत जानकारी होती है - और गुणवत्ता और प्रदर्शन में इतनी गिरावट आती है कि वे अनुपयोगी हो जाते हैं।
उदाहरण के लिए, एआई मॉडल पहले से ही कुछ शब्दों की सही वर्तनी के साथ संघर्ष कर रहे हैं। यदि इस त्रुटिपूर्ण डेटा का उपयोग अन्य मॉडलों को प्रशिक्षित करने के लिए किया जाता है, तो वे भी त्रुटियों को दोहराने के लिए बाध्य हैं।
सिंथेटिक डेटा में अत्यधिक सरलीकृत होने का जोखिम भी होता है। यह वास्तविक डेटासेट में पाए जाने वाले सूक्ष्म विवरण और विविधता से रहित हो सकता है, जिसके परिणामस्वरूप इस पर प्रशिक्षित एआई मॉडल का आउटपुट भी अत्यधिक सरल और कम उपयोगी हो सकता है।
0एआई को सटीक और भरोसेमंद बनाए रखने के लिए मजबूत सिस्टम बनाना
इन मुद्दों को संबोधित करने के लिए, यह आवश्यक है कि अंतर्राष्ट्रीय निकाय और संगठन जैसे अंतर्राष्ट्रीय मानकीकरण संगठन या संयुक्त राष्ट्र का अंतर्राष्ट्रीय दूरसंचार संघ एआई प्रशिक्षण डेटा को ट्रैक करने और मान्य करने के लिए मजबूत सिस्टम पेश करें, और सुनिश्चित करें कि सिस्टम को विश्व स्तर पर लागू किया जा सके।
एआई सिस्टम को मेटाडेटा को ट्रैक करने के लिए सुसज्जित किया जा सकता है, जिससे उपयोगकर्ताओं या सिस्टम को किसी भी सिंथेटिक डेटा की उत्पत्ति और गुणवत्ता का पता लगाने की अनुमति मिलती है जिस पर इसे प्रशिक्षित किया गया है। यह विश्व स्तर पर मानक ट्रैकिंग और सत्यापन प्रणाली का पूरक होगा।
मनुष्यों को एआई मॉडल की प्रशिक्षण प्रक्रिया के दौरान सिंथेटिक डेटा की निगरानी भी बनाए रखनी चाहिए ताकि यह सुनिश्चित हो सके कि यह उच्च गुणवत्ता वाला है। इस निरीक्षण में उद्देश्यों को परिभाषित करना, डेटा गुणवत्ता को मान्य करना, नैतिक मानकों का अनुपालन सुनिश्चित करना और एआई मॉडल प्रदर्शन की निगरानी करना शामिल होना चाहिए।
कुछ हद तक विडंबना यह है कि एआई एल्गोरिदम डेटा के ऑडिट और सत्यापन में भी भूमिका निभा सकता है, जिससे अन्य मॉडलों से एआई-जनित आउटपुट की सटीकता सुनिश्चित हो सके। उदाहरण के लिए, ये एल्गोरिदम किसी भी त्रुटि या विसंगति की पहचान करने के लिए वास्तविक डेटा के विरुद्ध सिंथेटिक डेटा की तुलना कर सकते हैं ताकि यह सुनिश्चित हो सके कि डेटा सुसंगत और सटीक है। तो इस तरह, सिंथेटिक डेटा बेहतर एआई मॉडल को जन्म दे सकता है।
एआई का भविष्य उच्च गुणवत्ता वाले डेटा पर निर्भर करता है। डेटा की कमी को दूर करने में सिंथेटिक डेटा तेजी से महत्वपूर्ण भूमिका निभाएगा।
हालाँकि, पारदर्शिता बनाए रखने, त्रुटियों को कम करने और गोपनीयता बनाए रखने के लिए इसके उपयोग को सावधानीपूर्वक प्रबंधित किया जाना चाहिए - यह सुनिश्चित करना कि सिंथेटिक डेटा वास्तविक डेटा के विश्वसनीय पूरक के रूप में कार्य करता है, एआई सिस्टम को सटीक और भरोसेमंद रखता है। वार्तालाप
| Business, Sports, Lifestyle ,Politics ,Entertainment ,Technology ,National ,World ,Travel ,Editorial and Article में सबसे बड़ी समाचार कहानियों के शीर्ष पर बने रहने के लिए, हमारे subscriber-to-our-newsletter khabarforyou.com पर बॉटम लाइन पर साइन अप करें। |
| यदि आपके या आपके किसी जानने वाले के पास प्रकाशित करने के लिए कोई समाचार है, तो इस हेल्पलाइन पर कॉल करें या व्हाट्सअप करें: 8502024040 |
#KFY #KFYNEWS #KHABARFORYOU #WORLDNEWS
नवीनतम PODCAST सुनें, केवल The FM Yours पर
Click for more trending Khabar
Leave a Reply
Your email address will not be published. Required fields are marked *