KFY NEWS

Breaking News

1. Delhi Biker Dies in Open DJB Pit: Civic Negligence & Pune IT Deaths | Khabar For You |

2. India Rejects Trump’s Russian Oil Halt Claim: Energy Security Over Trade Deals | Khabar For You |

एआई कंपनियां सिंथेटिक डेटा की ओर रुख कर रही हैं, लेकिन इसमें एक छिपी हुई लागत है #AICompanies #SyntheticData #HiddenCost #AI

Khabar Editor
20 Jan, 2025
85040

Name:-Khabar Editor
Email:-infokhabarforyou@gmail.com
Instagram:-@khabar_for_you

पिछले हफ्ते अरबपति और एक्स के मालिक एलन मस्क ने दावा किया था कि मानव-जनित डेटा का पूल, जिसका उपयोग चैटजीपीटी जैसे कृत्रिम बुद्धिमत्ता (एआई) मॉडल को प्रशिक्षित करने के लिए किया जाता है, खत्म हो गया है।Read More -&nbsp;कोलकाता डॉक्टर के बलात्कार-हत्या के दोषी को जल्द ही सजा सुनाई&nbsp;जाएगी:&nbsp;10&nbsp;अंकमस्क ने इसका समर्थन करने के लिए सबूत का हवाला नहीं दिया। लेकिन अन्य प्रमुख तकनीकी उद्योग के दिग्गजों ने हाल के महीनों में इसी तरह के दावे किए हैं। और पहले के शोध से संकेत मिलता है कि मानव-जनित डेटा दो से आठ वर्षों के भीतर समाप्त हो जाएगा।इसका मुख्य कारण यह है कि मनुष्य एआई मॉडल की तीव्र और भारी मांगों को पूरा करने के लिए टेक्स्ट, वीडियो और छवियों जैसे नए डेटा को इतनी तेजी से नहीं बना सकते हैं। जब वास्तविक डेटा ख़त्म हो जाएगा, तो यह AI के डेवलपर्स और उपयोगकर्ताओं दोनों के लिए एक बड़ी समस्या पेश करेगा।यह तकनीकी कंपनियों को एआई द्वारा उत्पन्न डेटा पर अधिक निर्भर होने के लिए मजबूर करेगा, जिसे "सिंथेटिक डेटा" के रूप में जाना जाता है। और इसके परिणामस्वरूप, वर्तमान में लाखों लोगों द्वारा उपयोग की जाने वाली एआई प्रणालियाँ कम सटीक और विश्वसनीय हो सकती हैं - और इसलिए उपयोगी भी हो सकती हैं।लेकिन यह कोई अपरिहार्य परिणाम नहीं है. वास्तव में, यदि सावधानीपूर्वक उपयोग और प्रबंधन किया जाए, तो सिंथेटिक डेटा एआई मॉडल में सुधार कर सकता है।टेक कंपनियां चैटजीपीटी जैसे जेनेरिक एआई मॉडल बनाने, प्रशिक्षित करने और परिष्कृत करने के लिए डेटा - वास्तविक या सिंथेटिक - पर निर्भर करती हैं। इस डेटा की गुणवत्ता महत्वपूर्ण है. खराब डेटा से खराब आउटपुट मिलता है, उसी तरह खाना पकाने में कम गुणवत्ता वाली सामग्री का उपयोग करने से कम गुणवत्ता वाले भोजन का उत्पादन हो सकता है।वास्तविक डेटा का तात्पर्य मनुष्यों द्वारा बनाए गए टेक्स्ट, वीडियो और छवियों से है। कंपनियां इसे सर्वेक्षण, प्रयोग, अवलोकन या वेबसाइटों और सोशल मीडिया के खनन जैसे तरीकों से एकत्र करती हैं।वास्तविक डेटा को आम तौर पर मूल्यवान माना जाता है क्योंकि इसमें सच्ची घटनाएं शामिल होती हैं और परिदृश्यों और संदर्भों की एक विस्तृत श्रृंखला शामिल होती है। हालाँकि, यह पूर्ण नहीं है.उदाहरण के लिए, इसमें वर्तनी की त्रुटियाँ और असंगत या अप्रासंगिक सामग्री हो सकती है। यह अत्यधिक पक्षपाती भी हो सकता है, उदाहरण के लिए, जेनरेटिव एआई मॉडल ऐसी छवियां बना सकता है जो कुछ नौकरियों में केवल पुरुषों या श्वेत लोगों को दिखाती हैं।इस प्रकार के डेटा को तैयार करने में भी बहुत समय और प्रयास की आवश्यकता होती है। सबसे पहले, लोग डेटासेट एकत्र करते हैं, उन्हें एआई मॉडल के लिए सार्थक बनाने के लिए लेबल करने से पहले। कंप्यूटर द्वारा फ़िल्टर करने, व्यवस्थित करने और सत्यापित करने से पहले, वे किसी भी विसंगति को हल करने के लिए इस डेटा की समीक्षा करेंगे और साफ़ करेंगे।इस प्रक्रिया में एआई प्रणाली के विकास में कुल समय निवेश का 80% तक लग सकता है।लेकिन जैसा कि ऊपर कहा गया है, वास्तविक डेटा की आपूर्ति भी लगातार कम होती जा रही है क्योंकि मनुष्य बढ़ती एआई मांग को पूरा करने के लिए इसे जल्दी से उत्पादित नहीं कर सकता है।सिंथेटिक डेटा का उदयसिंथेटिक डेटा कृत्रिम रूप से एल्गोरिदम द्वारा बनाया या उत्पन्न किया जाता है, जैसे चैटजीपीटी द्वारा उत्पन्न पाठ या DALL-E द्वारा उत्पन्न छवि।सिद्धांत रूप में, सिंथेटिक डेटा एआई मॉडल के प्रशिक्षण के लिए एक लागत प्रभावी और तेज़ समाधान प्रदान करता है।यह गोपनीयता संबंधी चिंताओं और नैतिक मुद्दों को भी संबोधित करता है, विशेष रूप से स्वास्थ्य डेटा जैसी संवेदनशील व्यक्तिगत जानकारी के साथ।महत्वपूर्ण बात यह है कि वास्तविक डेटा के विपरीत इसकी आपूर्ति कम नहीं है। वास्तव में, यह असीमित है.सिंथेटिक डेटा की चुनौतियाँइन कारणों से, तकनीकी कंपनियां अपने एआई सिस्टम को प्रशिक्षित करने के लिए सिंथेटिक डेटा की ओर तेजी से रुख कर रही हैं। रिसर्च फर्म गार्टनर का अनुमान है कि 2030 तक सिंथेटिक डेटा एआई में उपयोग किए जाने वाले डेटा का मुख्य रूप बन जाएगा।लेकिन यद्यपि सिंथेटिक डेटा आशाजनक समाधान प्रदान करता है, लेकिन यह अपनी चुनौतियों से रहित नहीं है।प्राथमिक चिंता यह है कि कृत्रिम डेटा पर बहुत अधिक भरोसा करने पर एआई मॉडल "ढह" सकते हैं। इसका मतलब यह है कि वे इतने सारे "मतिभ्रम" उत्पन्न करना शुरू कर देते हैं - एक प्रतिक्रिया जिसमें गलत जानकारी होती है - और गुणवत्ता और प्रदर्शन में इतनी गिरावट आती है कि वे अनुपयोगी हो जाते हैं।उदाहरण के लिए, एआई मॉडल पहले से ही कुछ शब्दों की सही वर्तनी के साथ संघर्ष कर रहे हैं। यदि इस त्रुटिपूर्ण डेटा का उपयोग अन्य मॉडलों को प्रशिक्षित करने के लिए किया जाता है, तो वे भी त्रुटियों को दोहराने के लिए बाध्य हैं।सिंथेटिक डेटा में अत्यधिक सरलीकृत होने का जोखिम भी होता है। यह वास्तविक डेटासेट में पाए जाने वाले सूक्ष्म विवरण और विविधता से रहित हो सकता है, जिसके परिणामस्वरूप इस पर प्रशिक्षित एआई मॉडल का आउटपुट भी अत्यधिक सरल और कम उपयोगी हो सकता है।0एआई को सटीक और भरोसेमंद बनाए रखने के लिए मजबूत सिस्टम बनानाइन मुद्दों को संबोधित करने के लिए, यह आवश्यक है कि अंतर्राष्ट्रीय निकाय और संगठन जैसे अंतर्राष्ट्रीय मानकीकरण संगठन या संयुक्त राष्ट्र का अंतर्राष्ट्रीय दूरसंचार संघ एआई प्रशिक्षण डेटा को ट्रैक करने और मान्य करने के लिए मजबूत सिस्टम पेश करें, और सुनिश्चित करें कि सिस्टम को विश्व स्तर पर लागू किया जा सके।एआई सिस्टम को मेटाडेटा को ट्रैक करने के लिए सुसज्जित किया जा सकता है, जिससे उपयोगकर्ताओं या सिस्टम को किसी भी सिंथेटिक डेटा की उत्पत्ति और गुणवत्ता का पता लगाने की अनुमति मिलती है जिस पर इसे प्रशिक्षित किया गया है। यह विश्व स्तर पर मानक ट्रैकिंग और सत्यापन प्रणाली का पूरक होगा।मनुष्यों को एआई मॉडल की प्रशिक्षण प्रक्रिया के दौरान सिंथेटिक डेटा की निगरानी भी बनाए रखनी चाहिए ताकि यह सुनिश्चित हो सके कि यह उच्च गुणवत्ता वाला है। इस निरीक्षण में उद्देश्यों को परिभाषित करना, डेटा गुणवत्ता को मान्य करना, नैतिक मानकों का अनुपालन सुनिश्चित करना और एआई मॉडल प्रदर्शन की निगरानी करना शामिल होना चाहिए।कुछ हद तक विडंबना यह है कि एआई एल्गोरिदम डेटा के ऑडिट और सत्यापन में भी भूमिका निभा सकता है, जिससे अन्य मॉडलों से एआई-जनित आउटपुट की सटीकता सुनिश्चित हो सके। उदाहरण के लिए, ये एल्गोरिदम किसी भी त्रुटि या विसंगति की पहचान करने के लिए वास्तविक डेटा के विरुद्ध सिंथेटिक डेटा की तुलना कर सकते हैं ताकि यह सुनिश्चित हो सके कि डेटा सुसंगत और सटीक है। तो इस तरह, सिंथेटिक डेटा बेहतर एआई मॉडल को जन्म दे सकता है।एआई का भविष्य उच्च गुणवत्ता वाले डेटा पर निर्भर करता है। डेटा की कमी को दूर करने में सिंथेटिक डेटा तेजी से महत्वपूर्ण भूमिका निभाएगा।हालाँकि, पारदर्शिता बनाए रखने, त्रुटियों को कम करने और गोपनीयता बनाए रखने के लिए इसके उपयोग को सावधानीपूर्वक प्रबंधित किया जाना चाहिए - यह सुनिश्चित करना कि सिंथेटिक डेटा वास्तविक डेटा के विश्वसनीय पूरक के रूप में कार्य करता है, एआई सिस्टम को सटीक और भरोसेमंद रखता है। वार्तालाप| Business, Sports, Lifestyle ,Politics ,Entertainment ,Technology ,National ,World ,Travel ,Editorial and Article&nbsp;में सबसे बड़ी समाचार कहानियों के शीर्ष पर बने रहने के लिए, हमारे&nbsp;subscriber-to-our-newsletter&nbsp;khabarforyou.com&nbsp;पर बॉटम लाइन पर साइन अप करें। |&nbsp;| यदि आपके या आपके किसी जानने वाले के पास प्रकाशित करने के लिए कोई समाचार है, तो इस हेल्पलाइन पर कॉल करें या व्हाट्सअप करें:&nbsp;8502024040&nbsp;|&nbsp;#KFY #KFYNEWS&nbsp;#KHABARFORYOU&nbsp;#WORLDNEWS&nbsp;नवीनतम&nbsp; PODCAST सुनें, केवल&nbsp;The FM Yours&nbsp;पर&nbsp;Click for more trending&nbsp;Khabar

मस्क ने इसका समर्थन करने के लिए सबूत का हवाला नहीं दिया। लेकिन अन्य प्रमुख तकनीकी उद्योग के दिग्गजों ने हाल के महीनों में इसी तरह के दावे किए हैं। और पहले के शोध से संकेत मिलता है कि मानव-जनित डेटा दो से आठ वर्षों के भीतर समाप्त हो जाएगा।

इसका मुख्य कारण यह है कि मनुष्य एआई मॉडल की तीव्र और भारी मांगों को पूरा करने के लिए टेक्स्ट, वीडियो और छवियों जैसे नए डेटा को इतनी तेजी से नहीं बना सकते हैं। जब वास्तविक डेटा ख़त्म हो जाएगा, तो यह AI के डेवलपर्स और उपयोगकर्ताओं दोनों के लिए एक बड़ी समस्या पेश करेगा।

यह तकनीकी कंपनियों को एआई द्वारा उत्पन्न डेटा पर अधिक निर्भर होने के लिए मजबूर करेगा, जिसे "सिंथेटिक डेटा" के रूप में जाना जाता है। और इसके परिणामस्वरूप, वर्तमान में लाखों लोगों द्वारा उपयोग की जाने वाली एआई प्रणालियाँ कम सटीक और विश्वसनीय हो सकती हैं - और इसलिए उपयोगी भी हो सकती हैं।

लेकिन यह कोई अपरिहार्य परिणाम नहीं है. वास्तव में, यदि सावधानीपूर्वक उपयोग और प्रबंधन किया जाए, तो सिंथेटिक डेटा एआई मॉडल में सुधार कर सकता है।

टेक कंपनियां चैटजीपीटी जैसे जेनेरिक एआई मॉडल बनाने, प्रशिक्षित करने और परिष्कृत करने के लिए डेटा - वास्तविक या सिंथेटिक - पर निर्भर करती हैं। इस डेटा की गुणवत्ता महत्वपूर्ण है. खराब डेटा से खराब आउटपुट मिलता है, उसी तरह खाना पकाने में कम गुणवत्ता वाली सामग्री का उपयोग करने से कम गुणवत्ता वाले भोजन का उत्पादन हो सकता है।

वास्तविक डेटा का तात्पर्य मनुष्यों द्वारा बनाए गए टेक्स्ट, वीडियो और छवियों से है। कंपनियां इसे सर्वेक्षण, प्रयोग, अवलोकन या वेबसाइटों और सोशल मीडिया के खनन जैसे तरीकों से एकत्र करती हैं।

वास्तविक डेटा को आम तौर पर मूल्यवान माना जाता है क्योंकि इसमें सच्ची घटनाएं शामिल होती हैं और परिदृश्यों और संदर्भों की एक विस्तृत श्रृंखला शामिल होती है। हालाँकि, यह पूर्ण नहीं है.

उदाहरण के लिए, इसमें वर्तनी की त्रुटियाँ और असंगत या अप्रासंगिक सामग्री हो सकती है। यह अत्यधिक पक्षपाती भी हो सकता है, उदाहरण के लिए, जेनरेटिव एआई मॉडल ऐसी छवियां बना सकता है जो कुछ नौकरियों में केवल पुरुषों या श्वेत लोगों को दिखाती हैं।

इस प्रकार के डेटा को तैयार करने में भी बहुत समय और प्रयास की आवश्यकता होती है। सबसे पहले, लोग डेटासेट एकत्र करते हैं, उन्हें एआई मॉडल के लिए सार्थक बनाने के लिए लेबल करने से पहले। कंप्यूटर द्वारा फ़िल्टर करने, व्यवस्थित करने और सत्यापित करने से पहले, वे किसी भी विसंगति को हल करने के लिए इस डेटा की समीक्षा करेंगे और साफ़ करेंगे।

इस प्रक्रिया में एआई प्रणाली के विकास में कुल समय निवेश का 80% तक लग सकता है।

लेकिन जैसा कि ऊपर कहा गया है, वास्तविक डेटा की आपूर्ति भी लगातार कम होती जा रही है क्योंकि मनुष्य बढ़ती एआई मांग को पूरा करने के लिए इसे जल्दी से उत्पादित नहीं कर सकता है।

सिंथेटिक डेटा का उदय

सिंथेटिक डेटा कृत्रिम रूप से एल्गोरिदम द्वारा बनाया या उत्पन्न किया जाता है, जैसे चैटजीपीटी द्वारा उत्पन्न पाठ या DALL-E द्वारा उत्पन्न छवि।

सिद्धांत रूप में, सिंथेटिक डेटा एआई मॉडल के प्रशिक्षण के लिए एक लागत प्रभावी और तेज़ समाधान प्रदान करता है।

यह गोपनीयता संबंधी चिंताओं और नैतिक मुद्दों को भी संबोधित करता है, विशेष रूप से स्वास्थ्य डेटा जैसी संवेदनशील व्यक्तिगत जानकारी के साथ।

महत्वपूर्ण बात यह है कि वास्तविक डेटा के विपरीत इसकी आपूर्ति कम नहीं है। वास्तव में, यह असीमित है.

सिंथेटिक डेटा की चुनौतियाँ

इन कारणों से, तकनीकी कंपनियां अपने एआई सिस्टम को प्रशिक्षित करने के लिए सिंथेटिक डेटा की ओर तेजी से रुख कर रही हैं। रिसर्च फर्म गार्टनर का अनुमान है कि 2030 तक सिंथेटिक डेटा एआई में उपयोग किए जाने वाले डेटा का मुख्य रूप बन जाएगा।

लेकिन यद्यपि सिंथेटिक डेटा आशाजनक समाधान प्रदान करता है, लेकिन यह अपनी चुनौतियों से रहित नहीं है।

प्राथमिक चिंता यह है कि कृत्रिम डेटा पर बहुत अधिक भरोसा करने पर एआई मॉडल "ढह" सकते हैं। इसका मतलब यह है कि वे इतने सारे "मतिभ्रम" उत्पन्न करना शुरू कर देते हैं - एक प्रतिक्रिया जिसमें गलत जानकारी होती है - और गुणवत्ता और प्रदर्शन में इतनी गिरावट आती है कि वे अनुपयोगी हो जाते हैं।

उदाहरण के लिए, एआई मॉडल पहले से ही कुछ शब्दों की सही वर्तनी के साथ संघर्ष कर रहे हैं। यदि इस त्रुटिपूर्ण डेटा का उपयोग अन्य मॉडलों को प्रशिक्षित करने के लिए किया जाता है, तो वे भी त्रुटियों को दोहराने के लिए बाध्य हैं।

सिंथेटिक डेटा में अत्यधिक सरलीकृत होने का जोखिम भी होता है। यह वास्तविक डेटासेट में पाए जाने वाले सूक्ष्म विवरण और विविधता से रहित हो सकता है, जिसके परिणामस्वरूप इस पर प्रशिक्षित एआई मॉडल का आउटपुट भी अत्यधिक सरल और कम उपयोगी हो सकता है।

0एआई को सटीक और भरोसेमंद बनाए रखने के लिए मजबूत सिस्टम बनाना

इन मुद्दों को संबोधित करने के लिए, यह आवश्यक है कि अंतर्राष्ट्रीय निकाय और संगठन जैसे अंतर्राष्ट्रीय मानकीकरण संगठन या संयुक्त राष्ट्र का अंतर्राष्ट्रीय दूरसंचार संघ एआई प्रशिक्षण डेटा को ट्रैक करने और मान्य करने के लिए मजबूत सिस्टम पेश करें, और सुनिश्चित करें कि सिस्टम को विश्व स्तर पर लागू किया जा सके।

एआई सिस्टम को मेटाडेटा को ट्रैक करने के लिए सुसज्जित किया जा सकता है, जिससे उपयोगकर्ताओं या सिस्टम को किसी भी सिंथेटिक डेटा की उत्पत्ति और गुणवत्ता का पता लगाने की अनुमति मिलती है जिस पर इसे प्रशिक्षित किया गया है। यह विश्व स्तर पर मानक ट्रैकिंग और सत्यापन प्रणाली का पूरक होगा।

मनुष्यों को एआई मॉडल की प्रशिक्षण प्रक्रिया के दौरान सिंथेटिक डेटा की निगरानी भी बनाए रखनी चाहिए ताकि यह सुनिश्चित हो सके कि यह उच्च गुणवत्ता वाला है। इस निरीक्षण में उद्देश्यों को परिभाषित करना, डेटा गुणवत्ता को मान्य करना, नैतिक मानकों का अनुपालन सुनिश्चित करना और एआई मॉडल प्रदर्शन की निगरानी करना शामिल होना चाहिए।

कुछ हद तक विडंबना यह है कि एआई एल्गोरिदम डेटा के ऑडिट और सत्यापन में भी भूमिका निभा सकता है, जिससे अन्य मॉडलों से एआई-जनित आउटपुट की सटीकता सुनिश्चित हो सके। उदाहरण के लिए, ये एल्गोरिदम किसी भी त्रुटि या विसंगति की पहचान करने के लिए वास्तविक डेटा के विरुद्ध सिंथेटिक डेटा की तुलना कर सकते हैं ताकि यह सुनिश्चित हो सके कि डेटा सुसंगत और सटीक है। तो इस तरह, सिंथेटिक डेटा बेहतर एआई मॉडल को जन्म दे सकता है।

एआई का भविष्य उच्च गुणवत्ता वाले डेटा पर निर्भर करता है। डेटा की कमी को दूर करने में सिंथेटिक डेटा तेजी से महत्वपूर्ण भूमिका निभाएगा।

हालाँकि, पारदर्शिता बनाए रखने, त्रुटियों को कम करने और गोपनीयता बनाए रखने के लिए इसके उपयोग को सावधानीपूर्वक प्रबंधित किया जाना चाहिए - यह सुनिश्चित करना कि सिंथेटिक डेटा वास्तविक डेटा के विश्वसनीय पूरक के रूप में कार्य करता है, एआई सिस्टम को सटीक और भरोसेमंद रखता है। वार्तालाप

| Business, Sports, Lifestyle ,Politics ,Entertainment ,Technology ,National ,World ,Travel ,Editorial and Article में सबसे बड़ी समाचार कहानियों के शीर्ष पर बने रहने के लिए, हमारे subscriber-to-our-newsletter khabarforyou.com पर बॉटम लाइन पर साइन अप करें। |