प्रशिक्षण डेटा – जब मैंने अपने मोबाइल प्लान को रिचार्ज करने के लिए सप्ताहांत में अपने स्मार्टफोन पर एयरटेल ऐप खोला, तो मैं अपने प्लान के साथ 17,000 रुपये की पर्प्लेक्सिटी प्रो एआई सदस्यता को देखकर आश्चर्यचकित रह गया। मैंने दोबारा जांच की कि क्या मैंने गलती से पर्प्लेक्सिटी एआई की सदस्यता ले ली है। इससे पहले कि मैं किसी अन्य सेवा की सदस्यता लेने से घबराता, मुझे एहसास हुआ कि मेरे प्लान के साथ पर्प्लेक्सिटी एआई सदस्यता मुफ्त थी, और यह ऑफर जुलाई 2026 तक वैध है।

लेकिन पर्प्लेक्सिटी एकमात्र ऐसी कंपनी नहीं है जो भारत में लाखों लोगों को मुफ्त में अपना एआई सब्सक्रिप्शन प्लान पेश कर रही है। एक अन्य टेलीकॉम ऑपरेटर, रिलायंस जियो ने चुनिंदा उपयोगकर्ताओं को 18 महीने के लिए मुफ्त Google AI प्रो सदस्यता प्रदान करने के लिए Google के साथ सक्रिय साझेदारी की है। इस बीच, ओपनएआई देश में एक साल के लिए 399 रुपये प्रति माह की वार्षिक ‘कम लागत वाली’ चैटजीपीटी गो सदस्यता मुफ्त दे रहा है।

ऐसा नहीं है कि एआई कंपनियां अपने उत्पाद खरीदने वाले उपयोगकर्ताओं को मुफ्त सेवाएं देने के खिलाफ हैं। उदाहरण के लिए, Apple, iPhone और iPad जैसे नए उत्पादों के साथ तीन महीने के लिए Apple TV तक मुफ्त पहुंच प्रदान करने के लिए जाना जाता है। यहां तक ​​कि मेरा नया Pixel 10 Pro फोल्ड और 10 Pro XL एक मुफ्त Google AI प्रो प्लान के साथ आता है, जिसमें एक साल के लिए प्रीमियम AI फीचर्स और 2TB स्टोरेज शामिल है।

दोनों ही मामलों में, आप उनके हार्डवेयर उत्पादों के लिए प्रीमियम का भुगतान करते हैं, और ये तकनीकी कंपनियां कभी-कभी लोकप्रियता बढ़ाने और उपयोगकर्ताओं को उनके पारिस्थितिकी तंत्र में लॉक करने के लिए नई सेवाओं तक पहुंच प्रदान करती हैं। हालाँकि, Google, OpenAI और Perplexity भारत में लाखों उपयोगकर्ताओं को प्रीमियम AI सेवाओं तक दीर्घकालिक, मुफ्त पहुँच प्रदान कर रहे हैं।

इससे आश्चर्य होता है कि ये तकनीकी कंपनियां ऐसे समय में इतनी उदार क्यों हैं जब कृत्रिम बुद्धिमत्ता एक महंगा खेल का मैदान है, और बुनियादी ढांचे में निवेश और एआई मॉडल के प्रशिक्षण की लागत अरबों डॉलर में है। खैर, हो सकता है कि ये टेक कंपनियां लाखों भारतीयों को मुफ्त में प्रीमियम एआई उपकरण प्रदान करने के लिए कोई मीठा इशारा नहीं कर रही हों, बल्कि एक सुविचारित मकसद दिखा रही हों, जो कि दीर्घकालिक पुरस्कारों को देखते हुए हो। इस विज्ञापन के नीचे कहानी जारी है, लाखों स्मार्टफोन और इंटरनेट उपयोगकर्ताओं का घर भारत प्रति उपयोगकर्ता मोबाइल डेटा का दुनिया का शीर्ष उपभोक्ता है, और इसके इंटरनेट उपयोगकर्ताओं की संख्या 900 मिलियन से अधिक होने वाली है, जिससे बाजार में भारी संभावनाएं पैदा हो रही हैं।

यह उछाल काफी हद तक कम लागत वाले इंटरनेट की उपलब्धता, ग्रामीण क्षेत्रों में भी स्मार्टफोन की पहुंच, 18 से 35 वर्ष की आयु के डिजिटल रूप से समझदार युवाओं और डिजिटल बुनियादी ढांचे और डिजिटल भुगतान जैसी सेवाओं की वृद्धि के कारण है। यही कारण है कि कई कंपनियां भारत के तेजी से बढ़ते इंटरनेट पारिस्थितिकी तंत्र में पैसा लगा रही हैं, एक ऐसा पुरस्कार जिसे कई निवेशक नजरअंदाज करना बहुत बड़ा मानते हैं। भारत के एआई बूम के लिए मंच तैयार करने में एयरटेल और जियो जैसे दूरसंचार ऑपरेटरों की भूमिका भी समान रूप से महत्वपूर्ण है।

साथ में, एयरटेल और जियो के पास एक विशाल उपयोगकर्ता आधार है, और वे तैनाती से लेकर मांग रूपांतरण तक प्रभावी निष्पादन सुनिश्चित करने में निर्णायक भूमिका निभाते हैं, अंततः किसी भी नई सेवा के लिए उपयोगकर्ता को अपनाने में वृद्धि करते हैं। ….

लेकिन AI प्रशिक्षण डेटा कहाँ से आता है? इसमें कोई आश्चर्य की बात नहीं है कि Google और OpenAI जैसी कंपनियों को भारत में अपने सबसे अत्याधुनिक, उन्नत एल्गोरिदम और मॉडल को प्रशिक्षित करने का अवसर मिलता है। बात यह है कि जीपीटी से लेकर जेमिनी तक हर एआई मॉडल को बड़ी मात्रा में मानव-लेबल डेटा की आवश्यकता होती है, और भारत जैसा देश प्रशिक्षण डेटा की रीढ़ बनने के लिए एकदम सही हो सकता है।

लेकिन बड़ा सवाल यह है कि एआई प्रशिक्षण डेटा कहां से आता है? बड़े जेनेरिक एआई मॉडल बनाने के लिए, तकनीकी कंपनियां अक्सर सार्वजनिक-सामना करने वाले इंटरनेट की ओर रुख करती हैं, लेकिन संपूर्ण वेब को डाउनलोड करने के लिए कोई एक जगह नहीं है। इसके बजाय, तकनीकी कंपनियां स्वचालित उपकरणों का उपयोग करके अपने प्रशिक्षण सेट का चयन करती हैं जो इंटरनेट से डेटा को सूचीबद्ध और निकालते हैं।

आख़िरकार, उच्च गुणवत्ता वाला डेटा, मुख्य रूप से वेब से निकाला गया, एआई मॉडल के प्रदर्शन के लिए महत्वपूर्ण है। इस विज्ञापन के नीचे कहानी जारी है। इन उपकरणों में वेब “क्रॉलर,” उपनाम “स्पाइडर” शामिल हैं, जो स्वचालित प्रोग्राम हैं जो वर्ल्ड वाइड वेब को उसके पृष्ठों को अनुक्रमित करने के लिए व्यवस्थित रूप से ब्राउज़ करते हैं। उदाहरण के लिए, गूगल की मूल कंपनी अल्फाबेट ने पहले से ही अपने खोज इंजन को शक्ति देने के लिए वेब क्रॉलर का निर्माण किया है और डेटा एकत्र करने और अपने एआई मॉडल को प्रशिक्षित करने के लिए अपने स्वयं के टूल का उपयोग कर सकती है।

हालाँकि, अन्य कंपनियाँ कॉमन क्रॉल जैसे संसाधनों पर भरोसा करती हैं, जो प्रशिक्षण डेटा का एक प्रमुख स्रोत है जो ओपनएआई के जीपीटी की मदद करता है, जो संकेत दिए जाने पर उपयोगकर्ता के सवालों का जवाब देने के लिए बड़ी मात्रा में पाठ को याद करता है। सार्वजनिक रूप से उपलब्ध डेटा के अलावा, एआई कंपनियां मॉडल प्रशिक्षण के लिए अपने स्वयं के डेटा का भी उपयोग करती हैं।

उदाहरण के लिए, OpenAI अपने चैटबॉट्स के साथ उपयोगकर्ता की बातचीत के आधार पर अपने मॉडलों को ठीक करता है। मेटा एआई को सार्वजनिक फेसबुक और इंस्टाग्राम पोस्ट पर आंशिक रूप से प्रशिक्षित किया गया है। अमेज़ॅन का भी कहना है कि वह अपने एलएलएम को प्रशिक्षित करने के लिए ग्राहकों की एलेक्सा बातचीत से कुछ वॉयस डेटा का उपयोग करता है।

हालाँकि, ज्यादातर मामलों में, AI कंपनियाँ प्रशिक्षण के लिए उपयोग किए जाने वाले डेटासेट के बारे में गुप्त रही हैं। अब, कठिन हिस्सा आता है प्रशिक्षण डेटा के बारे में पारदर्शिता की कमी इस बात का सबसे बड़ा खतरा है कि एआई कंपनियां जांच के दायरे में क्यों हैं।

न्यूयॉर्क टाइम्स ने हाल ही में पर्प्लेक्सिटी के खिलाफ मुकदमा दायर किया, जिसमें आरोप लगाया गया कि स्टार्टअप ने अपनी कॉपीराइट सामग्री को अवैध रूप से कॉपी और वितरित किया है। पिछले सप्ताह न्यूयॉर्क के दक्षिणी जिले में दायर किए गए मुकदमे में पर्प्लेक्सिटी पर उपयोगकर्ताओं के प्रश्नों के उत्तर तैयार करने के लिए द टाइम्स की कहानियों, वीडियो, पॉडकास्ट और अन्य सामग्री को गैरकानूनी तरीके से स्क्रैप करने का आरोप लगाया गया था।

एक अन्य प्रकाशन, द शिकागो ट्रिब्यून ने पर्प्लेक्सिटी के खिलाफ इसी तरह का कॉपीराइट मुकदमा दायर किया। द ट्रिब्यून का यह भी तर्क है कि पर्प्लेक्सिटी ने बिना अनुमति के इसकी सामग्री को नष्ट कर दिया और वितरित किया। इस विज्ञापन के नीचे कहानी जारी है, भारतीय मूल के अरविंद श्रीनिवास द्वारा स्थापित पर्प्लेक्सिटी, कई मुकदमों का विषय रही है।

इस साल की शुरुआत में, अग्रणी डिजिटल इंफ्रास्ट्रक्चर कंपनी क्लाउडफ्लेयर ने पर्प्लेक्सिटी पर अपनी वेब-क्रॉलिंग गतिविधियों को छिपाने और बिना अनुमति के वेबसाइटों को स्क्रैप करने का आरोप लगाया था। हैरानगी ने आरोपों को नकारा.

अक्टूबर में, सोशल मीडिया कंपनी Reddit ने भी न्यूयॉर्क संघीय अदालत में Perplexity पर मुकदमा दायर किया, और उस पर और तीन अन्य कंपनियों पर Perplexity के AI-आधारित खोज इंजन को प्रशिक्षित करने के लिए उसके डेटा को गैरकानूनी रूप से स्क्रैप करने का आरोप लगाया। समाचार साइटों और कई प्रकाशनों ने एआई कंपनियों पर अपने एआई सिस्टम के निर्माण और संचालन के लिए प्राधिकरण के बिना कॉपीराइट सामग्री का उपयोग करने का आरोप लगाया है। 2023 में, न्यूयॉर्क टाइम्स ने OpenAI के वेब क्रॉलर, GPTBot को AI मॉडल को प्रशिक्षित करने के लिए अपनी सामग्री का उपयोग करने से रोक दिया।

जल्द ही, एआई कंपनियों को एहसास हुआ कि उन्हें प्रकाशनों के साथ सौदे करने की ज़रूरत है, क्योंकि बिना अनुमति के डेटा का उचित उपयोग नहीं किया जा सकता है। यह भी पढ़ें | अमेरिकी कॉपीराइट मुकदमों में मेटा और एंथ्रोपिक की जीत से 5 निष्कर्ष इसके कारण ओपनएआई ने प्रमुख अंतरराष्ट्रीय मीडिया कंपनियों के साथ अपने कॉपीराइट सामग्री को प्रशिक्षण डेटा के रूप में उपयोग करने के लिए समझौतों पर हस्ताक्षर करना शुरू कर दिया।

एक्सल स्प्रिंगर, फ्रांस के ले मोंडे और स्पेन की प्रिसा मीडिया ने अपने एआई मॉडल के प्रशिक्षण के लिए सामग्री उपलब्ध कराने के लिए चैटजीपीटी निर्माताओं के साथ समझौता किया, इसके बाद फाइनेंशियल टाइम्स ने भी चैटजीपीटी उपयोगकर्ताओं को एफटी लेखों के सारांश, उद्धरण और लिंक प्राप्त करने की अनुमति देने के लिए एक समझौते में कटौती की। इस विज्ञापन के नीचे कहानी जारी है बाद में, रॉयटर्स और एसोसिएटेड प्रेस ने ओपनएआई के साथ समझौते पर हस्ताक्षर किए, जैसे हर्स्ट, द गार्जियन, कोंडे नास्ट, वोक्स, टाइम और द अटलांटिक ने किया। माइक्रोसॉफ्ट ने यूएसए टुडे के साथ एक समझौते पर हस्ताक्षर किए।

इस बीच, पर्प्लेक्सिटी को एडवीक, फॉर्च्यून, स्टर्न, द इंडिपेंडेंट और लॉस एंजिल्स टाइम्स के काम तक पहुंच प्राप्त हुई। अग्रणी प्रौद्योगिकी प्रकाशन एक्सियोस ने ओपनएआई के साथ एक लाइसेंसिंग समझौते पर भी हस्ताक्षर किए। हालाँकि, प्रकाशकों को अपनी वेबसाइटों तक पहुँचने के लिए वेब क्रॉलर का उपयोग करने वाले Google जैसे खोज इंजनों से कोई समस्या नहीं है।

इस तरह, खोज कंपनियाँ, बदले में, अपनी सामग्री पर सीधा ट्रैफ़िक प्राप्त कर सकती हैं। जैसा कि कहा गया है, सामग्री निर्माताओं, प्रकाशनों, संगीतकारों, कलाकारों और एआई कंपनियों के बीच कड़वाहट बनी हुई है, हितधारक इसे रोकने के लिए अदालतों का रुख कर रहे हैं, जिसे वे एआई कंपनियों के रूप में रचनात्मक अधिकारों का उल्लंघन मानते हैं।

उदाहरण के लिए, डिज़्नी और यूनिवर्सल को लें, जिन्होंने हाल ही में अपने छवि जनरेटर को लेकर कृत्रिम बुद्धिमत्ता फर्म मिडजॉर्नी पर मुकदमा दायर किया है। दो हॉलीवुड स्टूडियो का आरोप है कि यह “साहित्यिक चोरी का अथाह गड्ढा” है।

उनका दावा है कि मिडजॉर्नी का टूल पात्रों की “असंख्य” प्रतियां बनाता है, जिनमें स्टार वार्स से डार्थ वाडर, फ्रोजन से एल्सा और डेस्पिकेबल मी से मिनियंस शामिल हैं। आख़िरकार, डेटा स्रोतों के बारे में पारदर्शिता को प्राथमिकता दी जानी चाहिए। भले ही कलाकार और संगीतकार एआई कंपनियों के साथ एक समझौता करते हैं, यह सवाल हमेशा बना रहता है कि एआई किस हद तक केवल कुछ कीस्ट्रोक्स के साथ उनकी शैली को फिर से बनाने का प्रयास करता है।

अभी भी कोई ठोस जवाब नहीं है. इस विज्ञापन के नीचे कहानी जारी है क्या भारतीय अपने डेटा को AI से सुरक्षित रख सकते हैं? हजारों रुपये की एआई सदस्यता मुफ्त में देना कोई नई रणनीति नहीं है।

Google और अन्य ने दिखाया है कि यह रणनीति पहले भी काम कर चुकी है और यदि AI सेवाओं तक निःशुल्क पहुंच प्रदान की जाती है तो यह फिर से काम कर सकती है। वास्तव में, Google जैसी कंपनियों ने निःशुल्क सेवाएँ प्रदान करके अपने कई ग्राहकों तक पहुँच प्राप्त की।

उदाहरण के लिए, इसके Google खोज इंजन को लें, जो अनिवार्य रूप से मुफ़्त है लेकिन परिणाम पृष्ठ पर विज्ञापन प्रदर्शित करता है और उपयोगकर्ता डेटा एकत्र करता है – जो इसके अधिकांश राजस्व का स्रोत है। लेकिन हमेशा एक “पकड़” होती है: मुफ्त ऑनलाइन सेवाओं की लागत, और हम उपभोक्ता के रूप में अंततः कीमत चुकाते हैं।

पर्प्लेक्सिटी जैसे स्टार्टअप को केवल एक चीज की जरूरत है: आपका ध्यान। इसका लक्ष्य एक बड़ा उपयोगकर्ता आधार तैयार करना है, और अगर हमें इसमें सफलतापूर्वक शामिल किया जाता है, तो यह फंडिंग सुरक्षित कर सकता है और और भी बड़ा हो सकता है।

केवल तीन वर्षों में पर्प्लेक्सिटी का मूल्यांकन बढ़कर $20 बिलियन हो गया है। ओपनएआई के बारे में भी यही कहा जा सकता है, जिसने 800 मिलियन साप्ताहिक चैटजीपीटी उपयोगकर्ता बनाए हैं, जिससे इसका मूल्यांकन $500 बिलियन तक बढ़ गया है। पूंजीवाद इसी तरह काम करता है।

सभी प्रमुख एआई कंपनियां भारत पर नजर रख रही हैं, और अच्छे कारण से। भारत के पास न केवल एक बड़ा उपभोक्ता आधार है बल्कि यह आउटसोर्सिंग आईटी उद्योग का केंद्र भी है।

एक ओर, वैश्विक एआई कंपनियां अत्यधिक विविध उपभोक्ता बाजारों में पैठ बना रही हैं जहां उपयोगकर्ता कई भाषाएं बोलते हैं और प्रत्येक क्षेत्र की अपनी अनूठी संस्कृति और बोली होती है, खासकर ग्रामीण कस्बों में। इस विज्ञापन के नीचे कहानी जारी है, साथ ही, वे स्टार्टअप और एसएमबी के उपयोगकर्ताओं के एक बड़े समूह तक पहुंच प्राप्त कर रहे हैं। बड़ी तकनीकी कंपनियों के लिए, जितने अधिक उपयोगकर्ता उनकी AI सेवाओं से जुड़ेंगे, चाहे वे छात्र हों, कॉर्पोरेट पेशेवर हों, या सिस्टम प्रबंधित करने वाले गोदाम कर्मचारी हों, उनके AI मॉडल को प्रशिक्षित करने के लिए यह उतना ही बेहतर होगा।

और इस समय भारत से बेहतर कोई बाज़ार नहीं है। यदि एआई पारिस्थितिकी तंत्र विकसित होता है, तो यह भारत भर के छोटे केंद्रों में क्लाउड फार्मिंग के लिए एक बाजार भी तैयार कर सकता है, जिसका उपयोग एआई को प्रशिक्षित करने और सामग्री मॉडरेशन के लिए डेटासेट बनाने के लिए किया जा सकता है।

यह भी पढ़ें | माइक्रोसॉफ्ट का प्रतिनिधित्व करने वाला उद्योग निकाय, एडब्ल्यूएस भारत में एआई को प्रशिक्षित करने के लिए कॉपीराइट छूट चाहता है। एक बुनियादी सवाल जिसे नजरअंदाज नहीं किया जा सकता है वह यह है कि क्या संवेदनशील व्यक्तिगत डेटा को एआई प्रशिक्षण से दूर रखा जा सकता है। वर्तमान में, भारत में विशेष रूप से कृत्रिम बुद्धिमत्ता को नियंत्रित करने वाला कोई कानून नहीं है।

जबकि डिजिटल पर्सनल डेटा प्रोटेक्शन एक्ट (डीपीडीपी) 2023 व्यक्तिगत डेटा के लिए व्यापक सुरक्षा प्रदान करता है, इसे अभी तक अधिनियमित नहीं किया गया है। इसके अलावा, अधिनियम एआई सिस्टम या एल्गोरिथम जवाबदेही को संबोधित नहीं करता है।

अमेरिका में कैलिफोर्निया जैसे राज्यों में, डिजिटल गोपनीयता कानून उपभोक्ताओं को यह अनुरोध करने का अधिकार देते हैं कि कंपनियां उनके व्यक्तिगत डेटा को हटा दें। यूरोपीय संघ में, आर्टिफिशियल इंटेलिजेंस अधिनियम शिक्षा, स्वास्थ्य देखभाल, कानून प्रवर्तन और चुनाव जैसे क्षेत्रों में उपयोग की जाने वाली “उच्च जोखिम वाली प्रणालियों” पर नियंत्रण लगाता है।

यह कुछ AI उपयोग पर पूरी तरह से प्रतिबंध लगाता है। कहानी इस विज्ञापन के नीचे जारी है हालाँकि, एआई को पहले से सीखे गए डेटा को “भूलने” का कोई स्पष्ट तरीका नहीं है; कॉपीराइट या संवेदनशील जानकारी को पूरी तरह से हटाने के लिए मॉडल को नए सिरे से प्रशिक्षित करने की आवश्यकता होगी, जिसकी लागत लाखों डॉलर हो सकती है।