प्रशिक्षण डेटा – जेव्हा मी माझ्या मोबाइल प्लॅनचा रिचार्ज करण्यासाठी आठवड्याच्या शेवटी माझ्या स्मार्टफोनवर Airtel ॲप उघडले, तेव्हा माझ्या प्लॅनमध्ये रु. 17,000 किमतीचे Perplexity Pro AI सबस्क्रिप्शन पाहून मला आश्चर्य वाटले. मी चुकून Perplexity AI चे सदस्यत्व घेतले आहे की नाही हे मी दोनदा तपासले. मी दुसऱ्या सेवेचे सदस्यत्व घेतल्याबद्दल घाबरून जाण्यापूर्वी, मला समजले की माझ्या प्लॅनसह पर्पलेक्सिटी एआय सबस्क्रिप्शन विनामूल्य आहे आणि ही ऑफर जुलै 2026 पर्यंत वैध आहे.
परंतु पर्प्लेक्सिटी ही एकमेव कंपनी नाही जी भारतात लाखो लोकांना विनामूल्य एआय सबस्क्रिप्शन योजना ऑफर करते. रिलायन्स जिओ, आणखी एक दूरसंचार ऑपरेटर, निवडक वापरकर्त्यांना 18 महिन्यांसाठी विनामूल्य Google AI Pro सदस्यता प्रदान करण्यासाठी Google सोबत सक्रिय भागीदारी करत आहे. दरम्यान, ओपनएआय वार्षिक ‘लो-कॉस्ट’ चॅटजीपीटी गो सबस्क्रिप्शन देत आहे, दरमहा ३९९ रुपये, देशात एका वर्षासाठी मोफत.
असे नाही की AI कंपन्या त्यांची उत्पादने खरेदी करणाऱ्या वापरकर्त्यांना मोफत सेवा देण्यास प्रतिकूल आहेत. Apple, उदाहरणार्थ, iPhone आणि iPad सारख्या नवीन उत्पादनांसह Apple TV वर तीन महिन्यांसाठी विनामूल्य प्रवेश देण्यासाठी ओळखले जाते. माझे नवीन Pixel 10 Pro Fold आणि 10 Pro XL देखील विनामूल्य Google AI Pro योजनेसह येतात, ज्यात प्रीमियम AI वैशिष्ट्ये आणि वर्षभरासाठी 2TB स्टोरेज समाविष्ट आहे.
दोन्ही प्रकरणांमध्ये, तुम्ही त्यांच्या हार्डवेअर उत्पादनांसाठी प्रीमियम भरता आणि या टेक कंपन्या लोकप्रियता वाढवण्यासाठी आणि वापरकर्त्यांना त्यांच्या इकोसिस्टममध्ये लॉक करण्यासाठी अधूनमधून नवीन सेवांमध्ये प्रवेश देतात. तथापि, Google, OpenAI आणि Perplexity भारतातील लाखो वापरकर्त्यांना प्रीमियम AI सेवांमध्ये दीर्घकालीन, विनामूल्य प्रवेश देत आहेत.
कृत्रिम बुद्धिमत्ता हे एक महागडे खेळाचे मैदान असताना आणि पायाभूत सुविधांच्या गुंतवणुकीचा आणि एआय मॉडेल्सच्या प्रशिक्षणाचा खर्च कोट्यवधी डॉलर्समध्ये असताना या तंत्रज्ञान कंपन्या इतक्या उदार का आहेत याचे आश्चर्य वाटते. बरं, या टेक कंपन्या कदाचित गोड हावभाव दाखवत नसतील तर दीर्घकालीन बक्षिसे देऊन लाखो भारतीयांना प्रीमियम AI टूल्स मोफत ऑफर करण्याचा एक मोजलेला हेतू आहे. या जाहिरातीच्या खाली स्टोरी सुरू आहे लाखो स्मार्टफोन आणि इंटरनेट वापरकर्त्यांसाठी मुख्यपृष्ठ भारत प्रति वापरकर्ता मोबाइल डेटाचा जगातील सर्वोच्च ग्राहक आहे आणि त्याचे इंटरनेट वापरकर्ते 900 दशलक्ष ओलांडण्यासाठी सज्ज आहेत, ज्यामुळे प्रचंड बाजारपेठ क्षमता निर्माण झाली आहे.
कमी किमतीच्या इंटरनेटची उपलब्धता, ग्रामीण भागातही स्मार्टफोनचा प्रवेश, 18 ते 35 वयोगटातील डिजिटल जाणकार तरुण आणि डिजिटल पेमेंटसारख्या डिजिटल पायाभूत सुविधा आणि सेवांच्या वाढीमुळे ही भरभराट झाली आहे. त्यामुळेच अनेक कंपन्या भारताच्या वेगाने वाढणाऱ्या इंटरनेट इकोसिस्टममध्ये पैसे टाकत आहेत, हे बक्षीस अनेक गुंतवणूकदारांना दुर्लक्षित करण्यासारखे मोठे वाटते. भारताच्या AI बूमचा टप्पा निश्चित करण्यात Airtel आणि Jio सारख्या दूरसंचार ऑपरेटरची भूमिका तितकीच महत्त्वाची आहे.
एकत्रितपणे, Airtel आणि Jio कडे मोठा वापरकर्ता आधार आहे, आणि ते तैनातीपासून मागणी रूपांतरणापर्यंत, परिणामकारक अंमलबजावणी सुनिश्चित करण्यात निर्णायक भूमिका बजावतात, शेवटी कोणत्याही नवीन सेवेसाठी वापरकर्त्यांच्या दत्तकतेच्या वाढीस चालना देतात. ….
पण एआय प्रशिक्षण डेटा कुठून येतो? गुगल आणि ओपनएआय सारख्या कंपन्यांना भारतात त्यांचे सर्वात अत्याधुनिक, प्रगत अल्गोरिदम आणि मॉडेल्स प्रशिक्षित करण्याची संधी दिसते यात आश्चर्य नाही. गोष्ट अशी आहे की, जीपीटीपासून जेमिनीपर्यंतच्या प्रत्येक एआय मॉडेलला मोठ्या प्रमाणात मानवी-लेबल केलेल्या डेटाची आवश्यकता असते आणि भारतासारखा देश प्रशिक्षण डेटाचा कणा बनण्यासाठी अगदी योग्य असू शकतो.
पण मोठा प्रश्न हा आहे की एआय प्रशिक्षण डेटा कुठून येतो? मोठ्या जनरेटिव्ह एआय मॉडेल्स तयार करण्यासाठी, टेक कंपन्या अनेकदा सार्वजनिक इंटरनेटकडे वळतात, परंतु संपूर्ण वेब डाउनलोड करण्यासाठी एकही जागा नाही. त्याऐवजी, तंत्रज्ञान कंपन्या त्यांचे प्रशिक्षण सेट स्वयंचलित साधनांचा वापर करून निवडतात जे इंटरनेटवरून डेटा कॅटलॉग करतात आणि काढतात.
शेवटी, उच्च-गुणवत्तेचा डेटा, प्रामुख्याने वेबवरून स्क्रॅप केलेला, AI मॉडेल्सच्या कार्यक्षमतेसाठी महत्त्वपूर्ण आहे. स्टोरी या जाहिरातीच्या खाली सुरू आहे या टूल्समध्ये वेब “क्रॉलर्स,” टोपणनाव असलेले “स्पायडर्स” समाविष्ट आहेत, जे स्वयंचलित प्रोग्राम आहेत जे वर्ल्ड वाइड वेबला त्याची पृष्ठे अनुक्रमित करण्यासाठी पद्धतशीरपणे ब्राउझ करतात. उदाहरणार्थ, अल्फाबेट, Google ची मूळ कंपनी, तिच्या शोध इंजिनला सक्षम करण्यासाठी आधीच वेब क्रॉलर्स तयार केले आहेत आणि डेटा काढण्यासाठी आणि त्याचे AI मॉडेल प्रशिक्षित करण्यासाठी स्वतःची साधने वापरू शकतात.
इतर कंपन्या, तथापि, कॉमन क्रॉल सारख्या संसाधनांवर अवलंबून असतात, प्रशिक्षण डेटाचा एक प्रमुख स्त्रोत जो OpenAI च्या GPT ला मदत करतो, जे प्रॉम्प्ट दिल्यास वापरकर्त्याच्या प्रश्नांना प्रतिसाद देण्यासाठी मोठ्या प्रमाणात मजकूर लक्षात ठेवते. सार्वजनिकरित्या उपलब्ध डेटा व्यतिरिक्त, एआय कंपन्या मॉडेल प्रशिक्षणासाठी स्वतःचा डेटा देखील वापरतात.
ओपनएआय, उदाहरणार्थ, त्याच्या चॅटबॉट्ससह वापरकर्त्याच्या परस्परसंवादाच्या आधारे त्याचे मॉडेल चांगले-ट्यून करते. Meta AI सार्वजनिक Facebook आणि Instagram पोस्टवर अंशतः प्रशिक्षित आहे. ॲमेझॉन देखील म्हणते की ते एलएलएम प्रशिक्षित करण्यासाठी ग्राहकांच्या अलेक्सा संभाषणातील काही व्हॉइस डेटा वापरते.
तथापि, बहुतेक प्रकरणांमध्ये, एआय कंपन्यांनी प्रशिक्षणासाठी वापरल्या जाणाऱ्या डेटासेटबद्दल गुप्तता पाळली आहे. आता, कठीण भाग येतो प्रशिक्षण डेटाबद्दल पारदर्शकतेचा अभाव हा सर्वात मोठा लाल ध्वज आहे की AI कंपन्या छाननीखाली का आहेत.
न्यूयॉर्क टाइम्सने अलीकडेच पेरप्लेक्सिटी विरुद्ध खटला दाखल केला आणि आरोप लावला की स्टार्टअपने कॉपीराइट केलेली सामग्री बेकायदेशीरपणे कॉपी आणि वितरित केली आहे. गेल्या आठवड्यात न्यूयॉर्कच्या दक्षिणी जिल्ह्यात दाखल झालेल्या खटल्यात पेरप्लेक्सिटीवर वापरकर्त्याच्या प्रश्नांना प्रतिसाद देण्यासाठी द टाइम्सच्या कथा, व्हिडिओ, पॉडकास्ट आणि इतर सामग्री बेकायदेशीरपणे स्क्रॅप केल्याचा आरोप आहे.
द शिकागो ट्रिब्यून या दुसऱ्या प्रकाशनाने पेरप्लेक्सिटी विरुद्ध समान कॉपीराइट खटला दाखल केला. द ट्रिब्यूनचा असाही युक्तिवाद आहे की पर्प्लेक्सिटीने अधिकृततेशिवाय त्यातील सामग्री स्क्रॅप केली आणि वितरित केली. या जाहिरातीच्या खाली कथा पुढे चालू आहे, भारतीय वंशाच्या अरविंद श्रीनिवासने स्थापन केलेल्या पेप्लेक्सिटी, अनेक खटल्यांचा विषय आहे.
या वर्षाच्या सुरुवातीला, क्लाउडफ्लेअर या अग्रगण्य डिजिटल इन्फ्रास्ट्रक्चर कंपनीने परप्लेक्सिटीवर वेब-क्रॉलिंग क्रियाकलाप लपवल्याचा आणि परवानगीशिवाय वेबसाइट स्क्रॅप केल्याचा आरोप केला. संभ्रमाने आरोप फेटाळून लावले.
ऑक्टोबरमध्ये, सोशल मीडिया कंपनी Reddit ने न्यूयॉर्कच्या फेडरल कोर्टात पेरप्लेक्सिटीवर खटला दाखल केला आणि पेरप्लेक्सिटीच्या एआय-आधारित शोध इंजिनला प्रशिक्षित करण्यासाठी बेकायदेशीरपणे डेटा स्क्रॅप केल्याचा आरोप करत ती आणि इतर तीन कंपन्यांवर आरोप केले. न्यूज साइट्स आणि असंख्य प्रकाशनांनी एआय कंपन्यांवर त्यांच्या एआय सिस्टम तयार आणि ऑपरेट करण्यासाठी अधिकृततेशिवाय कॉपीराइट केलेली सामग्री वापरल्याचा आरोप केला आहे. 2023 मध्ये, द न्यूयॉर्क टाइम्सने OpenAI च्या वेब क्रॉलर, GPTBot ला AI मॉडेल्सचे प्रशिक्षण देण्यासाठी त्याची सामग्री वापरण्यापासून अवरोधित केले.
लवकरच, एआय कंपन्यांना हे समजले की त्यांना प्रकाशनांशी करार करणे आवश्यक आहे, कारण परवानगीशिवाय डेटा योग्यरित्या वापरला जाऊ शकत नाही. तसेच वाचा | यूएस कॉपीराइट खटल्यांमध्ये मेटा आणि अँथ्रोपिकच्या विजयातील 5 टेकवे यामुळे OpenAI ने त्यांच्या कॉपीराइट केलेल्या सामग्रीचा प्रशिक्षण डेटा म्हणून वापर करण्यासाठी प्रमुख आंतरराष्ट्रीय मीडिया कंपन्यांशी करार करण्यास सुरुवात केली.
एक्सेल स्प्रिंगर, फ्रान्सचे ले माँडे आणि स्पेनच्या प्रिसा मीडियाने ChatGPT निर्मात्यांशी त्यांच्या AI मॉडेल्सचे प्रशिक्षण देण्यासाठी साहित्य प्रदान करण्यासाठी करार केला, त्यानंतर Financial Times, ज्याने ChatGPT वापरकर्त्यांना सारांश, कोट्स आणि FT लेखांच्या लिंक्स प्राप्त करण्यास अनुमती देणारा करार देखील कमी केला. या जाहिरातीच्या खाली कथा पुढे चालू राहते नंतर, रॉयटर्स आणि असोसिएटेड प्रेसने हर्स्ट, द गार्डियन, कॉन्डे नास्ट, व्हॉक्स, टाइम आणि द अटलांटिक प्रमाणेच ओपनएआय बरोबर करार केले. मायक्रोसॉफ्टने यूएसए टुडेसोबत करार केला.
दरम्यान, Perplexity ने AdWeek, Fortune, Stern, The Independent, and the Los Angeles Times च्या कामात प्रवेश मिळवला. Axios या आघाडीच्या तंत्रज्ञान प्रकाशनाने OpenAI सह परवाना करारावर स्वाक्षरी केली. तथापि, प्रकाशकांना त्यांच्या वेबसाइटवर प्रवेश करण्यासाठी वेब क्रॉलर्सचा वापर करून Google सारख्या शोध इंजिनमध्ये कोणतीही समस्या नाही.
अशा प्रकारे, शोध कंपन्या, त्या बदल्यात, त्यांच्या सामग्रीवर थेट रहदारी मिळवू शकतात. असे म्हटले आहे की, सामग्री निर्माते, प्रकाशने, संगीतकार, कलाकार आणि AI कंपन्या यांच्यातील कटुता कायम आहे, AI कंपन्या सर्जनशील अधिकारांचे उल्लंघन करत आहेत हे टाळण्यासाठी भागधारक न्यायालयांकडे वळतात.
उदाहरणार्थ, डिस्ने आणि युनिव्हर्सल घ्या, ज्यांनी अलीकडेच त्याच्या इमेज जनरेटरवर कृत्रिम बुद्धिमत्ता फर्म मिडजर्नीवर खटला भरला. दोन हॉलीवूड स्टुडिओने असा आरोप केला आहे की हा “साहित्यचोरीचा तळहीन खड्डा” आहे.
त्यांचा दावा आहे की मिडजॉर्नीचे साधन पात्रांच्या “असंख्य” प्रती बनवते, ज्यात स्टार वॉर्समधील डार्थ वाडर, फ्रोझनमधील एल्सा आणि डिस्पिकेबल मी मधील मिनियन्स यांचा समावेश आहे. शेवटी, डेटा स्त्रोतांबद्दल पारदर्शकतेला प्राधान्य दिले पाहिजे. कलाकार आणि संगीतकारांनी AI कंपन्यांशी करार केला असला तरीही, AI फक्त काही कीस्ट्रोकसह त्यांची शैली पुन्हा तयार करण्याचा किती प्रमाणात प्रयत्न करते हा प्रश्न नेहमीच असतो.
अजूनही ठोस उत्तर नाही. या जाहिरातीच्या खाली कथा सुरू आहे भारतीय AI पासून त्यांचा डेटा सुरक्षित करू शकतात का? हजारो रुपयांच्या एआय सबस्क्रिप्शन मोफत देणे ही नवीन युक्ती नाही.
Google आणि इतरांनी दर्शविले आहे की या धोरणाने भूतकाळात काम केले आहे आणि AI सेवांमध्ये प्रवेश विनामूल्य प्रदान केल्यास ते पुन्हा कार्य करू शकतात. खरं तर, Google सारख्या कंपन्यांनी त्यांच्या अनेक ग्राहकांना मोफत सेवा देऊन प्रवेश मिळवला.
उदाहरणार्थ, त्याचे Google शोध इंजिन घ्या, जे मूलत: विनामूल्य आहे परंतु परिणाम पृष्ठावर जाहिराती प्रदर्शित करते आणि वापरकर्ता डेटा संकलित करते – त्याच्या बहुतेक कमाईचा स्रोत. परंतु नेहमीच एक “कॅच” असतो: विनामूल्य ऑनलाइन सेवांसाठी किंमत आणि आम्ही ग्राहक म्हणून शेवटी किंमत मोजतो.
Perplexity सारख्या स्टार्टअपला फक्त एका गोष्टीची गरज आहे: तुमचे लक्ष. त्याचे ध्येय एक भरीव वापरकर्ता आधार तयार करणे हे आहे आणि जर आम्हाला यशस्वीरित्या आमिष दाखवले तर ते निधी सुरक्षित करू शकते आणि आणखी मोठे होऊ शकते.
केवळ तीन वर्षांत पेरप्लेक्सिटीचे मूल्यांकन $20 अब्ज झाले आहे. OpenAI बद्दलही असेच म्हणता येईल, ज्याने 800 दशलक्ष साप्ताहिक ChatGPT वापरकर्ते एकत्र केले आहेत, त्याचे मूल्य $500 अब्ज पर्यंत वाढवले आहे. अशा प्रकारे भांडवलशाही कार्य करते.
सर्व प्रमुख AI कंपन्या भारताकडे लक्ष देत आहेत आणि योग्य कारणास्तव. भारतात केवळ मोठा ग्राहकवर्ग नाही तर आउटसोर्सिंग आयटी उद्योगाचे केंद्र देखील आहे.
एकीकडे, जागतिक AI कंपन्या अत्यंत वैविध्यपूर्ण ग्राहक बाजारपेठांमध्ये प्रवेश मिळवत आहेत जिथे वापरकर्ते अनेक भाषा बोलतात आणि प्रत्येक प्रदेशाची स्वतःची खास संस्कृती आणि बोली आहे, विशेषतः ग्रामीण शहरांमध्ये. कथा या जाहिरातीच्या खाली सुरू आहे त्याच वेळी, ते स्टार्टअप्स आणि SMBs मधील वापरकर्त्यांच्या मोठ्या समूहामध्ये प्रवेश मिळवत आहेत. मोठ्या टेक कंपन्यांसाठी, जेवढे जास्त वापरकर्ते त्यांच्या AI सेवांमध्ये गुंततात, मग ते विद्यार्थी असोत, कॉर्पोरेट प्रोफेशनल असोत किंवा वेअरहाऊस वर्कर मॅनेजिंग सिस्टीम असोत, त्यांच्या AI मॉडेलला प्रशिक्षण देणे तितकेच चांगले असते.
आणि याक्षणी भारतापेक्षा कोणतीही बाजारपेठ चांगली नाही. जर AI इकोसिस्टम विकसित झाली, तर ते संपूर्ण भारतातील लहान केंद्रांमध्ये क्लाउड फार्मिंगसाठी बाजारपेठ तयार करू शकते, ज्याचा वापर AI ला प्रशिक्षित करण्यासाठी आणि सामग्री मॉडरेशनसाठी डेटासेट तयार करण्यासाठी केला जाऊ शकतो.
तसेच वाचा | मायक्रोसॉफ्टचे प्रतिनिधीत्व करणारी इंडस्ट्री बॉडी, AWS भारतात AI ला प्रशिक्षित करण्यासाठी कॉपीराईट सूट शोधत आहे एक मूलभूत प्रश्न ज्याकडे दुर्लक्ष करता येणार नाही तो म्हणजे संवेदनशील वैयक्तिक डेटा AI प्रशिक्षणापासून दूर ठेवता येईल का. सध्या, भारतात कृत्रिम बुद्धिमत्ता नियंत्रित करणारा कायदा नाही.
डिजिटल पर्सनल डेटा प्रोटेक्शन ऍक्ट (DPDP) 2023 वैयक्तिक डेटासाठी व्यापक संरक्षण प्रदान करत असताना, तो अद्याप लागू करणे बाकी आहे. शिवाय, हा कायदा AI प्रणाली किंवा अल्गोरिदमिक उत्तरदायित्वाला संबोधित करत नाही.
यूएसमधील कॅलिफोर्नियासारख्या राज्यांमध्ये, डिजिटल गोपनीयता कायदे ग्राहकांना त्यांचा वैयक्तिक डेटा हटवण्याची विनंती करण्याचा अधिकार देतात. युरोपियन युनियनमध्ये, आर्टिफिशियल इंटेलिजन्स कायदा शिक्षण, आरोग्यसेवा, कायद्याची अंमलबजावणी आणि निवडणुका यासारख्या क्षेत्रांमध्ये वापरल्या जाणाऱ्या “उच्च-जोखीम प्रणाली” वर नियंत्रणे लादतो.
हे काही AI वापरावर पूर्णपणे बंदी घालते. कथा या जाहिरातीच्या खाली चालू आहे तथापि, पूर्वी शिकलेला डेटा AI “विसरणे” करण्याचा सध्या कोणताही स्पष्ट मार्ग नाही; कॉपीराइट केलेली किंवा संवेदनशील माहिती पूर्णपणे काढून टाकण्यासाठी मॉडेलला सुरवातीपासून पुन्हा प्रशिक्षण देणे आवश्यक आहे, ज्याची किंमत लाखो डॉलर्स असू शकते.


