- प्राचार्य डॉ. भूषण भावे
डिजिटल संसाधने करोडो लोकांद्वारे बोलल्या जाणाऱ्या भाषा वगळता इतर भाषांमध्ये अनुपलब्ध आहेत किंवा जर असतील तर ती अपुरी आहेत. या भाषा वैज्ञानिक पद्धतीने टिकून राहण्यासाठी, ज्ञानभाषा म्हणून उदयाला येण्यासाठी त्या भाषांचा तांत्रिक विकास अत्यंत आवश्यक आहे. कोंकणीसारख्या भाषांमध्ये, जिथे डिजिटल संसाधने कमी आहेत, तिने विविध प्रकारची तांत्रिक कौशल्ये विकसित केली पाहिजेत.
भारतात अशा काही भाषा आहेत ज्या करोडो लोक बोलतात (उदा. हिंदी, बंगाली, मराठी, तेलगू, तमिळ, गुजराती, कन्नड, ओडिया, मल्याळम इत्यादी). अशा काही भाषा आहेत ज्या लाखो लोक बोलतात (उदा. कोंकणी, संथाली, काश्मिरी, नेपाळी, सिंधी, डोगरी, मणिपुरी, बोडो इत्यादी). याशिवाय केवळ काही हजार भाषक लोकसंख्या असलेल्या अशा भाषाही आपल्या देशात आहेत. या गैर-अनुसूचित भाषा मानल्या जातात (जसे- गंगटे, कोंडा, पारजी, जटापू इत्यादी). भारतात अशा सुमारे 120 भाषा आहेत. शिवाय, भारतात अशा शेकडो भाषा आहेत ज्या अद्याप लिखित स्वरूपात प्रकट झालेल्या नाहीत; केवळ त्या ज्या लोकांच्या ओठांवर/जिभेवर टिकून राहिल्या आहेत, ज्यांनी अद्याप आपले लक्ष वेधून घेतले नाही (उदा. टोटो, निहाली/नहाली, गोरम इत्यादी).
डिजिटल संसाधने (म्हणजे, संगणक-मूल्यांकित भाषा ओळख प्रणाली) एकतर वरील करोडो लोकांद्वारे बोलल्या जाणाऱ्या भाषा वगळता इतर भाषांमध्ये अनुपलब्ध आहेत किंवा जर त्या असतील तर ती अपुरी आहेत. या भाषांना ‘लो रिसोर्स लँग्वेजेस’ (एलआरएल) म्हणून संबोधले जाते. या भाषा वैज्ञानिक पद्धतीने टिकून राहण्यासाठी, ज्ञानभाषा म्हणून उदयाला येण्यासाठी त्या भाषांचा तांत्रिक विकास अत्यंत आवश्यक आहे. कोंकणीसारख्या भाषांमध्ये, जिथे डिजिटल संसाधने कमी आहेत, तिने विविध प्रकारची तांत्रिक कौशल्ये विकसित केली पाहिजेत.
डिजिटल डेटा आणि दस्तऐवजीकरण वाढवण्याची गरज
स्थानिक भाषांमध्ये आशयनिर्मिती (सामग्रीनिर्मिती) आणि शब्दसंग्रह तयार करणे (कॉर्पोरा विकास) ही काळाची गरज आहे. ज्या भागात मोठ्या प्रमाणात डिजिटल डेटा मिळू शकतो, तिथे स्थानिक भाषांचा वापर सक्तीचा केला पाहिजे. उदा. न्यायालये, बँका इत्यादी. छापील पुस्तके, हस्तलिखिते, वर्तमानपत्रे, पुरातत्वीय दस्तऐवज इत्यादी संगणक-वाचनीय (मशीन वाचनीय) स्वरूपात, डिजिटल स्वरूपात उपलब्ध करून देण्यात यावीत, जेणेकरून ती शोधणे आणि त्यांचा पुनर्वापर करणे शक्य होईल. वरील सर्व भाषांमध्ये अर्थपूर्ण आणि वैविध्यपूर्ण डिजिटल सामग्री तयार करणे आणि अतिशय मजबूत शब्दसंग्रह तयार करणे, ज्यामुळे मशीन-भाषांतर आणि कृत्रिम बुद्धिमत्ता (ए.आय.) सुलभ होण्यास मदत होईल.
या भाषा डिजिटल स्वरूपात टिकून राहण्यासाठी, ज्ञानाची भाषा म्हणून त्यांच्या गुणात्मक वाढ आणि विकासासाठी कॉर्पस (शब्दकोश), फॉन्ट (अक्षरे), कीबोर्ड (मातृफलक), एनएलपी (स्वयंचलित भाषा प्रक्रिया उपकरणे) ही मूलभूत तांत्रिक संसाधने आवश्यक आहेत. स्वयंशुद्धलेखन/शुद्धलेखन तपास-उपकरणे कोंकणी व अन्य भाषांमध्ये विकसित व्हावीत, जेणेकरून त्या-त्या भाषा न शिकलेलेही त्या भाषा संगणकावर वापरू शकतील.
कोंकणीसह वरील सर्व भाषांची डिजिटल प्लॅटफॉर्मवर उपलब्धता, त्यांची डिजिटल उपस्थिती आणि दृश्यमानता तसेच विनियोग-क्षमता (वापरण्याची क्षमता) वाढविण्यासाठी अनेक पावले उचलावी लागतील. एल.आर.एल. भाषांमधील सर्वात मोठा अडथळा म्हणजे ज्या स्वरूपात डेटा आवश्यक व अपेक्षित आहे, त्या स्वरूपात उपलब्ध नाही. लहान भाषांचा शब्दसंग्रह वाढवणे आवश्यक आहे. यामध्ये प्रामुख्याने बातम्या, ब्लॉग, लिप्यंतरण, विविध बोलींमधील ऑडिओ/भाषिक संप्रेषण यांचा समावेश आहे. अनुवादासाठी योग्य इंग्रजी-कोंकणी, हिंदी-कोंकणी, मराठी-कोंकणी आणि उलट शब्दकोश विकसित करणे आवश्यक आहे. स्थानिक आणि स्थलांतरित कोंकणी भाषकांकडून मजकूर, ऑडिओ आणि संवाद मिळवून सहयोगी कृतीला (क्राऊड-सोर्सिंग) प्रोत्साहन दिले पाहिजे.
संगणकीय आणि डिजिटल साक्षरता वाढवण्याची गरज
आपण पाहतो की, तीन-चार वर्षांची मुलेही अगदी सहजपणे इंग्रजी टाईप करू शकतात, संगणकावर आणि संगणक उपकरणांवर मजकूर तयार करू शकतात; पण ती मुले महाविद्यालयात पोहोचल्यानंतरही आपल्या मातृभाषेत टाईप करू शकत नाहीत. प्रमाणित शुद्धलेखनाचा अभाव, लेखन व बोलण्यातील फरक यांमुळे मुले देशी भाषांतून टाईप करण्यास घाबरतात. भाषा साक्षरता केवळ बोलण्यापुरती मर्यादित राहते; लेखनसाक्षरता वाढत नाही. यावर तीन उपाय काढले जाऊ शकतात :
- मातृभाषेत तांत्रिक-शिक्षण आणि प्रशिक्षण ः शिक्षणात डिजिटल शिक्षणाचा समावेश आणि संगणक-आधारित भाषा-शिक्षणाची तळागाळातील पातळीवरून अंमलबजावणी यासाठी संगणक-भाषाविज्ञान चढत्या क्रमाने सुरू करणे आवश्यक आहे. यासाठी अध्यापनशास्त्राची (पॅडगोजी) पुनर्रचना करावी लागेल. एनईपी 2020 समोरील हे सर्वात मोठे आव्हान आहे.
- व्याकरण आणि भाषाविज्ञानाची ठोस मूलभूत तत्त्वे ः स्वातंत्र्योत्तर काळात देशी भाषांच्या व्याकरणाकडे दुर्लक्ष केले गेले आहे. पाठ्याधारित अभ्यास अधिकाधिक आणि शेवटी कडू औषधासारखे व्याकरणावर आधारित एक किंवा दोन प्रश्न. संगणकीय भाषा केवळ आणि केवळ व्याकरणावर आधारित आहे. त्यामुळे संगणकावर भाषा-प्रभुत्व मिळविण्यासाठी व्याकरणाची वैज्ञानिक बैठक अत्यंत आवश्यक आहे. भाषाशास्त्रीय जागृतीसह संगणकावर आधारित भाषा-शिक्षण परिवर्तन घडवून आणू शकते.
- वापरण्यास सुलभ सॉफ्टवेअर तयार करणे ः वापरण्यास सोपे, प्रवेशयोग्य, वापरकर्ता-अनुकूल आणि सर्वात महत्त्वाचे म्हणजे विनामूल्य किंवा स्वस्त सॉफ्टवेअर तयार करणे. उदाहरणार्थ, उच्चार/मजकुराद्वारे भाषा ओळखणे (स्पीच रेकॉग्निशन). लिपीचा अडथळा दूर करण्यासाठी, अगदी अशिक्षित व्यक्तीही संगणकावर स्थानिक भाषा वापरू शकेल असे सॉफ्टवेअर तयार करणे आवश्यक आहे.
विद्यापीठांनी संगणकीय भाषाशास्त्र, शब्दकोश भाषाविज्ञान, डिजिटल मानव्यविद्या इत्यादी अभ्यासक्रम स्थानिक भाषांमध्ये सुरू करावेत. पदवीधरांना डेटा एनोटेशन, ट्रान्सक्रिप्शन, एथिकल डेटा संकलन इत्यादींमध्ये प्रशिक्षण देणे आवश्यक आहे. शाळा आणि स्थानिक लोकांना भाषिक उपक्रमांमध्ये सहभागी करून घेतले पाहिजे. विद्यापीठे आणि तंत्रज्ञान कंपन्यांच्या सहकार्याने सामुदायिक मोहिमा, भाषा-हॅकेथॉनचे आयोजन केले पाहिजे. डिजिटल-स्पर्धा आयोजित करणे, संगणक प्रशिक्षण देणे यामुळे कोंकणी भाषेतील डिजिटल-शब्दसंग्रह वाढेल. कोंकणी समुदायातील लोकसाहित्य आणि सांस्कृतिक वारशाचे समुदाय-आधारित डिजिटलायझेशन करणे, ही काळाची गरज आहे.
भारतीय लिपींचे कठीण रूप
देवनागरी आणि इतर भारतीय लिपी रोमन लिपीपेक्षा अधिक गुंतागुंतीच्या आहेत. म्हणूनच, वापरकर्ता संगणकीय उपकरणांवर टाईप करण्यासाठी सहजपणे आपली भाषा रोमन लिपीत लिहितो. देवनागरी लिपी रोमन लिपीपेक्षा अधिक शास्त्रीय आहे, यात काही शंका नाही. परंतु ती लिहिण्याची पद्धत, विशेषत: व्यंजन आणि स्वर यांचे मिश्रण, अनुस्वार आणि इकार-उकारांची चिन्हे योग्य शिक्षण न मिळाल्यास गोंधळ निर्माण करू शकतात. या जटिलतेमुळे लोक स्थानिक लिपी वापरण्यास संकोच करतात आणि रोमन लिपी वापरून मोकळे होतात. संगणक-शास्त्रज्ञांनी स्थानिक लिपी सुधारण्याचे आणि सुलभ करण्याचे प्रयत्न सुरू ठेवले पाहिजेत. देवनागरीमध्ये शास्त्रीय शिक्षण देणे हे केवळ अध्यापनशास्त्राच्या दृष्टीनेच नव्हे तर भाषिक समज वाढविण्यासाठीदेखील आवश्यक आहे. चिनी लिपी भारतीय लिपींपेक्षा अधिक क्लिष्ट असूनही संगणकपूरक असू शकतात, तर आपल्या लिपींचे संगणकीकरण करणे अशक्य नाही.
सरकारची भूमिका आणि जबाबदाऱ्या
प्रत्येक राज्य सरकारच्या राजभाषा विभागाने आपल्या स्त्रोतांकडून सामग्री मिळविण्याची योजना आखली पाहिजे आणि अधिग्रहित सामग्रीचे मशीन लर्निंगसाठी योग्य स्वरूपामध्ये रूपांतर केले पाहिजे. सर्व सरकारी कागदपत्रे (परिपत्रके, आदेश… इ.) सार्वजनिक क्षेत्रामध्ये (पब्लिक डोमेन) संपादन करण्यायोग्य स्वरूपात उपलब्ध केली पाहिजेत. अर्थसंकल्पात डिजिटल स्वरूपात शब्दकोश आणि शब्दकोष तयार करण्यासाठीही सरकारने निधी उपलब्ध करून दिला पाहिजे. अशा प्रकल्पांची अंमलबजावणी करणाऱ्या संस्थांना उच्च क्षमतेची संगणकीय उपकरणे परवडणाऱ्या दरात उपलब्ध करून देण्यासाठी सरकारने पावले उचलायला हवीत.
आठव्या अनुसूचित समाविष्ट आणि टप्प्याटप्प्याने समाविष्ट नसलेल्या बिगर-अनुसूचित, लिपी नसलेल्या (केवळ मौखिकदृष्ट्या अस्तित्वात असलेल्या), लुप्तप्राय, वंचित, मागासलेल्या, उपेक्षित किंवा नामशेष होण्याच्या मार्गावर असलेल्या, शिक्षणात समाविष्ट न झालेल्या इ. सर्व प्रकारच्या भाषांच्या संरक्षणासाठी केंद्र व राज्य सरकारांनी आपल्या अंदाजपत्रकात विशेष तरतुदी कराव्या लागतील. अशा प्रकारची इको-सिस्टम जोपर्यंत निर्माण होत नाही, तोपर्यंत त्या भाषांचे भवितव्य चिंताजनक राहील.
एनईपी 2020 ची अंमलबजावणी झाल्यापासून केंद्र आणि राज्य सरकारच्या अनेक विभागांमध्ये संवाद न झाल्यामुळे अनेक वेळा कार्याची पुनरावृत्ती होत आहे. त्यामुळे या क्षेत्रात काम करणाऱ्या एआयसीटीई, एनसीटीई, एनसीईआरटी, यूजीसी, सीडीएसी, गुगल, उच्च-शिक्षण संस्था (उदा. आयआयटी, एनआयटी, आयटी, ट्रिपल आयआयटी इ.) यांना नावीन्यपूर्ण तंत्रज्ञान विकसित करण्यासाठी सुसंवादी पद्धतीने काम करावे लागेल. कोंकणीसारख्या भाषेसाठी स्वतंत्र एनएलपी केंद्राची गरज आहे, जे कोणत्याही उच्चशिक्षण संस्थेच्या उपग्रह-केंद्राद्वारे स्थापित केले जाऊ शकते.
सर्व व्यवहारांसाठी भाषा वापरल्या जाव्यात
- भाषेचा वापर आतापर्यंत केवळ शिक्षणापुरता मर्यादित राहिला आहे. प्रशासन, आरोग्य, विमा, व्यापार आणि बँकिंग यांसारख्या अनेक क्षेत्रांमध्येसुद्धा भाषा वापर केल्याने केवळ स्थानिक भाषांचे भवितव्य सुरळीत राहणार नाही, तर नागरिक त्यांच्या संबंधित भाषेत जगू शकल्यामुळे आणि व्यवहार करू शकल्यामुळे त्यांचे जीवन सुकर होईल. भाषेचा वापर बौद्धिक स्तराबरोबरच व्यवहारातील सर्व क्षेत्रांतही अगदी सहज व सामान्य नागरिकालाही जमेल असा व्हायला हवा (विजेची बिले भरणे, बँक व्यवहार करणे, सरकारी विभागाशी संपर्क साधणे).
व्यवहारिकता आणि बाजारपेठी गरजा
सर्वात मोठा प्रश्न हा आहे की, 40-50 लाख आणि त्यापेक्षाही लहान भाषांसाठी हे सर्व तयार करणे परवडणारे आहे का? ॲप्स, सॉफ्टवेअर, डिव्हाईसेस यांना निधी कोण देणार, छोट्या भाषांसाठी ही गुंतवणूक करण्यासाठी खासगी कंपन्या पुढे येतील का? भाषिणी, अनुवादिनी उपक्रमांच्या माध्यमातून भारत सरकारने देशातील 20 भाषांसाठी बहुभाषिक डेटासेट आणि पूर्व-प्रशिक्षित मॉडेल्स उपलब्ध करून दिले आहेत, ज्यांमध्ये कोंकणी भाषेचाही समावेश आहे. त्यामुळे तो पाया वापरून तांत्रिकदृष्ट्या सुधारणा करणे शक्य आहे आणि परवडणारेही आहे. इतर लहान लोकसंख्येच्या भाषांसाठीही नवीन प्रयोग आणि नवकल्पना निर्मितीसाठी संगणक तज्ज्ञांना आर्थिक पाठबळ देणे, ही सरकारची जबाबदारी आहे.
ज्या भाषांमध्ये सध्या लिपी नाही किंवा कोंकणीसारख्या अनेक लिपी आहेत, अशा भाषांमध्ये बहु-लिपिकत्वामुळे निर्माण होणारे अडथळे आणि भेद दूर करण्यासाठी तंत्रज्ञानाचा कसा आधार घेता येईल? यावर संशोधन होणे आवश्यक आहे. सुदैवाने, देवनागरी, कन्नड, मल्याळम आणि रोमन लिपी युनिकोड प्रणालीशी जोडल्या गेल्या आहेत. त्यामुळे एकदा आपण मानकीकरणाचे नियम विकसित केले की चारही लिपींमध्ये समतुल्य मजकूर तयार करता येईल आणि एक बटण दाबून एका लिपीतून दुसऱ्या लिपीत जाणे शक्य होईल. इतर लहान भाषा लवकरात लवकर युनिकोड प्रणालीशी जोडल्या गेल्या पाहिजेत आणि युनिकोड फॉन्टचा वापर त्यांना अनिवार्य केला पाहिजे.
दोन आघाड्यांवर काम
जेव्हा आपण कोणत्याही भाषेच्या संवर्धनाबद्दल बोलतो तेव्हा ते केवळ भाषेबद्दल बोलत नाही. भाषेचे संवर्धन म्हणजे पिढ्यान्पिढ्या चालत आलेले ज्ञान, परंपरा, वारसा, चालीरीती आणि संस्कृतीचे जतन करणे. म्हणूनच एखाद्या भाषेत मग ती कितीही लहान का असेना, तिच्यातील पारंपरिक ज्ञान (टी.के.) जतन केले जाईल याची खात्री करावी लागेल. कदाचित या टी.के.मध्ये आजच्या अनेक समस्या सोडवण्याचे सामर्थ्य असेल. एनईपी यालाच ‘भारतीय ज्ञान प्रणाली’- आय.के.एस. असे संबोधते. एकीकडे आपण टी.के.चे रक्षण व दस्तावेजीकरण केले पाहिजे, तर दुसरीकडे जगातील आधुनिक विज्ञान आणि तंत्रज्ञानाला आपल्या देशातील लहानात लहान भाषेत आणले पाहिजे. अशा प्रकारे आपल्याला दुहेरी प्रयत्न करावे लागतील. म्हणूनच याला परंपरा आणि तंत्रज्ञान यांचा मिलाफ म्हटले गेले आहे.
कोणत्याही परिस्थितीत भाषिक (आणि लिपी) विविधता ही आपल्या देशाची मर्यादा ठरू नये. इतिहासात ती तशी कधीही नव्हती. उलट ती आपल्यातील संवाद आणि परस्पर संबंध निर्माण करणारी एक वैभवशाली परंपरा ठरावी. मानवाने शोधून काढलेल्या कृत्रिम बुद्धिमत्तेच्या (एआय) आधारे भाषांतराद्वारे आपल्याला राष्ट्रीय एकात्मतेचे ध्येय साध्य करायचे आहे.
(या लेखातील तांत्रिक तपशील माननीय दीपक चोडणकर, व्यंकटेश प्रभू, प्रा. डॉ. ज्योती पवार आणि कपिला देसाई इ. संगणक तज्ज्ञांनी पुरवले आहेत).