
સુમન શાહ
ગુજરાતી ભાષા માટે ડેટાબેઝ ઊભો કરવાનું મુશ્કેલ નથી તેમ એને ચોખ્ખો કરવાનું પણ અસંભવિત નથી.
ડેટા કલેક્ટ ક્યાંથી થાય? ગુજરાતી ટૅક્સ્ટ્સથી. ટૅક્સ્ટ્સનાં સ્થાનો કયાં? સાહિત્યકારોનાં પુસ્તકો, અન્ય વિષયના વિદ્વાનોએ ગુજરાતીમાં લખેલાં પુસ્તકો, ધ્વનિમુદ્રિત થયેલાં વ્યાખ્યાનો કે વાર્તાલાપો, દૃશ્યશ્રાવ્ય વીડિયોઝ, ગુજરાતી નાટકો ફિલ્મો ટી.વી. સીરિયલો વગરે વગેરે અનેક સ્થાનોથી ડેટા કલેક્શન કરી શકાય. એમાં વર્તમાનપત્રો, વેબસાઈટ્સ, અને ફેસબુક વગેરે સોશ્યલ મીડિયાને પણ મહત્ત્વનાં સ્થાનો ગણવાં જોઈશે; એ સ્થાનોનું તો ભૂલો બાબતે પણ મહત્ત્વ વધી જાય છે.
એમ ડેટા કલેક્ટ થઈ જાય તે પછી તેને ચોખ્ખો કે સ્વચ્છ કે શુદ્ધ કરવાનો પ્રસંગ આવે એ સમજાય એવું છે. તે પછીનું કદમ છે, to build a AI model. એ કામ નિષ્ણાતોએ કરવાનું હોય છે. એ થાય પછી ડેટામાં રહેલી પૅટર્ન્સને પામવા માટે તેમ જ નવો ડેટા ઉમેરવા માટે એ મૉડેલનો વિનિયોગ કરી શકાય. એ મૉડેલનો ટેસ્ટ લેવો, ટૅક્નોલૉજિની રીતે એનું મૂલ્યાંકન કરવું કે એ કેટલું કાર્યદક્ષ અને કેટલું ભરોસાપાત્ર છે, વગેરે. તે પછી જ એ મૉડેલને પ્રજાજોગા ઉપયોગો માટે deploy કરી શકાય, એટલે કે, એક સજ્જ સૈનિકની જેમ એને બજાર નામના મેદાનમાં ઉતારી શકાય. વગેરે કામો પણ નિષ્ણાતોનાં છે.
આપણે કરી શકીએ તે કામ આ છે : ધ્યાનપાત્ર વાત એ છે કે આપણે જે જે સ્થાનેથી ડેટા મેળવ્યો અને સાફ દાનતથી ‘એ.આઈ.’-ને તે માટે મદદ કરી, એ ખરું, પણ એ ડેટા ચોખ્ખો તો હોય નહીં ! સ્પષ્ટ છે કે એમાં જોડણી અને વ્યાકરણની ભૂલો તેમ જ બીજી વિસંગતિઓ જેવો કચરો હોય. આપણે એને પારખીને દૂર કરવો પડે. સાહિત્યકારોએ કે અન્ય વિદ્વાનોએ જે અને જ્યાં ચીવટ દાખવી હોય એ અને એટલી જ જગ્યાઓ ચોખ્ખી હોય એ કહેવાની જરૂરત નથી રહેતી.
ગુજરાતી ભાષાનો આપણે કલેક્ટ કરેલો ડેટા પૂર્વગ્રદુષ્ટ ન જ હોવો જોઈએ. એ ડેટામાં ભૂલો કે અવાજો ઘૂસી ગયાં હોય તે ન ચાલે, એ પ્રકારે એને ઉચ્ચ ગુણવત્તાયુક્ત બનાવવો જોઈશે. ડેટાકલેક્શન માટે જે તે ધણીની સમ્મતિ કૉપિસાઈટની સુરક્ષા માટે મેળવવી રહેશે, પણ એ પછી પણ ડેટા સંદર્ભે જોડાઈ ગયેલી વ્યક્તિઓની અંગતતા જાળવવી જોઈશે, અને એ માટે ડેટાને સલામત પ્રકારે સ્ટોર કરવો જોઈશે.
એ પણ સમજી લેવું પડશે કે ચોખ્ખું કોને ગણીએ છીએ. બહુસમ્મતિ પામેલો કોઇ એક જોડણીકોશ અને એવો જ કોઈ એક વ્યાકરણગ્રન્થ ભાષિક ચોખ્ખાઈના મૂળાધાર ગણાય. પરન્તુ આપણી પાસે કયો જોડણીકોશ અને વ્યાકરણગ્રન્થ આદર્શ મૂળાધાર બની શકે એમ છે એની ચર્ચામાં વિદ્વત્તાનો ખર્ચ કરવાની જરૂર નથી; જરૂર એ છે કે ભાષિક ચોખ્ખાઈ બાબતે જોડણી અને વ્યાકરણ એ બે બાબતે માત્ર બહુસમ્મતિ સાધીએ.
બહુસમ્મતિ ઊભી કરવાના મુદ્દે મને પૂર્વસૂરિઓ યાદ આવે છે : ગુજરાતી જોડણી સરખી કરવા માટેના પુરુષાર્થીઓમાં નર્મદ, ભગવદ્ ગોમંડળ, ગાંધીજી. અને વ્યાકરણ લખવા માટેના પુરુષાર્થીઓમાં “શબ્દચિંતામણિ”-ના કર્તા લગી પાછળ ન જઈએ છતાં એ પછી અનેક વિદ્વાનોએ ગુજરાતી ભાષાના વ્યાકરણનો વિચાર કર્યો છે તે સૌના વિદ્યાકીય ઉદ્યમને ધ્યાનમાં લઈએ, અને અર્વાચીનોમાં કાર્ડોના, હરિવલ્લ્ભ ભાયાણી અને ઊર્મિ દેસાઈએ લખેલાં વ્યાકરણોનો બહુસમ્મતિ માટે કશી શંકા વિના ભરપૂર વિનિયોગ કરીએ.
એવા મૂળાધારની ભૂમિકાએ તૈયાર થયેલો ડેટાસૅટ ‘એ.આઈ.’-નો સંવિભાગ બને એ પહેલાં, આપણા વિદ્વાનોએ એને ચોખ્ખો કરવો પડશે. તેઓ જોડણી, વાક્યરચનાઓ અને વિરામચિહ્નોની ભૂલો સુધારી દેશે, અન્ય વિસંગતિઓ પણ દૂર કરી દેશે. એ પછી જ આપણે એને ’એ.આઈ.’-ને આપીશું કેમ કે ‘એ.આઈ.’ એને જ પ્રોટોટાઇપ ગણીને, પ્રાથમિક પણ આગળના વિકાસ માટે આદર્શ ગણીને, ચાલશે. તાત્પર્ય એ કે તો જ એને ખરાખોટાની તુલના કરવાનું સૂઝે, તો જ એ પોતાને મળેલા ડેટાને સ્વચ્છ કરી શકે.
આમાં મશીન લર્નિન્ગ ઑલ્ગોરીધમ્સની મદદ મળી શકે. ડેટાને એ આપમેળે સ્વચ્છ કરી શકે, પણ તે માટે ય ઑલ્ગોરીધમને તાલીમ આપવી પડશે, એ તાલીમ માટે ય ઘણા મોટા કદના સ્વચ્છ ડેટાની જરૂર પડશે. એ ડેટા પણ આપણે જ પૂરો પાડવો પડશે.
ડેટાને ચોખ્ખો કર્યા પછી એમાં annotations ઉમેરવાં જરૂરી બને છે. એ પણ આપણે કરવાનું કામ છે. એનોટેશન્સ એટલે ઉપકારક નૉંધો, સ્પષ્ટીકરણો, ખુલાસા કે ડાયાગ્રામ્સ. એટલું જ નહીં, ટૅગ્સ કે લેબલ્સ જેવી સામાન્ય પણ ઉપકારક જોગવાઈઓ ય કરવી પડશે.
અલબત્ત, આપણે વિદ્વાનો શોધી કાઢીએ, તેઓ આ સ્વચ્છતા-અભિયાનમાં જોડાય, વગેરે વ્યવહારુ બાબતોમાં ઘણાં સંકટનો સામનો કરવો પડશે, ધન અને સમયનો ખર્ચ પણ કરવો પડશે. પણ આ કામ ગુજરાતી ભાષા અને તેથી ભવિષ્યમાં રચાનારા તમામ ભાષિક વ્યવહારો માટે, સાહિત્યસર્જન / લેખન માટે અને સાહિત્યઅધ્યયન / સંશોધન તેમ જ સાહિત્યકલાના અધ્યાપન માટે અનિવાર્ય છે.
અન્યથા, આપણે આપણને એ જ ચીલે થઈને એ જ મુકામે લઈ જતી ખખડધજ ઘોડાગાડીના ચાલક અને અસવાર ગણીને મિથ્યાભિમાનમાં રાચવાના દિવસો આવશે. કરુણ મજા તો એ હશે કે આપણા સિવાય કોઈને ય આ ગતિ-દુર્ગતિની જાણ નહીં થઈ હોય, આઈ મીન, આપણને ઉગારી લેનાર કોઈ હશે નહીં.
આ ક્ષણે મને આપણા પક્ષે રહેલું આ કામ કશો જંગ જીતવા જેવું મુશ્કેલ જરૂર લાગે છે પણ અસંભવિત નથી લાગતું. છતાં, એ કામ કોઈ મહા યજ્ઞ કરવા સમું પવિત્ર છે. એ માટે સુજ્ઞજનોએ દાઝથી એકઠા થવું પડશે અને સંસ્થાઓએ એમને એકઠા કરવા જોઈશે, અને એ માટે સંસ્થાઓએ પણ એકઠા થવું જોઈશે.
ગુજરાતી સાહિત્ય પરિષદ, અમદાવાદ
ગુજરાત સાહિત્ય અકાદમી, ગાંધીનગર
હું ગુજરાતની પીઢ યુનિવર્સિટીઓના ગુજરાતી વિભાગના અધ્યક્ષોને કહું કે આ ઇસ્યુ વિશે ચિન્તન કરે અને આ યજ્ઞમાં સહભાગી થઈને પોતાના અધીતની આહુતિ આપે.
હું ગુજરાતી સાહિત્ય પરિષદના અને ગુજરાત સાહિત્ય અકાદમી તેમ જ કેન્દ્રીય સાહિત્ય અકાદમીના સૌ પદાધિકારીઓને માન આપીને વિનવું છું કે આ કામ માટે આયોજનો શરૂ કરે અને તે માટેના ઉપક્રમો રચીને કાર્યક્રમો કરવા માંડે.
પ્રકાશ ન. શાહને તેમ જ ભાગ્યેશ જ્હાને, તેઓ મારા મિત્ર છે એ દાવે, વિનન્તી કરું કે આ અતિ આવશ્યક યજ્ઞનો કોઈ ને કોઈ સ્વરૂપે પ્રારમ્ભ કરે.
= = =
(09/21/23 : USA)
સૌજન્ય : સુમનભાઈ શાહની ફેઇસબૂક દીવાલેથી સાદર