આ પહેલાના લેખમાં મેં જણાવ્યું હતું કે ‘એ.આઈ.’ આપમૅળે ડેટા કલેક્ટ કરી શકે છે, આજે એ જણાવું કે ‘એ.આઈ.’-નો ડેટા ચોખ્ખો થઈ શકે છે; એની જોગવાઈ અનેકશ: થયેલી છે.
પણ ડેટાકલેક્શન વિશે કેટલીક ધ્યાનપાત્ર વાતો ઉમેરી લઉં : ડેટા ‘એ.આઈ.’ આપમૅળે કરી શકે છે છતાં એમાં માણસનો અમુક સહયોગ જરૂરી છે. સહયોગ બે બાબતે જરૂરી છે : ૧ : ‘એ.આઈ.’ ડેટાકલેક્શન માટે વાપરી શકે એવાં માણસે એને ઑલ્ગોરીધમ્સ સરજી આપવાં જોઈશે : ૨ : ‘એ.આઈ.’ પોતાનાં મૉડેલ્સને તાલીમ આપી શકે એ માટે માણસે એને અન્ય ડેટા પણ આપવો જોઈશે.
સંભવ છે કે માણસના આ સહયોગનું દુષ્પરિણામ આવે. કેમ.કે એ પ્રાણી જ્યાં જ્યાં જાય છે ત્યાં ત્યાં પોતાનું પોત પ્રકાશ્યા વિના જંપતું નથી. માણસે દાખવેલો સહયોગ પૂર્વગ્રહદુષ્ટ હશે તો ‘એ.આઈ.’ આપોઆપ પૂર્વગ્રહદુષ્ટ થઈ જશે. દાખલા તરીકે, એને અમુક વર્ગના લોકોના ફોટોઝનો ડેટાસૅટ અર્પાયો હોય, તો ‘એ.આઈ.’ એ વર્ગના લોકોને જ ઓળખશે. ટૂંકમાં, માણસે એને જે ચશ્માં પ્હૅરાવ્યાં હશે એથી જે દેખાય તે જ જોશે.
એટલે, કેટલીક સાવધાની રાખવી જરૂરી છે : પહેલું એ કે ’એ.આઈ.’ જે ડેટા કલેક્ટ કરે તે પૂર્વગ્રદુષ્ટ ન જ હોવો જોઈશે. બીજું એ કે ડેટા ઉચ્ચ ગુણવત્તાવાળો હોવો જોઈશે, એમાં ભૂલો કે અવાજો ઘૂસી ગયાં હોય તે ન ચાલે. ત્રીજું એ કે ડેટાકલેક્શન માટે લોકોની સમ્મતિ માગવામાં આવી હોય કે ન આવી હોય, તોપણ બધી જ ‘એ.આઈ.’ સિસ્ટમ્સે લોકોની અંગતતા જાળવવી જોઈશે, અને એ માટે ડેટાને સલામત પ્રકારે સ્ટોર કરવો જોઈશે.
++
‘એ.આઈ.’-માં મુકાયેલો ડેટા ચોખ્ખો ન હોય તો થઈ શકે છે, અને એમાં મનુષ્યની સહાયની જરૂર નથી પડતી.
જેમ કે, નેચરલ લૅન્ગ્વેજ પ્રોસેસિન્ગનાં ઑલ્ગોરીધમ્સનો વિનિયોગ થાય એટલે ભાષિક ટૅક્સ્ટના અર્થની ભૂલો, જોડણી અને વ્યાકરણની કે વિરામચિહ્નોની ભૂલો, વગેરે જાણવું અને એ બધું સુધારવું, આપોઆપ થઈ જતું હોય છે. નેચરલ લૅન્ગ્વેજ પ્રોસેસિન્ગનાં ઑલ્ગોરીધમ્સનો વેપારમાં પણ ઉપયોગ થતો હોય છે. એ ઑલ્ગોરીધમ્સથી એવું મૉડેલ વિકસાવી શકાય છે જે ઉત્પાદનો વિશેના ગ્રાહકોના કે નિષ્ણાતોના રીવ્યુઝમાંથી માહિતી આપમૅળે ખૅંચી શકે છે.
જેમ કે, ડેટા-વૅલિડેશનના નિયમો પકડી શકે છે કે ડેટા ચૉક્કસ માનદણ્ડ અનુસારનો છે કે કેમ. ન હોય તો બદલી કે હટાવી દે છે. એ નિયમોનો વેપારમાં પણ ઉપયોગ થતો હોય છે. એ નિયમોથી નક્કી થાય કે ગ્રાહકસમ્બન્ધી બધો ડેટા સુસંગત ફૉરમેટમાં છે કે નહીં.
જેમ કે, મશીન લર્નિન્ગ ઑલ્ગોરીધમ્સને અપાયેલી તાલીમથી ડેટામાં રહેલી ‘ટાઇપો’ અને કેટલીક વિસંગતિઓ વગેરે ભૂલચૂકો પકડાઈ જાય છે અને એ બધું સુધરી શકે છે. એ ઑલ્ગોરીધમ્સનો વેપારમાં પણ ઉપયોગ થાય છે. એ ઑલ્ગોરીધમ્સથી એવું મૉડેલ વિકસાવી શકાય છે જે ગ્રાહકોનાં નામોમાં થયેલી ‘ટાઇપો’ (ટાઇપ કરતાં થયેલી ભૂલો) શોધીને એ ભૂલોને સુધારી લે.
આ સંદર્ભમાં missing values-ને પકડી પાડવી બહુ જરૂરી મનાય છે. મિસિન્ગ વેલ્યુઝ ડેટાસાયન્સમાં એક કૉમન પ્રૉબ્લેમ ગણાય છે. જરા સમજીએ :
ડેટા-ઍન્ટ્રીમાં માણસે ભૂલો કરી હોય, કશા ટૅક્નિકલ ઇસ્યુઝ સરજાયા હોય, ક્યારેક ડેટા પ્રયોજાયો હોય અમુક આશયથી અને પરિણામ આપે સાવ જુદું, વગેરેને ડેટા-પૉઇન્ટ્સ કહેવાય છે અને તેનું બીજું નામ મિસિન્ગ વૅલ્યુઝ છે. ડેટા-વિશ્લેષણ માટે એ પ્રૉબ્લેમ બની જાય છે. જો મિસિન્ગ વૅલ્યુઝ ઘણી વધારે હશે, તો દેખીતું છે કે, નિરધારેલાં ચૉક્કસ પરિણામો નહીં આપી શકે. અલબત્ત, આ પ્રૉબ્લેમને દૂર કરવા માટેના રસ્તા, મશીન લર્નિન્ગ વગેરે, ‘એ.આઈ.’ પાસે છે જ !
જેનો આપણે રોજ બ રોજ ઉપયોગ કરીએ છીએ એ આપણી આસપાસની કમ્પનીઓ ‘એ.આઈ.’-સંસૃજિત ભૂલસુધારથી જ પ્રગતિ કહેતાં પોતાનો વકરો અને નફો વધારી શકે છે.
જેમ કે, ‘ગૂગલ’ પોતાના સર્ચ ઍન્જિનમાંથી ડેટાને ચોખ્ખો કરવા માટે ‘એ.આઈ.’-નો વિનિયોગ કરે છે. પરિણામમાં એને પાનાંનાં પાનાં મળે છે. એથી ‘ટાઇપો’ તો સુધરે જ છે પણ પરિણામો જો બેવડાં મળ્યાં હોય તો તે પણ સુધરી જાય છે. ઉપરાન્ત, એ પરિણામો વપરાશકારોએ કરેલી પૂછપરછોની મહત્તાના ક્રમમાં ગોઠવાઈ જાય છે.
જેમ કે, ‘ઍમેઝોન’ પોતાના પ્રોડક્ટ કૅટલોગમાંથી ડેટાને ચોખ્ખો કરવા ‘એ.આઈ.’-ને પ્રયોજે છે. એથી ઉત્પાદનોનાં વર્ણનમાં થયેલી ભૂલો, ચિત્રો અને કિમ્મતો દર્શાવવામાં થયેલી ભૂલો પકડાય છે, ને સુધરે છે.
જેમ કે, ‘નેટફ્લિક્સ’-નો ડેટા દર્શકે જોયેલાં ટી.વી.-શોઝનો અને મૂવિઝનો ઇતિહાસ જાળવે છે, અને દર્શકોને ભલામણ મોકલે છે કે આ જુઓ, તમારાં રસરુચિ અનુસારનું છે, મજા પડશે.
આ ‘એ.આઈ.’-પદ્ધતિઓને રમૂજમાં ‘ડેટા-સાયન્ટિસ્ટ્સ’ કહેવાય છે. સ્વચ્છતા ઊભી કરવા જતાં એ ભૂલો પણ કરે છે. તેમછતાં, નૉંધપાત્ર હકીકત એ છે કે ‘એ.આઈ.’-ને કારણે અને પરિણામે ઘણી બધી માનવશક્તિ બચી જાય છે.
અરે, ‘એ.આઈ.’ તો સંકુલ અને વિશાળકાય ડેટાને સ્વચ્છ કરી આપી શકે, જે મનુષ્યને અતિ શ્રમ કરાવે, બલકે મનુષ્ય માટે લગભગ અશક્ય હોય !
= = =
(09/20/23 : USA)
સૌજન્ય : સુમનભાઈ શાહની ફેઇસબૂક દીવાલેથી સાદર