উইকিপিডিয়াতে ইংরেজি ভাষায় আছে প্রায় ছয় মিলিয়ন নিবন্ধ, অন্যদিকে কন্নড় ভাষায় আছে মাত্র ৩০ হাজারের মতো। এ কারণে কৃত্রিম বুদ্ধিমত্তার বিভিন্ন চ্যাটবট বা চ্যাটজিপিটি ইংরেজি ভাষায় যত দ্রুত গুছিয়ে উত্তর দিতে পারে; তত দ্রুত বাংলা, কন্নড় বা অন্যান্য ভাষায় পারে না। কারণ চ্যাটজিপিটি বা অন্যান্য এআই প্রযুক্তি অনলাইনে থাকা বিভিন্ন নিবন্ধ বা ওয়েবসাইটে থাকা তথ্য ঘেঁটে উত্তর দিয়ে থাকে। তথ্য বা ডাটার আধিক্য থাকার কারণে এআই সবচেয়ে সক্রিয়ভাবে ইংরেজি ভাষা শিখতে পারে।
তবে দ্রুত বিকাশমান ও ক্ষুদ্র গোষ্ঠীগুলোর ভাষার কোটি কোটি পাঠক থাকে অনলাইনে, যারা ইংরেজিতে স্বাচ্ছন্দ্য বোধ করে না, মূলত তাদের জন্য মাইক্রোসফট, গুগল ও অন্যান্য টেক জায়ান্টরা লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএমএস)-এর কাজ শুরু করেছে। এই মডেলে সব ভাষার যথেষ্ট তথ্য থাকবে এবং এআই বট নিজের ইচ্ছামতো সেসব তথ্য প্রয়োজনে ব্যবহার করতে পারবে।
বিভিন্ন দেশের ভাষাভাষীদের সহযোগিতা ছাড়া পৃথিবীর কয়েক হাজার ভাষাকে কৃত্রিম বুদ্ধিমত্তার উপযোগী করে গড়ে তোলা বেশ কঠিন ও সময়সাপেক্ষ। তবে একটি ভারতীয় প্রতিষ্ঠান ‘কারিয়া’ বিভিন্ন ভাষাকে লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএমএস)-এর অন্তর্ভুক্ত করতে কাজ চালিয়ে যাচ্ছে।
ওড়িশার পুরী জেলার রঘুরাজপুরের বেশির ভাগ বাসিন্দা যেখানে মাসে ১২ ডলারের কম আয় করে, সেখানে সপ্তাহে ৬০ ডলার আয়ের একটি সুযোগ পেলে কেমন হয়? আর সেটা করে দেখিয়েছে ভারতের একটি ডাটা কম্পানি ‘কারিয়া’।
‘কারিয়া’র প্রতিষ্ঠাতা মনু চোপড়া। ১৯৯৬ সালে ভারতের এক দরিদ্র পরিবারে জন্ম নিলেও মনু বৃত্তি নিয়ে যুক্তরাষ্ট্রের স্ট্যানফোর্ড বিশ্ববিদ্যালয় থেকে পড়াশোনা করে নিজ দেশে ফিরে আসেন। গ্রামের তরুণদের নিয়ে মুঠোফোনের সাহায্যেই শুরু করেন তাঁর কাজ।
মনুর কর্মীদের মুঠোফোনের সাহায্যে করা কাজটিকে টাইম ম্যাগাজিন ‘দারিদ্র্য বিমোচনে চ্যাটজিপিটি’ হিসেবে তুলে ধরে।
২০২১ সালে ভারতে বেঙ্গালুরুতে প্রতিষ্ঠিত হয় ‘কারিয়া’। এরই মধ্যে প্রতিষ্ঠানটির কার্যক্রম ভারতের ২২টি রাজ্যের ১০০টি জেলায় বিস্তার লাভ করেছে। বর্তমানে কন্নড়ের বিভিন্ন উপভাষায় অডিও রেকর্ড সংগ্রহ করে একটি এআই স্পিচ মডেলকে প্রশিক্ষিত করেছে তারা। আগে করা তাদের যক্ষ্মা সম্পর্কে প্রশ্নোত্তরের এআই মডেল বেশ সাড়া ফেলেছিল।
এসব অডিও রেকর্ড এবং ভাষার তথ্যভাণ্ডার বিভিন্ন প্রযুক্তি প্রতিষ্ঠানের কাছে বিক্রি করেই মূলত স্বেচ্ছাসেবীদের মুনাফা দিয়ে থাকেন মনু।
একটি ডাটা একাধিক প্রতিষ্ঠানের কাছেও বিক্রি করা হয়, যতবার বিক্রি হয়, ততবার ডাটাকর্মীরা লাভের অংশ পান। চলতি বছরের ফেব্রুয়ারিতে বিল অ্যান্ড মেলিন্ডা গেটস ফাউন্ডেশন যুক্ত হয় ‘কারিয়াএআই’-এর সঙ্গে। তখন থেকেই মারাঠি, তেলুগু, হিন্দি, বাংলা ও মালয়ালাম ভাষার চ্যাটবট তৈরির জন্য বিভিন্ন তথ্যবহুল ও শিক্ষামূলক অডিও সংগ্রহ করছে তারা। মাইক্রোসফট, এমআইটি আর স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের মতো বড় বড় প্রতিষ্ঠানও যুক্ত হয়েছে ‘কারিয়াএআই’-এর সঙ্গে।
মাত্র তিন বছরে প্রায় ৩০০০০ গ্রামীণ ভারতীয় কাজ করেছেন ‘কারিয়া’র সঙ্গে। এরই মধ্যে ভারতের ১২টি ভাষায় চার কোটি টাস্ক শেষ করতে পেরেছে মনুর দল, যেখানে ছিল বিভিন্ন বক্তৃতা, ছবি ও ভিডিও ধারণ করা। এসব লেবেলিং করে টিকা সংযুক্তও করেছে তারা। ‘কারিয়া’ প্রতি ঘণ্টায় তার সঙ্গে কাজের জন্য পাঁচ ডলার অফার করে, যেটা ভারতের যেকোনো গ্রামীণ জনপদে দৈনিক কাজের মজুরির ২০ গুণের বেশি।