কম্পিউটার বিজ্ঞানের জগতে অত্যন্ত সম্মানজনক ‘এ.এম. টুরিং অ্যাওয়ার্ড’ (A.M. Turing Award) জিতলেন দুই অগ্রণী গবেষক। এই পুরস্কারটিকে প্রায়শই কম্পিউটার বিজ্ঞান ও প্রযুক্তির ‘নোবেল পুরস্কার’ হিসেবে গণ্য করা হয়। পুরস্কার বিজয়ী এই দুই জন হলেন অ্যান্ড্রু বার্টো (Andrew Barto) এবং রিচার্ড সাটন (Richard Sutton)। কৃত্রিম বুদ্ধিমত্তা বা আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) এর জগতে, বিশেষ করে ‘রিইনফোর্সমেন্ট লার্নিং’ (Reinforcement Learning) নামক একটি পদ্ধতির বিকাশে তাদের অসামান্য অবদানের স্বীকৃতিস্বরূপ এই পুরস্কার দেওয়া হয়েছে।
১৯৭০ দশকের শেষ দিকে বার্টো এবং সাটনের এই গবেষণা শুরু হয়েছিল। তাদের উদ্ভাবিত কৌশলগুলো বিগত এক দশকের এআই-এর উল্লেখযোগ্য অগ্রগতিতে গুরুত্বপূর্ণ ভূমিকা রেখেছে। তাদের মূল কাজ ছিল এমন ‘হেডোনিক’ (Hedonic) যন্ত্র তৈরি করা, যা ইতিবাচক সংকেতের মাধ্যমে নিজেদের আচরণ ক্রমাগতভাবে পরিবর্তন করতে পারে। অনেকটা প্রশিক্ষণপ্রাপ্ত পশুদের মতো, এআইও তার কাজের ফল থেকে শিখে এবং সেই অনুযায়ী নিজেকে উন্নত করে।
গবেষকদের এই পদ্ধতি ব্যবহার করে, গুগলের একটি কম্পিউটার প্রোগ্রাম ২০১৬ ও ২০১৭ সালে বিশ্বের সেরা মানব খেলোয়াড়দের হারিয়ে ‘গো’ (Go) নামক একটি জটিল চীনা বোর্ড গেম-এ জয়লাভ করে। এছাড়াও, জনপ্রিয় এআই সরঞ্জাম যেমন চ্যাটজিপিটি (ChatGPT)-এর উন্নতি, আর্থিক লেনদেনকে আরও কার্যকর করা এবং একটি রোবোটিক হাতকে রুবিকস কিউব (Rubik’s Cube) সমাধান করতে সহায়তা করার ক্ষেত্রেও এই প্রযুক্তির ব্যবহার হয়েছে।
তবে, বার্টো জানিয়েছেন, যখন তিনি এবং তার ডক্টরাল ছাত্র সাটন ম্যাসাচুসেটস অ্যামহার্স্ট বিশ্ববিদ্যালয়ে তাদের তত্ত্ব ও অ্যালগরিদম তৈরি করা শুরু করেন, তখন এই ক্ষেত্রটি তেমন পরিচিত ছিল না। তিনি আরও বলেন, “তখন আমরা একরকম প্রান্তরে ছিলাম। তাই এই পুরস্কার পাওয়াটা আমাদের জন্য অত্যন্ত আনন্দের। এখন দেখছি, এই বিষয়টি প্রাসঙ্গিক এবং আকর্ষণীয় হিসেবে স্বীকৃতি পাচ্ছে।”
বার্তো বর্তমানে ম্যাসাচুসেটস বিশ্ববিদ্যালয় থেকে অবসর গ্রহণ করেছেন এবং সাটন কানাডার আলবার্টা বিশ্ববিদ্যালয়ের অধ্যাপক হিসেবে কর্মরত আছেন। গুগল এই পুরস্কারের পৃষ্ঠপোষকতা করে থাকে, যার অর্থমূল্য ১ মিলিয়ন মার্কিন ডলার। এই পুরস্কারটি ব্রিটিশ গণিতবিদ, কোড-ভাঙা এবং প্রাথমিক এআই চিন্তাবিদ অ্যালান টুরিং-এর নামে উৎসর্গীকৃত। বার্টো এবং সাটনের গবেষণা সরাসরি টুরিংয়ের সেই বিখ্যাত ধারণাকে সমর্থন করে যেখানে তিনি বলেছিলেন, এমন একটি যন্ত্র তৈরি করতে হবে যা “অভিজ্ঞতা থেকে শিখতে পারে”। সাটনের মতে, ‘রিইনফোর্সমেন্ট লার্নিং’-এর এটিই সম্ভবত সবচেয়ে গুরুত্বপূর্ণ ধারণা।
বিশেষ করে, তারা মনোবিজ্ঞান এবং স্নায়ুবিজ্ঞান থেকে ধারণা নিয়েছিলেন যে, কীভাবে আনন্দ-অনুসন্ধানী নিউরনগুলো পুরস্কার বা শাস্তির প্রতি সাড়া দেয়। ১৯৮০-এর দশকের গোড়ার দিকে প্রকাশিত একটি গুরুত্বপূর্ণ গবেষণাপত্রে, বার্টো এবং সাটন একটি সিমুলেটেড বিশ্বে একটি নির্দিষ্ট কাজের ওপর তাদের নতুন পদ্ধতির প্রয়োগ করেন: একটি চলমান গাড়ির ওপর একটি দণ্ডকে ভারসাম্য বজায় রাখা, যাতে সেটি পড়ে না যায়। পরবর্তীতে, এই দুই কম্পিউটার বিজ্ঞানী ‘রিইনফোর্সমেন্ট লার্নিং’-এর ওপর একটি বহুল ব্যবহৃত পাঠ্যপুস্তক রচনা করেন।
গুগলের প্রধান বিজ্ঞানী জেফ ডিন এক লিখিত বিবৃতিতে বলেছেন, “তাঁদের তৈরি করা সরঞ্জামগুলো এআই-এর অগ্রগতির একটি প্রধান স্তম্ভ হয়ে আছে এবং এটি গুরুত্বপূর্ণ উন্নতি এনেছে, তরুণ গবেষকদের আকৃষ্ট করেছে এবং কোটি কোটি ডলার বিনিয়োগের পথ খুলে দিয়েছে।”
বার্টো এবং সাটন এআই-এর ঝুঁকি এবং ভবিষ্যৎ নিয়ে তাদের নিজস্ব মতামত দিয়েছেন। তারা তাদের কাজকে বর্তমানে জনপ্রিয় জেনারেটিভ এআই প্রযুক্তির (যেমন, ওপেনএআই, গুগল এবং অন্যান্য প্রযুক্তি জায়ান্টদের তৈরি করা চ্যাটবট, যা মানুষের লেখার অনুকরণ করে) থেকে আলাদা করেছেন। সাটনের মতে, “এখানে প্রধান পছন্দ হলো, আপনি কি মানুষের ডেটা থেকে শিখবেন, নাকি একটি এআই এজেন্টের নিজস্ব জীবন ও অভিজ্ঞতা থেকে শিখবেন?”
সাটন এআই-এর মানবজাতির প্রতি হুমকি নিয়ে অতি-আলোচিত উদ্বেগকে খারিজ করে দিয়েছেন। অন্যদিকে, বার্টো ভিন্নমত পোষণ করে বলেছেন, “সম্ভাব্য অপ্রত্যাশিত পরিণতি সম্পর্কে সচেতন থাকতে হবে।” বার্টো নিজেকে একজন ‘লুড্ডাইট’ (Luddite) হিসেবে বর্ণনা করেন। অন্যদিকে, সাটন এমন একটি ভবিষ্যৎকে স্বাগত জানান, যেখানে মানুষের চেয়ে বেশি বুদ্ধিমত্তাসম্পন্ন সত্তা থাকবে—এই ধারণাটি ‘পোস্টহিউম্যানিজম’ (posthumanism) নামে পরিচিত।
সাটনের মতে, “মানুষ এক অত্যাশ্চর্য যন্ত্র। তবে তারা চূড়ান্ত পণ্য নয় এবং আরও ভালো কাজ করতে পারে। আমরা সম্ভবত তেমন কিছু হওয়ার চেষ্টা করছি।” তিনি আরও যোগ করেন, “এটি এআই-এর একটি অবিচ্ছেদ্য অংশ। আমরা নিজেদের বুঝতে চেষ্টা করছি এবং অবশ্যই এমন জিনিস তৈরি করতে চাই যা আরও ভালো কাজ করতে পারে।”
তথ্য সূত্র: অ্যাসোসিয়েটেড প্রেস