চাইনিজ এআই স্টার্ট-আপ পশ্চিমা বুদবুদগুলিকে বিস্ফোরিত করেছে যে টপ-এন্ড বড় ভাষার মডেলগুলি বিকাশ করতে কত খরচ করা উচিত
অত্যাধুনিক কৃত্রিম বুদ্ধিমত্তা সিস্টেম যেমন OpenAI-এর ChatGPT, Google-এর Gemini এবং Anthropic’s Claude ব্যবহারকারীর প্রম্পটের প্রতিক্রিয়ায় একাধিক ভাষায় সাবলীল পাঠ তৈরি করে জনসাধারণের কল্পনাকে আকৃষ্ট করেছে। এই সংস্থাগুলি আরও শক্তিশালী মডেলগুলি তৈরি করতে তাদের বিনিয়োগ করা বিপুল অর্থের সাথে শিরোনামও দখল করেছে।
চীনের একটি এআই স্টার্টআপ, ডিপসিক, সর্বশেষ এবং সর্বশ্রেষ্ঠ এআই তৈরি করতে কত অর্থের প্রয়োজন তা নিয়ে প্রত্যাশা বিপর্যস্ত করেছে। এই প্রক্রিয়ায়, তারা বড় এআই খেলোয়াড়দের বিলিয়ন ডলার বিনিয়োগের উপর সন্দেহ প্রকাশ করেছে।
আমি মেশিন লার্নিং পড়ি। DeepSeek এর বিঘ্নিত আত্মপ্রকাশ কোন অত্যাশ্চর্য প্রযুক্তিগত অগ্রগতির জন্য নয় বরং দক্ষতা খোঁজা একটি সময়-সম্মানিত অনুশীলনের জন্য নেমে আসে। এমন একটি ক্ষেত্রে যা বিশাল কম্পিউটিং সংস্থান গ্রহণ করে, এটি তাৎপর্যপূর্ণ প্রমাণিত হয়েছে।
যেখানে খরচ হয়
এই ধরনের শক্তিশালী AI সিস্টেমের বিকাশ একটি বড় ভাষা মডেল তৈরির মাধ্যমে শুরু হয়। একটি বৃহৎ ভাষা মডেল পূর্ববর্তী শব্দ প্রদত্ত পরবর্তী শব্দের পূর্বাভাস দেয়। উদাহরণস্বরূপ, যদি একটি বাক্যের শুরু হয় “আলবার্ট দ্বারা আপেক্ষিকতার তত্ত্ব আবিষ্কার করা হয়েছিল”, একটি বড় ভাষা মডেল ভবিষ্যদ্বাণী করতে পারে যে পরবর্তী শব্দটি হল “আইনস্টাইন।” বৃহৎ ভাষার মডেলগুলিকে প্রিট্রেইনিং নামক একটি প্রক্রিয়ায় এই ধরনের ভবিষ্যদ্বাণীতে ভাল হওয়ার জন্য প্রশিক্ষিত করা হয়।
প্রাক-প্রশিক্ষণের জন্য প্রচুর ডেটা এবং কম্পিউটিং শক্তি প্রয়োজন। কোম্পানিগুলি ওয়েব ক্রল করে এবং বই স্ক্যান করে ডেটা সংগ্রহ করে। কম্পিউটিং সাধারণত গ্রাফিক্স প্রসেসিং ইউনিট বা জিপিইউ দ্বারা চালিত হয়।
কেন গ্রাফিক্স? এটি দেখা যাচ্ছে যে কম্পিউটার গ্রাফিক্স এবং কৃত্রিম নিউরাল নেটওয়ার্ক যা বৃহৎ ভাষার মডেলের অধীনে রয়েছে উভয়ই গণিতের একই ক্ষেত্রের উপর নির্ভর করে যা লিনিয়ার বীজগণিত নামে পরিচিত। বৃহৎ ভাষার মডেল অভ্যন্তরীণভাবে শত শত বিলিয়ন সংখ্যা সঞ্চয় করে যার নাম প্যারামিটার বা ওজন। এই ওজনগুলিই প্রাক-প্রশিক্ষণের সময় পরিবর্তিত হয়।
যাইহোক, ChatGPT-এর মতো ভোক্তা পণ্যের জন্য প্রি-ট্রেনিং যথেষ্ট নয়। একটি পূর্বপ্রশিক্ষিত বৃহৎ ভাষার মডেল সাধারণত মানুষের নির্দেশনা অনুসরণে ভাল নয়। এটি মানুষের পছন্দের সাথে সামঞ্জস্যপূর্ণ নাও হতে পারে। উদাহরণস্বরূপ, এটি ক্ষতিকারক বা আপত্তিজনক ভাষা আউটপুট করতে পারে, উভয়ই ওয়েবে পাঠ্যের মধ্যে উপস্থিত রয়েছে৷
প্রাক-প্রশিক্ষিত মডেল, তাই, সাধারণত প্রশিক্ষণের অতিরিক্ত পর্যায়ে যায়। এরকম একটি পর্যায় হল নির্দেশনা টিউনিং যেখানে মডেলটিকে মানুষের নির্দেশাবলী এবং প্রত্যাশিত প্রতিক্রিয়াগুলির উদাহরণ দেখানো হয়।
ইন্সট্রাকশন টিউনিং এর পর মানুষের ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং নামে একটি পর্যায় আসে। এই পর্যায়ে, মানব টীকাকারকে একই প্রম্পটে একাধিক বড় ভাষা মডেল প্রতিক্রিয়া দেখানো হয়। টীকাকারদের তারপর তারা কোন প্রতিক্রিয়া পছন্দ করে তা নির্দেশ করতে বলা হয়।
একটি AI মডেল তৈরি করার সময় কীভাবে খরচ বাড়ে তা দেখা সহজ: উচ্চ-মানের AI প্রতিভা নিয়োগ করা, হাজার হাজার GPU সহ একটি ডেটা সেন্টার তৈরি করা, প্রাক-প্রশিক্ষণের জন্য ডেটা সংগ্রহ করা এবং GPU-তে প্রি-ট্রেনিং চালানো। উপরন্তু, মানুষের প্রতিক্রিয়া পর্যায়গুলি থেকে নির্দেশনা টিউনিং এবং শক্তিবৃদ্ধি শেখার ক্ষেত্রে ডেটা সংগ্রহ এবং গণনার সাথে জড়িত খরচ রয়েছে।
সমস্ত অন্তর্ভুক্ত, একটি অত্যাধুনিক AI মডেল তৈরির খরচ US$100 মিলিয়ন পর্যন্ত বেড়ে যেতে পারে। GPU প্রশিক্ষণ মোট খরচের একটি উল্লেখযোগ্য উপাদান।
মডেল প্রস্তুত হলে ব্যয় বন্ধ হয় না। যখন মডেলটি স্থাপন করা হয় এবং ব্যবহারকারীর অনুরোধে সাড়া দেয়, তখন এটি পরীক্ষার সময় বা অনুমান সময় গণনা হিসাবে পরিচিত আরও গণনা ব্যবহার করে।
টেস্ট টাইম কম্পিউটেও জিপিইউ প্রয়োজন। 2024 সালের ডিসেম্বরে, OpenAI তাদের সর্বশেষ মডেল o1 এর সাথে একটি নতুন ঘটনা ঘোষণা করেছে: পরীক্ষার সময় গণনা বৃদ্ধির সাথে সাথে মডেলটি গণিত অলিম্পিয়াড এবং প্রতিযোগিতামূলক কোডিং সমস্যাগুলির মতো যৌক্তিক যুক্তিযুক্ত কাজগুলিতে আরও ভাল হয়েছে।
সম্পদ খরচ কমানো
এইভাবে মনে হয়েছিল যে বিশ্বের সেরা এআই মডেলগুলি তৈরির পথ ছিল প্রশিক্ষণ এবং অনুমান উভয়ের সময় আরও গণনায় বিনিয়োগ করা। কিন্তু তারপর ডিপসিক ময়দানে প্রবেশ করে এবং এই প্রবণতাকে বক করে।
তাদের V-সিরিজ মডেলগুলি, V3 মডেলের সমাপ্তিতে, প্রশিক্ষণের অত্যাধুনিক AI মডেলগুলিকে উল্লেখযোগ্যভাবে আরও বেশি লাভজনক করতে অপ্টিমাইজেশনের একটি সিরিজ ব্যবহার করেছে। তাদের প্রযুক্তিগত প্রতিবেদনে বলা হয়েছে V3 প্রশিক্ষণের জন্য তাদের $6 মিলিয়ন ডলারেরও কম খরচ হয়েছে।
তারা স্বীকার করে এই খরচের মধ্যে দল নিয়োগ করা, গবেষণা করা, বিভিন্ন ধারণা এবং তথ্য সংগ্রহের খরচ অন্তর্ভুক্ত নয়। কিন্তু $6 মিলিয়ন এখনও এমন একটি মডেলকে প্রশিক্ষণের জন্য একটি চিত্তাকর্ষকভাবে ছোট পরিসংখ্যান যা অনেক বেশি খরচের সাথে উন্নত AI মডেলগুলির প্রতিদ্বন্দ্বী।
একক ম্যাজিক বুলেটের কারণে খরচ কমেনি। এটি মডেলের ওজন উপস্থাপন করতে কম বিট ব্যবহার, নিউরাল নেটওয়ার্ক আর্কিটেকচারে উদ্ভাবন, এবং জিপিইউগুলির মধ্যে ডেটা পাস করার সাথে সাথে যোগাযোগের ওভারহেড হ্রাস করা সহ অনেকগুলি স্মার্ট ইঞ্জিনিয়ারিং পছন্দগুলির সংমিশ্রণ ছিল৷
এটি লক্ষ্য করা আকর্ষণীয় যে চীনের উপর মার্কিন রপ্তানি বিধিনিষেধের কারণে, ডিপসিক টিমের এনভিডিয়া এইচ100-এর মতো উচ্চ-কার্যক্ষমতা সম্পন্ন GPU-তে অ্যাক্সেস ছিল না। পরিবর্তে তারা Nvidia H800 GPU ব্যবহার করেছে, যা Nvidia কম পারফরম্যান্সের জন্য ডিজাইন করেছে যাতে তারা মার্কিন রপ্তানি বিধিনিষেধ মেনে চলে। এই সীমাবদ্ধতার সাথে কাজ করা ডিপসিক দল থেকে আরও বেশি চাতুর্য প্রকাশ করেছে বলে মনে হচ্ছে।
ডিপসিক মডেলটি চালানোর খরচ কমিয়ে অনুমানকে সস্তা করতে উদ্ভাবন করেছে। তদুপরি, তারা R1 নামে একটি মডেল প্রকাশ করেছে যা যুক্তির কাজগুলিতে OpenAI এর o1 মডেলের সাথে তুলনীয়।
প্রত্যাশা রিসেট করা হচ্ছে
তারা V3 এবং R1 এর জন্য সমস্ত মডেলের ওজন প্রকাশ্যে প্রকাশ করেছে। যে কেউ তাদের মডেলগুলি ডাউনলোড এবং আরও উন্নত বা কাস্টমাইজ করতে পারে৷ অধিকন্তু, ডিপসিক তাদের মডেলগুলিকে অনুমতিমূলক MIT লাইসেন্সের অধীনে প্রকাশ করেছে, যা অন্যদেরকে ন্যূনতম বিধিনিষেধ সহ ব্যক্তিগত, একাডেমিক বা বাণিজ্যিক উদ্দেশ্যে মডেলগুলি ব্যবহার করতে দেয়।
DeepSeek বৃহৎ এআই মডেলের ল্যান্ডস্কেপকে মৌলিকভাবে পরিবর্তন করেছে। অর্থনৈতিকভাবে প্রশিক্ষিত একটি ওপেন ওয়েট মডেল এখন আরও ব্যয়বহুল এবং বন্ধ মডেলের সমতুল্য যার জন্য অর্থপ্রদানের সাবস্ক্রিপশন পরিকল্পনা প্রয়োজন।
গবেষণা সম্প্রদায় এবং শেয়ার বাজারের এই নতুন বাস্তবতার সাথে মানিয়ে নিতে কিছু সময় লাগবে।
অম্বুজ তেওয়ারি, মিশিগান বিশ্ববিদ্যালয়ের পরিসংখ্যান বিভাগের অধ্যাপক