চাইনিজ স্টার্ট-আপের V3 ChatGPT-এর 5% খরচে প্রশিক্ষিত এবং আমেরিকান-নির্মিত AI মডেলের চিপগুলির ভগ্নাংশ ব্যবহার করে
চীনা কৃত্রিম বুদ্ধিমত্তা (AI) কোম্পানি DeepSeek প্রযুক্তি সম্প্রদায়ের মাধ্যমে শকওয়েভ পাঠিয়েছে, অত্যন্ত দক্ষ AI মডেলগুলি প্রকাশ করে যা ওপেনএআই এবং অ্যানথ্রপিকের মতো মার্কিন কোম্পানিগুলির অত্যাধুনিক পণ্যগুলির সাথে প্রতিযোগিতা করতে পারে৷
2023 সালে প্রতিষ্ঠিত, DeepSeek তার প্রতিযোগীদের নগদ এবং কম্পিউটিং ক্ষমতার একটি ভগ্নাংশ দিয়ে ফলাফল অর্জন করেছে।
ডিপসিকের “যুক্তি” R1 মডেল, যা গত সপ্তাহে প্রকাশিত হয়েছে, গবেষকদের মধ্যে উত্তেজনা, বিনিয়োগকারীদের মধ্যে ধাক্কা এবং এআই হেভিওয়েটদের প্রতিক্রিয়া সৃষ্টি করেছে। কোম্পানী 28 জানুয়ারী একটি মডেলের সাথে অনুসরণ করে যা চিত্রের পাশাপাশি পাঠ্যের সাথে কাজ করতে পারে।
তাহলে ডিপসিক কী করেছে এবং কীভাবে এটি করেছে?
ডিসেম্বরে, ডিপসিক তার V3 মডেল প্রকাশ করে। এটি একটি অত্যন্ত শক্তিশালী “মানক” বড় ভাষার মডেল যা OpenAI-এর GPT-4o এবং Anthropic’s Claude 3.5-এর অনুরূপ স্তরে পারফর্ম করে।
যদিও এই মডেলগুলি ত্রুটি প্রবণ এবং কখনও কখনও তাদের নিজস্ব তথ্য তৈরি করে, তারা প্রশ্নের উত্তর দেওয়া, প্রবন্ধ লেখা এবং কম্পিউটার কোড তৈরি করার মতো কাজগুলি সম্পাদন করতে পারে। সমস্যা সমাধান এবং গাণিতিক যুক্তির কিছু পরীক্ষায়, তারা গড় মানুষের চেয়ে ভাল স্কোর করে।
V3 প্রায় 5.58 মিলিয়ন মার্কিন ডলার খরচ করে প্রশিক্ষণ দেওয়া হয়েছিল। এটি GPT-4 এর চেয়ে নাটকীয়ভাবে সস্তা, উদাহরণস্বরূপ, যার বিকাশ করতে $100 মিলিয়নেরও বেশি খরচ হয়েছে।
DeepSeek প্রায় 2,000 বিশেষ কম্পিউটার চিপ, বিশেষ করে Nvidia দ্বারা তৈরি H800 GPU ব্যবহার করে V3 প্রশিক্ষিত করেছে বলে দাবি করেছে। এটি আবার অন্যান্য কোম্পানীর তুলনায় অনেক কম, যেগুলি আরও শক্তিশালী H100 চিপগুলির 16,000 পর্যন্ত ব্যবহার করেছে৷
আরও পড়ুন- ডিপসিকের সাফল্যের পিছনে খোলা রহস্য
20 জানুয়ারী, ডিপসিক আর 1 নামে আরেকটি মডেল প্রকাশ করে। এটি একটি তথাকথিত “যুক্তি” মডেল, যা ধাপে ধাপে জটিল সমস্যার মধ্য দিয়ে কাজ করার চেষ্টা করে। এই মডেলগুলি অনেকগুলি কাজের ক্ষেত্রে আরও ভাল বলে মনে হয় যার জন্য প্রসঙ্গ প্রয়োজন এবং একাধিক আন্তঃসম্পর্কিত অংশ রয়েছে, যেমন পড়া বোঝা এবং কৌশলগত পরিকল্পনা।
R1 মডেলটি V3-এর একটি টুইক করা সংস্করণ, যা রিইনফোর্সমেন্ট লার্নিং নামক একটি কৌশল দ্বারা পরিবর্তিত। R1 গত বছর প্রকাশিত OpenAI এর o1-এর অনুরূপ স্তরে কাজ করছে বলে মনে হচ্ছে।
ডিপসিক ছোট ওপেন-সোর্স মডেলগুলির “যুক্তি” সংস্করণ তৈরি করতে একই কৌশল ব্যবহার করেছে যা হোম কম্পিউটারে চলতে পারে।
এই রিলিজটি ডিপসিকের প্রতি আগ্রহের একটি বিশাল উত্থান ঘটিয়েছে, এর V3-চালিত চ্যাটবট অ্যাপের জনপ্রিয়তা বাড়িয়েছে এবং বিনিয়োগকারীরা AI শিল্পকে পুনঃমূল্যায়ন করার কারণে প্রযুক্তির স্টকগুলিতে ব্যাপক মূল্য ক্র্যাশ শুরু করেছে। লেখার সময়, চিপমেকার এনভিডিয়া প্রায় $600 বিলিয়ন মূল্য হারিয়েছে।
ডিপসিকের অগ্রগতিগুলি আরও বেশি দক্ষতা অর্জনে হয়েছে: কম সংস্থান সহ ভাল ফলাফল পাওয়া। বিশেষ করে, ডিপসিকের ডেভেলপাররা দুটি কৌশলের পথপ্রদর্শক করেছে যা এআই গবেষকরা আরও বিস্তৃতভাবে গ্রহণ করতে পারেন।
প্রথমটি “স্পর্সিটি” নামে একটি গাণিতিক ধারণার সাথে সম্পর্কিত। AI মডেলগুলিতে অনেকগুলি প্যারামিটার রয়েছে যা ইনপুটগুলির প্রতি তাদের প্রতিক্রিয়া নির্ধারণ করে (V3 এর প্রায় 671 বিলিয়ন আছে), তবে এই প্যারামিটারগুলির একটি ছোট ভগ্নাংশ যে কোনও প্রদত্ত ইনপুটের জন্য ব্যবহৃত হয়।
যাইহোক, কোন প্যারামিটারের প্রয়োজন হবে তা অনুমান করা সহজ নয়। ডিপসিক এটি করার জন্য একটি নতুন কৌশল ব্যবহার করেছে এবং তারপরে শুধুমাত্র সেই প্যারামিটারগুলিকে প্রশিক্ষিত করেছে। ফলস্বরূপ, এর মডেলগুলির জন্য একটি প্রচলিত পদ্ধতির তুলনায় অনেক কম প্রশিক্ষণের প্রয়োজন ছিল।
কম্পিউটার মেমরিতে V3 কীভাবে তথ্য সঞ্চয় করে তার সাথে অন্য কৌশলটি করতে হবে। DeepSeek প্রাসঙ্গিক ডেটা সংকুচিত করার একটি চতুর উপায় খুঁজে পেয়েছে, তাই এটি সঞ্চয় করা এবং দ্রুত অ্যাক্সেস করা সহজ।
ডিপসিকের মডেল এবং কৌশলগুলি বিনামূল্যে এমআইটি লাইসেন্সের অধীনে প্রকাশিত হয়েছে, যার অর্থ যে কেউ সেগুলি ডাউনলোড এবং সংশোধন করতে পারে।
যদিও এটি কিছু AI কোম্পানির জন্য খারাপ খবর হতে পারে – যাদের লাভ অবাধে উপলব্ধ, শক্তিশালী মডেলের অস্তিত্বের দ্বারা ক্ষয় হতে পারে – এটি বিস্তৃত AI গবেষণা সম্প্রদায়ের জন্য দুর্দান্ত খবর।
বর্তমানে, প্রচুর AI গবেষণার জন্য প্রচুর পরিমাণে কম্পিউটিং সংস্থানগুলিতে অ্যাক্সেস প্রয়োজন। আমার মতো গবেষকরা যারা বিশ্ববিদ্যালয়ে (বা বড় কারিগরি সংস্থাগুলি ব্যতীত অন্য কোথাও) ভিত্তিক তাদের পরীক্ষা এবং পরীক্ষা চালানোর ক্ষমতা সীমিত ছিল।
আরও দক্ষ মডেল এবং কৌশল পরিস্থিতি পরিবর্তন করে। পরীক্ষা এবং উন্নয়ন এখন আমাদের জন্য উল্লেখযোগ্যভাবে সহজ হতে পারে।
ভোক্তাদের জন্য, AI-তে অ্যাক্সেসও সস্তা হতে পারে। সাবস্ক্রিপশন ফি এর জন্য “ক্লাউডে” চালানোর পরিবর্তে ব্যবহারকারীদের নিজস্ব ডিভাইস যেমন ল্যাপটপ বা ফোনে আরও AI মডেল চালানো যেতে পারে।
গবেষকদের জন্য যাদের ইতিমধ্যেই প্রচুর সম্পদ রয়েছে, আরও দক্ষতা কম প্রভাব ফেলতে পারে। ডিপসিকের পদ্ধতি সামগ্রিকভাবে আরও ভাল পারফরম্যান্স সহ মডেলগুলি তৈরি করতে সাহায্য করবে, নাকি আরও দক্ষ মডেলগুলি তৈরি করতে সহায়তা করবে তা স্পষ্ট নয়।
টংলিয়াং লিউ মেশিন লার্নিং এর সহযোগী অধ্যাপক এবং সিডনি বিশ্ববিদ্যালয়ের সিডনি এআই সেন্টারের পরিচালক