চাইনিজ স্টার্ট-আপের V3 ChatGPT-এর 5% খরচে প্রশিক্ষিত এবং আমেরিকান-নির্মিত AI মডেলের চিপগুলির ভগ্নাংশ ব্যবহার করে
চীনা কৃত্রিম বুদ্ধিমত্তা (AI) কোম্পানি DeepSeek প্রযুক্তি সম্প্রদায়ের মাধ্যমে শকওয়েভ পাঠিয়েছে, অত্যন্ত দক্ষ AI মডেলগুলি প্রকাশ করে যা ওপেনএআই এবং অ্যানথ্রপিকের মতো মার্কিন কোম্পানিগুলির অত্যাধুনিক পণ্যগুলির সাথে প্রতিযোগিতা করতে পারে৷
2023 সালে প্রতিষ্ঠিত, DeepSeek তার প্রতিযোগীদের নগদ এবং কম্পিউটিং ক্ষমতার একটি ভগ্নাংশ দিয়ে ফলাফল অর্জন করেছে।
ডিপসিকের “যুক্তি” R1 মডেল, যা গত সপ্তাহে প্রকাশিত হয়েছে, গবেষকদের মধ্যে উত্তেজনা, বিনিয়োগকারীদের মধ্যে ধাক্কা এবং এআই হেভিওয়েটদের প্রতিক্রিয়া সৃষ্টি করেছে। কোম্পানী 28 জানুয়ারী একটি মডেলের সাথে অনুসরণ করে যা চিত্রের পাশাপাশি পাঠ্যের সাথে কাজ করতে পারে।
তাহলে ডিপসিক কী করেছে এবং কীভাবে এটি করেছে?
ডিসেম্বরে, ডিপসিক তার V3 মডেল প্রকাশ করে। এটি একটি অত্যন্ত শক্তিশালী “মানক” বড় ভাষার মডেল যা OpenAI-এর GPT-4o এবং Anthropic’s Claude 3.5-এর অনুরূপ স্তরে পারফর্ম করে।
যদিও এই মডেলগুলি ত্রুটি প্রবণ এবং কখনও কখনও তাদের নিজস্ব তথ্য তৈরি করে, তারা প্রশ্নের উত্তর দেওয়া, প্রবন্ধ লেখা এবং কম্পিউটার কোড তৈরি করার মতো কাজগুলি সম্পাদন করতে পারে। সমস্যা সমাধান এবং গাণিতিক যুক্তির কিছু পরীক্ষায়, তারা গড় মানুষের চেয়ে ভাল স্কোর করে।
V3 প্রায় 5.58 মিলিয়ন মার্কিন ডলার খরচ করে প্রশিক্ষণ দেওয়া হয়েছিল। এটি GPT-4 এর চেয়ে নাটকীয়ভাবে সস্তা, উদাহরণস্বরূপ, যার বিকাশ করতে $100 মিলিয়নেরও বেশি খরচ হয়েছে।
DeepSeek প্রায় 2,000 বিশেষ কম্পিউটার চিপ, বিশেষ করে Nvidia দ্বারা তৈরি H800 GPU ব্যবহার করে V3 প্রশিক্ষিত করেছে বলে দাবি করেছে। এটি আবার অন্যান্য কোম্পানীর তুলনায় অনেক কম, যেগুলি আরও শক্তিশালী H100 চিপগুলির 16,000 পর্যন্ত ব্যবহার করেছে৷
আরও পড়ুন- ডিপসিকের সাফল্যের পিছনে খোলা রহস্য
20 জানুয়ারী, ডিপসিক আর 1 নামে আরেকটি মডেল প্রকাশ করে। এটি একটি তথাকথিত “যুক্তি” মডেল, যা ধাপে ধাপে জটিল সমস্যার মধ্য দিয়ে কাজ করার চেষ্টা করে। এই মডেলগুলি অনেকগুলি কাজের ক্ষেত্রে আরও ভাল বলে মনে হয় যার জন্য প্রসঙ্গ প্রয়োজন এবং একাধিক আন্তঃসম্পর্কিত অংশ রয়েছে, যেমন পড়া বোঝা এবং কৌশলগত পরিকল্পনা।
R1 মডেলটি V3-এর একটি টুইক করা সংস্করণ, যা রিইনফোর্সমেন্ট লার্নিং নামক একটি কৌশল দ্বারা পরিবর্তিত। R1 গত বছর প্রকাশিত OpenAI এর o1-এর অনুরূপ স্তরে কাজ করছে বলে মনে হচ্ছে।
ডিপসিক ছোট ওপেন-সোর্স মডেলগুলির “যুক্তি” সংস্করণ তৈরি করতে একই কৌশল ব্যবহার করেছে যা হোম কম্পিউটারে চলতে পারে।
এই রিলিজটি ডিপসিকের প্রতি আগ্রহের একটি বিশাল উত্থান ঘটিয়েছে, এর V3-চালিত চ্যাটবট অ্যাপের জনপ্রিয়তা বাড়িয়েছে এবং বিনিয়োগকারীরা AI শিল্পকে পুনঃমূল্যায়ন করার কারণে প্রযুক্তির স্টকগুলিতে ব্যাপক মূল্য ক্র্যাশ শুরু করেছে। লেখার সময়, চিপমেকার এনভিডিয়া প্রায় $600 বিলিয়ন মূল্য হারিয়েছে।
ডিপসিকের অগ্রগতিগুলি আরও বেশি দক্ষতা অর্জনে হয়েছে: কম সংস্থান সহ ভাল ফলাফল পাওয়া। বিশেষ করে, ডিপসিকের ডেভেলপাররা দুটি কৌশলের পথপ্রদর্শক করেছে যা এআই গবেষকরা আরও বিস্তৃতভাবে গ্রহণ করতে পারেন।
প্রথমটি “স্পর্সিটি” নামে একটি গাণিতিক ধারণার সাথে সম্পর্কিত। AI মডেলগুলিতে অনেকগুলি প্যারামিটার রয়েছে যা ইনপুটগুলির প্রতি তাদের প্রতিক্রিয়া নির্ধারণ করে (V3 এর প্রায় 671 বিলিয়ন আছে), তবে এই প্যারামিটারগুলির একটি ছোট ভগ্নাংশ যে কোনও প্রদত্ত ইনপুটের জন্য ব্যবহৃত হয়।
যাইহোক, কোন প্যারামিটারের প্রয়োজন হবে তা অনুমান করা সহজ নয়। ডিপসিক এটি করার জন্য একটি নতুন কৌশল ব্যবহার করেছে এবং তারপরে শুধুমাত্র সেই প্যারামিটারগুলিকে প্রশিক্ষিত করেছে। ফলস্বরূপ, এর মডেলগুলির জন্য একটি প্রচলিত পদ্ধতির তুলনায় অনেক কম প্রশিক্ষণের প্রয়োজন ছিল।
কম্পিউটার মেমরিতে V3 কীভাবে তথ্য সঞ্চয় করে তার সাথে অন্য কৌশলটি করতে হবে। DeepSeek প্রাসঙ্গিক ডেটা সংকুচিত করার একটি চতুর উপায় খুঁজে পেয়েছে, তাই এটি সঞ্চয় করা এবং দ্রুত অ্যাক্সেস করা সহজ।
ডিপসিকের মডেল এবং কৌশলগুলি বিনামূল্যে এমআইটি লাইসেন্সের অধীনে প্রকাশিত হয়েছে, যার অর্থ যে কেউ সেগুলি ডাউনলোড এবং সংশোধন করতে পারে।
যদিও এটি কিছু AI কোম্পানির জন্য খারাপ খবর হতে পারে – যাদের লাভ অবাধে উপলব্ধ, শক্তিশালী মডেলের অস্তিত্বের দ্বারা ক্ষয় হতে পারে – এটি বিস্তৃত AI গবেষণা সম্প্রদায়ের জন্য দুর্দান্ত খবর।
বর্তমানে, প্রচুর AI গবেষণার জন্য প্রচুর পরিমাণে কম্পিউটিং সংস্থানগুলিতে অ্যাক্সেস প্রয়োজন। আমার মতো গবেষকরা যারা বিশ্ববিদ্যালয়ে (বা বড় কারিগরি সংস্থাগুলি ব্যতীত অন্য কোথাও) ভিত্তিক তাদের পরীক্ষা এবং পরীক্ষা চালানোর ক্ষমতা সীমিত ছিল।
আরও দক্ষ মডেল এবং কৌশল পরিস্থিতি পরিবর্তন করে। পরীক্ষা এবং উন্নয়ন এখন আমাদের জন্য উল্লেখযোগ্যভাবে সহজ হতে পারে।
ভোক্তাদের জন্য, AI-তে অ্যাক্সেসও সস্তা হতে পারে। সাবস্ক্রিপশন ফি এর জন্য “ক্লাউডে” চালানোর পরিবর্তে ব্যবহারকারীদের নিজস্ব ডিভাইস যেমন ল্যাপটপ বা ফোনে আরও AI মডেল চালানো যেতে পারে।
গবেষকদের জন্য যাদের ইতিমধ্যেই প্রচুর সম্পদ রয়েছে, আরও দক্ষতা কম প্রভাব ফেলতে পারে। ডিপসিকের পদ্ধতি সামগ্রিকভাবে আরও ভাল পারফরম্যান্স সহ মডেলগুলি তৈরি করতে সাহায্য করবে, নাকি আরও দক্ষ মডেলগুলি তৈরি করতে সহায়তা করবে তা স্পষ্ট নয়।
টংলিয়াং লিউ মেশিন লার্নিং এর সহযোগী অধ্যাপক এবং সিডনি বিশ্ববিদ্যালয়ের সিডনি এআই সেন্টারের পরিচালক
Hi there,
Getting your business noticed in today’s challenging market isn’t easy, but the right media exposure can make all the difference.
At Global Wide PR, we’re offering a complimentary article on Digital Journal to help your brand stand out and gain trust. This is a free opportunity to highlight your narrative to a wider audience.
Additionally, we can publish your article on AP News, Yahoo Finance, Morning Star, and over 300 other major news sites for just $297, giving your brand even enhanced reach and visibility.
If this sounds like a fit for your business, click the link below to sign up, and we’ll send you more details:
++ https://bit.ly/gwidepr
Best,
Claudine
Global Wide PR
If you would like to stop receiving our emails, you can do so easily. Please visit https://bit.ly/unsubscribe2025 and provide your website information.