নিউইয়র্ক, ডিসেম্বর 12 – মেটা প্ল্যাটফর্মের আইনজীবীরা এর AI মডেলগুলিকে প্রশিক্ষণের জন্য হাজার হাজার পাইরেটেড বই ব্যবহার করার আইনি বিপদ সম্পর্কে সতর্ক করেছিলেন, কিন্তু এই গ্রীষ্মে প্রাথমিকভাবে আনা একটি কপিরাইট লঙ্ঘনের মামলায় একটি নতুন ফাইলিং অনুসারে কোম্পানিটি এটি করেছে।
সোমবার গভীর রাতে নতুন ফাইলিং ফেসবুক এবং ইনস্টাগ্রাম মালিকের বিরুদ্ধে কৌতুক অভিনেতা সারা সিলভারম্যান, পুলিৎজার পুরস্কার বিজয়ী মাইকেল চ্যাবন এবং অন্যান্য বিশিষ্ট লেখকদের বিরুদ্ধে আনা দুটি মামলাকে একত্রিত করেছে, যারা অভিযোগ করেছে মেটা তাদের কৃত্রিম-বুদ্ধিমত্তার ভাষা মডেলকে প্রশিক্ষণের অনুমতি ছাড়াই তাদের কাজগুলি ব্যবহার করেছে।
ক্যালিফোর্নিয়ার একজন বিচারক গত মাসে সিলভারম্যান মামলার অংশ খারিজ করেছেন এবং ইঙ্গিত দিয়েছেন তিনি লেখকদের তাদের দাবি সংশোধন করার অনুমতি দেবেন।
মেটা অবিলম্বে অভিযোগের বিষয়ে মন্তব্য করার অনুরোধের জবাব দেয়নি।
সোমবার দাখিল করা নতুন অভিযোগে একটি মেটা-অধিভুক্ত গবেষকের চ্যাট লগ অন্তর্ভুক্ত রয়েছে যা একটি ডিসকর্ড সার্ভারে ডেটাসেট সংগ্রহের বিষয়ে আলোচনা করছে, একটি সম্ভাব্য গুরুত্বপূর্ণ প্রমাণ যা ইঙ্গিত করে মেটা সচেতন ছিল যে বইগুলির ব্যবহার সুরক্ষিত নাও হতে পারে।
অভিযোগে উদ্ধৃত চ্যাট লগগুলিতে, গবেষক টিম ডেটমারস মেটা-এর আইনী বিভাগের সাথে তার পেছন পেছন বর্ণনা করেছেন প্রশিক্ষণের ডেটা হিসাবে বইয়ের ফাইলগুলি ব্যবহার করা “আইনিভাবে ঠিক আছে” কিনা।
“ফেসবুকে, আমি সহ (T)he (P) ফাইলের সাথে কাজ করতে অনেক লোক আগ্রহী, কিন্তু বর্তমান আকারে, আমরা আইনি কারণে এটি ব্যবহার করতে অক্ষম,” ডেটমার্স 2021 সালে উল্লেখ করে লিখেছিলেন অভিযোগ অনুযায়ী, একটি ডেটাসেট মেটা লামা-এর প্রথম সংস্করণকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহার করেছে বলে স্বীকার করেছে।
মাস আগে, ডেটমারস লিখেছিলেন মেটার আইনজীবীরা তাকে বলেছিলেন “ডেটা ব্যবহার করা যাবে না বা মডেল প্রকাশ করা যাবে না যদি তারা সেই ডেটাতে প্রশিক্ষিত হয়,” অভিযোগে বলা হয়েছে।
যদিও ডেটমারস আইনজীবীদের উদ্বেগের বর্ণনা দেন না, চ্যাটে তার প্রতিপক্ষরা “সক্রিয় কপিরাইট সহ বই”কে উদ্বেগের সবচেয়ে বড় উৎস হিসেবে চিহ্নিত করেন। তারা বলে ডেটার উপর প্রশিক্ষণ “ন্যায্য ব্যবহারের অধীনে আসা উচিত”, একটি মার্কিন আইনি মতবাদ যা কপিরাইটযুক্ত কাজের নির্দিষ্ট কিছু লাইসেন্সবিহীন ব্যবহারকে রক্ষা করে৷
ওয়াশিংটন ইউনিভার্সিটির ডক্টরাল ছাত্র ডেটমারস রয়টার্সকে বলেছেন তিনি তাৎক্ষণিকভাবে দাবির বিষয়ে মন্তব্য করতে সক্ষম নন।
প্রযুক্তি সংস্থাগুলি এই বছর বিষয়বস্তু নির্মাতাদের কাছ থেকে বেশ কয়েকটি মামলার মুখোমুখি হয়েছে যারা তাদের বিরুদ্ধে কপিরাইট-সুরক্ষিত কাজগুলিকে জেনারেটিভ এআই মডেলগুলি তৈরি করার অভিযোগ এনেছে যা বিশ্বব্যাপী আলোড়ন সৃষ্টি করেছে এবং বিনিয়োগের উন্মাদনাকে উত্সাহিত করেছে৷
সফল হলে, এই ক্ষেত্রেগুলি জেনারেটিভ AI উন্মাদনাকে কমিয়ে দিতে পারে, কারণ তারা AI কোম্পানিগুলিকে তাদের কাজের ব্যবহারের জন্য শিল্পী, লেখক এবং অন্যান্য বিষয়বস্তু নির্মাতাদের ক্ষতিপূরণ দিতে বাধ্য করে ডেটা-ক্ষুধার্ত মডেলগুলি তৈরির খরচ বাড়াতে পারে।
একই সময়ে, কৃত্রিম বুদ্ধিমত্তা নিয়ন্ত্রণকারী ইউরোপে নতুন অস্থায়ী নিয়ম কোম্পানি তাদের মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য যে ডেটা ব্যবহার করে তা প্রকাশ করতে বাধ্য করতে পারে, সম্ভাব্যভাবে তারা আরও আইনি ঝুঁকির মুখোমুখি হতে পারে।
মেটা ফেব্রুয়ারিতে তার লামা বৃহৎ ভাষার মডেলের প্রথম সংস্করণ প্রকাশ করেছে এবং প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের একটি তালিকা প্রকাশ করেছে, যার মধ্যে রয়েছে “ThePile-এর Books3 বিভাগ।” যে ব্যক্তি সেই ডেটাসেট একত্রিত করেছেন তিনি অন্যত্র বলেছেন এতে 196,640টি বই রয়েছে, অভিযোগ অনুসারে।
কোম্পানিটি তার মডেল, লামা 2 এর সর্বশেষ সংস্করণের জন্য প্রশিক্ষণের ডেটা প্রকাশ করেনি, যা এই গ্রীষ্মে বাণিজ্যিক ব্যবহারের জন্য উপলব্ধ করেছে।
Llama 2 700 মিলিয়নেরও কম মাসিক সক্রিয় ব্যবহারকারীদের কোম্পানিগুলির জন্য বিনামূল্যে ব্যবহার করা যেতে পারে। প্রযুক্তি খাতে এর প্রকাশকে জেনারেটিভ এআই সফ্টওয়্যারের বাজারে একটি সম্ভাব্য গেম-চেঞ্জার হিসাবে দেখা হয়েছিল, যা ওপেনএআই এবং গুগলের মতো খেলোয়াড়দের আধিপত্যকে ক্ষুন্ন করার হুমকি দিয়েছিল যারা তাদের মডেল ব্যবহারের জন্য চার্জ করে।