يبيع الناشرون الأكاديميون إمكانية الوصول إلى الأوراق البحثية لشركات التكنولوجيا لتدريب نماذج الذكاء الاصطناعي. كان رد فعل بعض الباحثين فزعًا تجاه مثل هذه الصفقات، التي تتم دون استشارة المؤلفين. يثير هذا الاتجاه تساؤلات حول استخدام الأعمال المنشورة والمحمية بحقوق الطبع والنشر في بعض الأحيان لتدريب العدد المتزايد من روبوتات الدردشة المستندة إلى الذكاء الاصطناعي قيد التطوير.

يقول الخبراء إن ورقة بحثية لم يتم استخدامها بعد لتدريب نموذج لغوي كبير من المرجح أن يتم استخدامها قريبًا. يستكشف الباحثون الخيارات التقنية المتاحة للمؤلفين لتحديد ما إذا كان المحتوى الخاص بهم يُستخدم أم لا.

أُعلن الشهر الماضي أن الناشر العلمي البريطاني تايلور آند فرانسيس، ومقره في ميلتون بارك بالمملكة المتحدة، قد وقع صفقة بقيمة 10 ملايين دولار مع مايكروسوفت، مما يسمح لشركة التكنولوجيا الأمريكية بالوصول إلى بيانات الناشر لتحسين أنظمة الذكاء الاصطناعي الخاصة بها. في يونيو/حزيران، أظهر تحديث للمستثمرين أن الناشر الأمريكي وايلي حقق 23 مليون دولار من خلال السماح لشركة لم يذكر اسمها بتدريب نماذج الذكاء الاصطناعي التوليدية على محتواها.

تقول لوسي لو وانج، باحثة الذكاء الاصطناعي بجامعة واشنطن في سياتل، إن أي شيء متاح عبر الإنترنت - سواء في مستودع مفتوح الوصول أم لا - "من المرجح جدًا" أن يتم إدخاله بالفعل في نموذج لغوي كبير. وتضيف: "إذا تم بالفعل استخدام ورقة بحثية كبيانات تدريب في نموذج ما، فلا توجد طريقة لإزالة تلك الورقة بعد تدريب النموذج".

مجموعات بيانات ضخمة

يتم تدريب حاملي شهادة الماجستير في القانون على كميات هائلة من البيانات، التي غالبًا ما يتم سحبها من الإنترنت. إنهم يحددون الأنماط بين المليارات من مقتطفات الكلام الموجودة في بيانات التدريب، والتي تسمى الرموز المميزة، والتي تمكنهم من إنشاء نصوص بطلاقة مذهلة.

تعتمد نماذج الذكاء الاصطناعي التوليدية على أنماط استيعاب من هذه الكميات الهائلة من البيانات لإخراج النصوص أو الصور أو أكواد الكمبيوتر. تعتبر الأوراق العلمية ذات قيمة لمطوري ماجستير إدارة الأعمال، نظرًا لطولها و"كثافة المعلومات العالية"، كما يقول ستيفان باك، الذي يحلل مجموعات بيانات تدريب الذكاء الاصطناعي في مؤسسة موزيلا في سان فرانسيسكو، كاليفورنيا.

يتزايد الميل لشراء مجموعات بيانات عالية الجودة. هذا العام لديهفاينانشيال تايمزماركا المادية الخاصة بهم مطور ChatGPT OpenAI تم عرضها في صفقة مربحة، كما فعل منتدى Reddit عبر الإنترنت مع Google. وبما أن الناشرين الأكاديميين من المرجح أن ينظروا إلى البديل على أنه سرقة غير مشروعة لأعمالهم، يقول وانغ: "أعتقد أنه سيكون هناك المزيد من الصفقات المشابهة في المستقبل".

أسرار المعلومات

يقول باك إن بعض مطوري الذكاء الاصطناعي، مثل شبكة الذكاء الاصطناعي واسعة النطاق، يتعمدون إبقاء مجموعات البيانات الخاصة بهم مفتوحة، لكن العديد من الشركات التي تطور نماذج الذكاء الاصطناعي التوليدية أبقت الكثير من بيانات التدريب الخاصة بها سرية. يقول: "ليس لدينا أي فكرة عما يوجد فيه". وتعتبر المستودعات مفتوحة المصدر مثل arXiv وقاعدة البيانات العلمية PubMed مصادر "شائعة للغاية"، على الرغم من أن المقالات الصحفية المحمية بنظام حظر الاشتراك غير المدفوع من المرجح أن يتم سحبها من قبل شركات التكنولوجيا الكبرى للحصول على ملخصات مجانية للقراءة. ويضيف: "إنهم يبحثون دائمًا عن هذا النوع من المعلومات".

يقول إيف ألكسندر دي مونتجوي، عالم الكمبيوتر في جامعة إمبريال كوليدج في لندن، إنه من الصعب إثبات أن حاملي شهادة الماجستير في القانون استخدموا ورقة بحثية معينة. أحد الخيارات هو مواجهة النموذج بجملة غير عادية من النص ومعرفة ما إذا كانت النتيجة تطابق الكلمات التالية في النص الأصلي. إذا كان الأمر كذلك، فهذه علامة جيدة على أن الورقة مدرجة في مجموعة التدريب. إذا لم يكن الأمر كذلك، فهذا لا يعني أن الورقة لم يتم استخدامها - لأسباب ليس أقلها أن المطورين يمكنهم برمجة LLM لتصفية الإجابات للتأكد من أنها لا تتطابق بشكل وثيق مع بيانات التدريب. يقول: "يتطلب الأمر الكثير لإنجاز هذا العمل".

هناك طريقة أخرى للتحقق مما إذا كانت البيانات مضمنة في مجموعة بيانات التدريب تسمى هجوم استدلال العضوية. يعتمد هذا على فكرة أن النموذج سيكون أكثر ثقة بشأن مخرجاته عندما يرى شيئًا قد رآه من قبل. لقد قام فريق De Montjoye بتطوير نسخة من هذا، تسمى فخ حقوق الطبع والنشر، لطلاب LLM.

ولضبط الفخ، يقوم الفريق بإنشاء جمل معقولة ولكن لا معنى لها ويخفيها داخل العمل، مثل نص أبيض على خلفية بيضاء أو في حقل معروض بعرض صفر على صفحة ويب. ويقول إنه إذا "تفاجأ" طالب ماجستير في القانون بجملة مراقبة غير مستخدمة - وهو مقياس لارتباكه - أكثر من الجملة المخفية في النص، "فهذا دليل إحصائي على أن الفخاخ قد شوهدت من قبل".

قضايا حقوق التأليف والنشر

حتى لو كان من الممكن إثبات أن LLM قد تم تدريبه على نص معين، فليس من الواضح ما سيحدث بعد ذلك. يدعي الناشرون أن استخدام النصوص المحمية بحقوق الطبع والنشر في التدريب دون ترخيص يعتبر انتهاكًا. لكن هناك حجة قانونية مضادة تقول إن حاملي شهادة الماجستير في القانون لا ينسخون أي شيء، بل يستخرجون محتوى المعلومات من بيانات التدريب، ويحللونه، ويستخدمون معارفهم المكتسبة لإنشاء نص جديد.

ربما يمكن أن تساعد قضية المحكمة في توضيح ذلك. تمت مقاضاته في قضية حقوق الطبع والنشر المستمرة في الولايات المتحدة والتي يمكن أن تكون رائدةنيويورك تايمزمايكروسوفت ومطور ChatGPT، OpenAI، في سان فرانسيسكو، كاليفورنيا. وتتهم الصحيفة الشركات باستخدام محتواها الصحفي لتدريب عارضاتها دون إذن.

يسعد العديد من الأكاديميين بإدراج أعمالهم في بيانات التدريب الخاصة بـ LLMs - خاصة وأن النماذج أصبحت أكثر دقة. يقول باك: "أنا شخصياً لا أمانع إذا كان برنامج الدردشة الآلي يكتب بأسلوبي". لكنه يعترف بأن مهنته ليست مهددة بتكاليف الماجستير في القانون مثل المهن الأخرى، مثل الفنانين والكتاب.

يتمتع المؤلفون الأكاديميون الفرديون حاليًا بنفوذ ضئيل عندما يبيع ناشر ورقتهم إمكانية الوصول إلى أعمالهم المحمية بحقوق الطبع والنشر. بالنسبة للمقالات المتاحة للجمهور، لا توجد وسيلة ثابتة لتعيين الاعتماد أو معرفة ما إذا كان النص قد تم استخدامه.

ويشعر بعض الباحثين، ومن بينهم دي مونتجوي، بالإحباط. ويقول: "نريد شهادات ماجستير في القانون، ولكننا لا نزال نريد شيئًا عادلاً، ولا أعتقد أننا اخترعنا كيف يبدو ذلك بعد".