بدون إشعار ، أضاف OpenAI مؤخرًا تفاصيل حول زاحف الويب الخاص به ، GPTBot، إلى موقع التوثيق عبر الإنترنت. GPTBot هو اسم وكيل المستخدم الذي تستخدمه الشركة لاسترداد صفحات الويب لتدريب نماذج الذكاء الاصطناعي وراء ChatGPT ، مثل GPT-4. في وقت سابق من هذا الأسبوع ، بعض المواقع سرعان ما أعلنوا عن نيتهم لمنع وصول GPTBot إلى المحتوى.
في الوثيقة الجديدة ، تقول OpenAI إن صفحات الويب التي يتم الزحف إليها باستخدام GPTBot “يمكن استخدامها لتحسين النماذج المستقبلية” وأن السماح لـ GPTBot بالوصول إلى موقعك “سيساعد نماذج الذكاء الاصطناعي على أن تصبح أكثر دقة ويحسن قدراتها العامة وأمانها.”
تقول OpenAI إنها نفذت عوامل تصفية تضمن عدم تمكن GPTBot من الوصول إلى جدران الدفع ، أو المصادر التي تجمع معلومات التعريف الشخصية ، أو أي محتوى ينتهك سياسات OpenAI.
تأتي الأخبار التي تفيد بأن OpenAI يمكن أن تمنع قصاصات التدريب (إذا كرمت ذلك) بعد فوات الأوان للتأثير على بيانات التدريب الحالية لـ ChatGPT أو GPT-4. قامت شركة OpenAI بجمع البيانات المنتهية في سبتمبر 2021 ، وهو القطع الحالي “الواعي” لنماذج لغة OpenAI.
يشار إلى أن الآليات الجديدة قد لا يكون تمنع إصدارات تصفح الويب من مكونات ChatGPT أو ChatGPT المستخدمين من الوصول إلى مواقع الويب الحالية من إرسال معلومات محدثة. لم يتم تناول هذه النقطة في الوثائق ، وتواصلنا مع OpenAI للتوضيح.
الجواب يكمن في ملف robots.txt
وفقًا لـ OpenAI وثائقيتم تحديد GPTBot من خلال الرمز المميز لوكيل المستخدم “GPTBot” ، وسلسلته الكاملة هي “Mozilla / 5.0 AppleWebKit / 537.36 (KHTML ، Gecko-like ؛ متوافق ؛ GPTBot / 1.0 ؛ + https: //openai.com/gptbot)”.
توفر وثائق OpenAI أيضًا إرشادات حول كيفية منع GPTBot من الزحف إلى مواقع الويب باستخدام معايير الصناعة. ملف robots.txt ملف ، وهو ملف نصي موجود في الدليل الجذر لموقع الويب ويوجه برامج زحف الويب (تلك المستخدمة بواسطة محركات البحث) بعدم فهرسة الموقع.
الأمر بسيط مثل إضافة هذين السطرين إلى ملف robots.txt الخاص بالموقع:
User-agent: GPTBot Disallow: /
تقول OpenAI أيضًا أنه يمكن للمسؤولين التحكم في GPTBot من مناطق معينة من الموقع في ملف robots.txt برموز مختلفة:
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
بالإضافة إلى ذلك ، قدمت OpenAI كتل عناوين IP محددة من خلال عمل GPTBot ، يمكن أيضًا حظره بواسطة جدران الحماية.
على الرغم من هذا الخيار ، فإن حظر GPTBot لا يضمن أن بيانات الموقع لن تدرب جميع نماذج الذكاء الاصطناعي المستقبلية. إلى جانب مشاكل برامج الكشط التي تتجاهل ملفات robots.txt ، هناك أيضًا مجموعات بيانات كبيرة من مواقع الويب التي تم كشطها (على سبيل المثال). كومة) ليس تابعًا لـ OpenAI. تُستخدم مجموعات البيانات هذه بشكل شائع لتدريب LLMs مفتوحة المصدر (أو مفتوحة المصدر) مثل Meta’s Llama 2.
بعض المواقع تعمل على عجل
على الرغم من نجاحها إلى حد كبير من منظور تقني ، إلا أن ChatGPT كانت أيضًا مثيرة للجدل في كيفية تمكنها من إزالة البيانات المحمية بحقوق الطبع والنشر دون إذن وتراكم القيمة كمنتج تجاري يتجاوز نموذج النشر عبر الإنترنت النموذجي. لقد تم اتهام (أوبن إيه آي) (ومقاضاته) بالسرقة الأدبية على هذا المنوال.
وفقًا لذلك ، ليس من المستغرب أن نرى بعض الأشخاص يتفاعلون مع الأخبار بأنهم سيكونون قادرين على حظر محتواهم من نماذج GPT المستقبلية. ذوق. على سبيل المثال ، يوم الثلاثاء ، VentureBeat مذكور الذي – التي على الحافةكاتب المادة الثانوية كيسي نيوتنو نيل كلارك من Clarkesworld ، قال الجميع لمنع GPTBot.
ولكن بالنسبة لمشغلي مواقع الويب الكبيرة ، فإن خيار حظر برامج زحف نماذج اللغة الكبيرة (LLM) ليس سهلاً كما قد يبدو. إن تعمية بعض LLMs لبيانات مواقع ويب معينة يترك فجوة معرفية قد تخدم بعض المواقع جيدًا (مثل المواقع التي لا تريد أن تفقد الزوار إذا أعطاهم ChatGPT معلوماتهم) ، ولكنه قد يضر أيضًا بالآخرين. على سبيل المثال ، إذا أصبحت روبوتات الدردشة بالذكاء الاصطناعي واجهة المستخدم الأساسية في المستقبل ، فإن حظر المحتوى من نماذج الذكاء الاصطناعي المستقبلية سيقلل من البصمة الثقافية للمنصة أو العلامة التجارية. كتجربة فكرية ، تخيل نشاطًا تجاريًا عبر الإنترنت أعلن في عام 2002 أن Google لم تعد ترغب في فهرسة موقع الويب الخاص بها – وهي خطوة مدمرة للذات على طول المنحنى الأكثر شيوعًا للعثور على المعلومات عبر الإنترنت.
لا يزال الوقت مبكرًا جدًا في لعبة الذكاء الاصطناعي ، وبغض النظر عن الطريقة التي تسير بها التكنولوجيا – أو أي المنصات الفردية تحاول الابتعاد عن تدريب نموذج الذكاء الاصطناعي – على الأقل تقدم OpenAI الخيار.