في نهاية العام 2021، واجهت شركة “أوبن إيه آي” مشكلة في الإمداد بالبيانات اللازمة لتطوير أحدث نظام الذكاء الاصطناعي الخاص بها، وقررت استخدام أداة تسمى “ويسبر” لاستنساخ الصوت من مقاطع الفيديو على يوتيوب وتحويلها إلى نص. كانت هناك مخاوف من تعارض هذه الخطوة مع سياسات يوتيوب، ولكن فريق “أوبن إيه آي” استنسخ أكثر من مليون ساعة من مقاطع الفيديو لتدريب نظام الذكاء الاصطناعي الجديد.
تنافست شركات التكنولوجيا في جمع البيانات الضرورية لتطوير تقنيات الذكاء الاصطناعي. قامت شركات مثل “أوبن إيه آي” و”غوغل” و”ميتا” بتجاهل سياسات الشركات والالتفاف على القوانين من أجل الحصول على بيانات بشكل سريع وبكلفة منخفضة، وهو ما أثار انتقادات حول انتهاك حقوق الطبع والنشر.
كانت شركة “غوغل” تستخدم بيانات من مقاطع الفيديو على “يوتيوب” لتدريب نماذج الذكاء الاصطناعي الخاصة بها، مما قد يعرضها لانتهاك حقوق الطبع والنشر. وأشار تقرير إلى توسيع شروط الخدمة لجمع بيانات أكثر من المواقع، مما يثير مخاوف حول حماية الخصوصية وتجاوز القوانين.
تظهر إجراءات الشركات كيف اعتمدت صناعة الذكاء الاصطناعي على جمع بيانات من شتى المصادر على الإنترنت مثل الأخبار والروايات ومواقع التواصل الاجتماعي. وتعتمد نماذج الذكاء الاصطناعي الكبيرة التي تعتمد على كميات هائلة من البيانات على البيانات عالية الجودة من مصادر موثوقة.
تعمل الشركات على تطوير بيانات “اصطناعية” تنتجها نماذج الذكاء الاصطناعي بشكل ذاتي، مما يسهل عليها بناء تقنيات قوية دون الاعتماد الكامل على بيانات محمية بحقوق الطبع والنشر. وعلى الرغم من التقدم في هذا المجال، إلا أن هذه الأنظمة تواجه تحديات تتعلق بالأخطاء والقيود التي يمكن أن تنشأ عنها.
يظهر الاهتمام المتزايد بالبيانات وكيفية جمعها واستخدامها لتطوير التكنولوجيا الحديثة. تحدث الباحثون عن الحاجة للبيانات الكبيرة والجودة لتحسين أداء نماذج الذكاء الاصطناعي، وكيف يمكن للشركات تطوير بيانات اصطناعية لتعليم أنظمتها بشكل أفضل وبدون الاعتماد الكامل على البيانات الواقعية.














