نحن بحاجة إلى الكثير من البيانات لتدريب خوارزميات الذكاء الاصطناعي القوية والدقيقة وعالية الجودة. على سبيل المثال، تم تدريب "تشات جي بي تي" على 570 غيغابايت من البيانات النصية، أو نحو 300 مليار كلمة، إذ أنه في حال تدريب الخوارزمية على كمية غير كافية من البيانات، فسوف تنتج مخرجات غير دقيقة أو منخفضة الجودة.
جودة بيانات التدريب مهمة أيضًا، إذ أنه من السهل الحصول على البيانات المنخفضة الجودة، مثل منشورات وسائل التواصل الاجتماعي (المتحيزة أحيانا أو المضللة) أو الصور الفوتوغرافية الباهتة، غير الكافية لتدريب نماذج الذكاء الاصطناعي العالية الأداء.
ولهذا السبب يبحث مطورو الذكاء الاصطناعي عن محتوى عالي الجودة مثل النصوص من الكتب والمقالات عبر الإنترنت والأوراق العلمية وويكيبيديا وبعض محتويات الويب التي تمت تصفيتها.
تعمل صناعة الذكاء الاصطناعي على تدريب أنظمتها على مجموعات بيانات أكبر من أي وقت مضى، وتوقع مجموعة من الباحثين، في بحث نُشر العام الماضي، أنه سيتم نفاد البيانات النصية العالية الجودة قبل عام 2026، إذا استمرت اتجاهات التدريب الحالية على الذكاء الاصطناعي.
يمكن أن يسهم الذكاء الاصطناعي بما يصل إلى 15.7 تريليون دولار أمريكي في الاقتصاد العالمي بحلول عام 2030، وفقًا لمجموعة المحاسبة والاستشارات "بي دبليو سي"، لكن نفاد البيانات القابلة للاستخدام قد يؤدي إلى إبطاء تطورها.
احتج منشئو المحتوى على الاستخدام غير المصرح به للمحتوى الخاص بهم لتدريب نماذج الذكاء الاصطناعي، حيث رفع البعض دعوى قضائية ضد شركات مثل "مايكروسوفت"و"أوبن آ آي"، إن الحصول على أجر مقابل عملهم قد يساعد في استعادة بعض اختلال توازن القوى الموجود بين المبدعين وشركات الذكاء الاصطناعي، بحسب دراسة نُشرت في مجلة "ساينس أليرت" العلمية.