واعتمد الباحثون في تدريب الكمبيوتر على مقاطع فيديو حيث يتم في البداية تغذية الكمبيوتر بمشاهد معينة وتصنيف العناصر البصرية التي تظهر في هذه المشاهد بحيث يستطيع الكمبيوتر بعد ذلك الربط بين هذه العناصر البصرية والأصوات الطبيعية المرافقة لها.
ونقل الموقع الإلكتروني "ساينس ديلي" المعني بالأبحاث العلمية والتكنولوجيا عن الباحث كارل فوندريك قوله إن "رؤية الكمبيوتر تحسنت للغاية بحيث أصبح بإمكاننا تحويله إلى مجالات أخرى".
وأوضح فوندريك قائلاً: "نعتمد على التزامن الطبيعي بين الرؤية والصوت. وقمنا بتغذية الكمبيوتر بأطنان من مقاطع الفيديو لتدريبه على فهم الأصوات". واختبر الباحثون التقنية الجديدة على قاعدتين للبيانات من التسجيلات الصوتية، وحققت التقنية دقة أعلى بنسبة تتراوح ما بين 13 و15 بالمئة مقارنة بالأنظمة السابقة الخاصة بالتعرف على الأصوات.