يستخدم نظام "ماساي" شبكات عصبية منفصلة لكل نوع من أنواع البيانات، ويدمج مخرجاتها للحصول على تنبؤات شاملة. يتفوق الصوت في قياس شدة المشاعر من خلال خصائص الصوت مثل النبرة وفترات الصمت؛ ويتميز الفيديو في رصد الفروق الدقيقة مثل رفع الحاجبين للدلالة على المفاجأة أو تدلي الشفتين للدلالة على الحزن؛ ويستفيد النص من قواميس النبرة لتصنيف المشاعر إلى إيجابية أو سلبية أو محايدة.
بعد اختباره في بيئات متنوعة ذات ضوضاء عالية وإضاءة منخفضة، أكدت النتائج أن "ماساي" يتعامل مع الوسائط الفردية بكفاءة في حال فشل الوسائط الأخرى، مع العلم أن الإدخال المتعدد الوسائط بالكامل يُحقق أعلى دقة. تشمل القيود - جودة المعدات، والاختلافات في التعبير الثقافي في حالات الخوف أو الفرح أو المفاجأة، والاعتماد على الإشارات الخارجية فقط - إذ لا يستطيع الذكاء الاصطناعي استكشاف المشاعر الداخلية. ويشير البروفيسور أليكسي كاربوف، رئيس المختبر، إلى أن حتى البشر لا يصلون إلى دقة 100%.