تخيّل أنك تعرف كيف سيتفاعل عقل المشاهد مع فيديوك… قبل حتى أن تنشره.

هذا بالضبط ما حدث 👇

شركة Meta قامت مؤخرًا بنشر نموذج يحاكي طريقة استجابة الدماغ البشري للفيديو، الصوت، والنص—تم تدريبه على بيانات من 720 شخصًا حقيقيًا.

💡 الفكرة؟
بدل التخمين… أصبح بإمكانك اختبار المحتوى علميًا.

🧠 التجربة

تم أخذ فيديو تجريبي لأحد صنّاع المحتوى في مجال UGC
ثم تشغيله عبر هذا النموذج

📊 النموذج أظهر:

  • أين ينخفض الانتباه
  • اللحظات المملة
  • النقاط التي تجذب المشاهد

✂️ ماذا حدث بعد التعديل؟

تم إعادة مونتاج الفيديو بناءً على هذه البيانات:

  • حذف الأجزاء الضعيفة
  • تقوية الـ Hook في البداية
  • تسريع الإيقاع
  • تحسين التسلسل

🚀 النتيجة؟
221,100 مشاهدة بعد النشر

🧠 ما هو V-JEPA من Meta؟

تعمل شركة Meta AI على تطوير نموذج ذكاء اصطناعي متقدم يُسمى V-JEPA (Video Joint Embedding Predictive Architecture)، وهو جزء من اتجاه جديد في الذكاء الاصطناعي يُعرف باسم “نماذج العالم” (World Models).

هدف هذا النموذج ليس فقط فهم الفيديوهات، بل فهم العالم الحقيقي نفسه من خلال تحليل الحركة والتفاعل بين الأشياء كما يفعل البشر.

🌍 فكرة المشروع ببساطة

بدل أن يحاول الذكاء الاصطناعي “توليد” صور أو فيديوهات، يقوم V-JEPA بـ:

  • مشاهدة الفيديو
  • فهم ما يحدث داخله
  • التنبؤ بما سيحدث لاحقًا

أي أنه لا ينظر إلى الصورة فقط، بل يحاول فهم القوانين الفيزيائية والمنطقية خلفها مثل:

  • الجاذبية
  • الحركة
  • التصادم بين الأشياء

🧬 كيف يتعلم V-JEPA؟

بدل أن يتعلم من الصور بشكل مباشر، يتم تدريبه على ملايين الساعات من الفيديوهات، ثم:

  • يخفي أجزاء من الفيديو (مثل لقطة ناقصة)
  • ويطلب منه توقع ما الذي سيحدث أو ما الذي كان موجودًا

بهذه الطريقة يتعلم النموذج الفهم العميق بدل الحفظ أو التقليد.

مصدر الخبر

A self-supervised foundation world model

ENJOYING THIS ARTICLE?

Get More AI News Like This, Every Week

Get the latest AI News, ChatGPT updates, AI tools, and future technology trends directly to your inbox.

No spam · Unsubscribe anytime