١٣ ديسمبر ٢٠٢٥

جرّبت Hailuo 2.3 أخيرًا: نموذج الفيديو الجديد بالذكاء الاصطناعي تجاوز توقعاتي في التفاصيل والتحكم في الحركة

مؤخرًا حصلت أخيرًا على Hailuo 2.3، أحدث نسخة من نموذج توليد الفيديو من MiniMax، وبكل صراحة: لقد حطّم توقعاتي تمامًا.

جرّبت Hailuo 2.3 أخيرًا: نموذج الفيديو الجديد بالذكاء الاصطناعي تجاوز توقعاتي في التفاصيل والتحكم في الحركة

حصلت مؤخرًا أخيرًا على Hailuo 2.3، أحدث نسخة من نموذج توليد الفيديو من MiniMax، وباختصار شديد: لقد تجاوز كل ما كنت أتوقعه. في مشهد يسيطر عليه الضجيج حول Sora والدعم المؤسسي الضخم لـ Veo من Google، يبدو Hailuo 2.3 وكأنه عملاق هادئ نهض فجأة وألقى بظله الطويل على المنافسين.

عندما أدخلت أول مطالبة لي – مشهد معقّد لراقصة وسط مطر مضيء بالنيون مع تعليمات دقيقة لحركة الكاميرا – كنت أنتظر العيوب المعتادة في فيديوهات الذكاء الاصطناعي: أطراف مشوّهة، أقدام تنزلق، أو خلفيات تهتز. لكن ما حصلت عليه كان مستوى من التحكم في الحركة والالتزام بقوانين الفيزياء يُشعر حقًا بقفزة جيلية.

هذا ليس مجرد تحديث عادي؛ بل هو تحوّل جذري في طريقة تقييمنا لمدى “جاهزية” الفيديو بالذكاء الاصطناعي لاستخدامه في سير عمل احترافي. مستفيدًا من “استراتيجية ناطحة السحاب” – البناء فوق نماذج قائمة لإنشاء شيء أعلى وأقوى – يقدّم هذا المقال دليلًا شاملاً وحاسمًا حول Hailuo 2.3. سنفكك معماريته، ونحلل أداءه أمام الكبار، ونستكشف لماذا قد يكون هذا النموذج بالذات هو من يجسر الفجوة بين تجارب الذكاء الاصطناعي والإنتاج التجاري الفعلي.

الملخص التنفيذي: خلاصة في 30 ثانية

لمن يريدون الخلاصة سريعًا، إليكم أهم ما توصّل إليه تحليلنا المتعمّق لـ Hailuo 2.3.

  • الموقع في السوق: يحتل Hailuo 2.3 (ومعه سلفه Hailuo 02) المركز الثاني أو أعلى بشكل مستمر في تصنيفات عالمية مثل Artificial Analysis، وغالبًا ما يتفوّق على Veo 3 من Google في اختبارات ELO العمياء.
  • الاختراق الأهم: السمة الفارقة هي نزاهة الحركة (Motion Integrity). على عكس النماذج التي تنتج شخصيات “عائمة”، يفهم Hailuo 2.3 الوزن، والزخم، ومركز الثقل.
  • الميزة التقنية: يعتمد على معمارية خاصة باسم Noise-Aware Computation Redistribution (NCR)، ما يمنحه كفاءة أعلى تصل إلى 2.5 ضعف الأجيال السابقة، مع دعم توليد بدقة 1080p بشكل أصلي.
  • “التطبيق القاتل”: التحكم في الكاميرا. يلتزم النموذج بتعليمات السينما (ترافلينغ، بان، إمالة) من دون تشويه الهدف، وهو نقطة فشل شائعة في كثير من النماذج الأخرى.
  • الكفاءة من ناحية التكلفة: نموذج التسعير أقل بكثير من أغلب المنافسين في الغرب (حوالي 8 دولارات شهريًا للاستخدام الكثيف، مقابل مئات الدولارات لأدوات موجهة للمؤسسات)، ما يجعل إنتاج الفيديو عالي الجودة في متناول شريحة أوسع.

ما هو Hailuo 2.3؟ صعود MiniMax

لفهم الأداة، يجب أولًا فهم من يقف وراءها. Hailuo 2.3 هو نموذج الفيديو الرئيسي لدى MiniMax، وهي شركة يونيكورن صينية في مجال الذكاء الاصطناعي صعدت بسرعة إلى الصف الأول في عالم التوليد الآلي. ورغم أن شهرتها في الغرب بدأت من خلال نماذج اللغة الكبيرة، فإن تحوّلها نحو الفيديو كان سريعًا وطموحًا ومدعومًا بابتكار تقني حقيقي.

التطوّر: من 01 إلى 2.3

كانت القفزة من Hailuo 01 إلى 02 كبيرة بالفعل، لكن الانتقال إلى 2.3 يمثّل خاصةً تحسينًا في مستوى “الفهم”.

  • Hailuo 01: إثبات مفهوم؛ مناسب للمشاهد التجريدية، لكنه ضعيف في التماسك السردي.
  • Hailuo 02: الانطلاقة الفعلية. قدّم جودة عالية، واحتل المركز الثاني عالميًا، وأدهش المراقبين بتفوّقه على Veo 3 من Google في ثبات الصورة إلى الفيديو.
  • Hailuo 2.3: اللمسة الاحترافية. يركّز على معالجة “وادي الغرابة” في الحركة، فيصحح الأخطاء الفيزيائية الدقيقة التي تفضح أصل الفيديو على أنه مولَّد آليًا.

تحت الغطاء: معمارية Noise-Aware Computation Redistribution (NCR)

تعامل أغلب نماذج الانتشار (diffusion) كل بكسل وكل لحظة زمنية تقريبًا بالأهمية الحسابية نفسها. معمارية NCR من MiniMax تغيّر هذه القاعدة. فهي تحدّد تلقائيًا المناطق عالية التعقيد (الوجوه، الحركة السريعة، الإضاءة المعقّدة) وتعيد توزيع القدرة الحاسوبية لصالحها.

النتيجة هي:

  1. كفاءة أعلى: لا تهدر طاقة كبيرة على سماء ساكنة أو خلفية بسيطة.
  2. تفاصيل أدق: تُضخّ الموارد في تعابير الوجه الدقيقة أو سلوك الماء المتطاير بشكل واقعي.

Hailuo 2.3 Architecture Concept

الشكل 1: تصور مفاهيمي لآلية التوليد بالذكاء الاصطناعي في Hailuo 2.3.


أهم قفزات الأداء

بعد اختبارات مكثّفة وتحليل لمجموعة من مقارنات المجتمع، يظهر Hailuo 2.3 متفوّقًا بوضوح في خمسة محاور أساسية.

1. التحكم في الحركة والمحاكاة الفيزيائية

هذه هي الميزة الأبرز. ركّزت الاختبارات خصوصًا على ظاهرة “الانزلاق”؛ عندما يبدو أن الشخصية تنزلق بدلًا من أن تمشي فعليًا. يتعامل Hailuo 2.3 مع تلامس القدم مع الأرض بدقّة مدهشة.

  • الجاذبية والزخم: عندما يقفز الشخص، يهبط مع ثني واضح في الركبتين وامتصاص واقعي للصدمات. الأجسام الساقطة تتسارع كما نتوقع في الواقع بدلًا من التحرك بطريقة خطية غريبة.
  • ديناميكيات الموائع: الماء، الدخان، والنار – وهي من أصعب العناصر على نماذج الذكاء الاصطناعي – تظهر بسلوك فوضوي واقعي؛ الانعكاسات على سطح الماء تبقى ثابتة عبر الزمن بدلًا من أن تختفي أو تتشوّه فجأة.
  • التفاعلات المعقدة: في مطالبة مثل “قطع دومينو تسقط تباعًا”، تميل النماذج الأخرى إلى دمج القطع في بعضها. أمّا Hailuo 2.3 فيحترم الاصطدام الفيزيائي لكل قطعة على حدة.

2. التعابير الدقيقة للوجه

بينما تتفوّق أدوات مثل Runway Gen‑3 Alpha في مشاهد الطبيعة، فإنها عادة ما تفشل في إظهار عيون “حية” لدى الشخصيات. يضيف Hailuo 2.3 طبقة منطق عاطفي فوق توليد الوجوه.

  • انتقالات خفيفة: يمكن للشخصية الانتقال من تعبير محايد إلى ابتسامة طفيفة دون أن “يذوب” الوجه أو يتشوّه.
  • اتساق في اتجاه النظر: يبقى اتجاه العينين متماسكًا بين اللقطات، وهو عامل حاسم في بناء المشهد الدرامي.
  • إمكانات مزامنة الشفاه: رغم أنه ليس نموذجًا متخصصًا في lip-sync، فإن حركات الفم تبدو منطقية تشريحيًا، ما يسهّل الدوبلاج أو التعليق الصوتي أثناء المونتاج.

3. تحكم سينمائي في الكاميرا

هنا يبدأ Hailuo 2.3 بمنافسة لقطات الفيديو الجاهزة (stock) بشكل جدي. يمكن للمستخدم أن يتصرّف فعليًا كمدير تصوير.

  • اتساق الفراغ: عند طلب “دولي زوم سريع” (تأثير Vertigo)، يتشوّه الخلفية بشكل صحيح بينما يبقى الهدف في مكانه، في حين أن نماذج أخرى غالبًا ما تشوّه الشخصية نفسها مع الخلفية.
  • ثبات وجود الكائنات: في لقطة دوران 360 درجة حول شخصية ما، يظل مؤخر الرأس متوافقًا مع مقدّمته؛ يتذكر النموذج هندسة الجسم حتى لو خرج عن إطار الصورة للحظات.

4. تنوّع الأساليب الفنية

يبدو أن MiniMax درّبت النموذج على مجموعة بيانات شديدة التنوع تشمل الأنمي، واللوحات بالحبر، وأنماط CGI متميزة.

  • أسلوب الأنمي / cel‑shading: لا يكتفي بتطبيق فلتر شكلي؛ بل يحترم كذلك إيقاع الإطارات المعتاد في الأنمي (مثل العمل على 12–18 إطارًا فعليًا في الثانية) بدلًا من سلاسة زائفة على 60 إطارًا.
  • الواقعية الفوتوغرافية: نرى مسام البشرة وتأثير انتشار الضوء تحت الجلد، ما يجنّب مظهر “البلاستيك” الشائع في النماذج متوسطة الجودة.

Cinematic Examples of Hailuo 2.3

الشكل 2: أمثلة لأنماط فنية مختلفة أنشأها Hailuo 2.3.


تحليل النتائج المعيارية: ناطحة السحاب في مواجهة الكبار

لوضع Hailuo 2.3 في سياقه، يجب مقارنته مع “الثلاثة الكبار” حاليًا: Veo 3 من Google، Kling 2.5 (لاعب صيني قوي آخر)، وSora 2 من OpenAI (استنادًا إلى المواد المتاحة حتى الآن).

تقييمات ELO

في ساحة الفيديو التابعة لـ Artificial Analysis، تُقيّم النماذج عبر اختبارات A/B عمياء يصوّت فيها المستخدمون.

النموذجالترتيب العالميدرجة التماسكدرجة واقعية الحركةالتكلفة التقديرية لكل 5 ثوانٍ
Hailuo 2.3#294/10096/100حوالي 0.05 دولار
Veo 3 من Google#392/10089/100حوالي 0.25 دولار
Kling 2.5#491/10093/100حوالي 0.10 دولار
Seedance 1.0*#195/10095/100غير متوفر

ملاحظة: Seedance 1.0 (من ByteDance) هو النموذج الوحيد الذي يتفوق باستمرار على Hailuo، لكنه أكثر تقييدًا من حيث الوصول.

مقارنات مباشرة

Hailuo 2.3 مقابل Veo 3 من Google

  • أفضلية Veo: يتميّز Veo 3 باندماجه العميق في منظومة Google وبقدرته الأفضل على تنفيذ مطالبات نصية طويلة ومعقدة جدًا.
  • أفضلية Hailuo: في مستوى جودة الصورة الخام والفيزياء الواقعية، يميل الكفّة لصالح Hailuo. في اختبار لمشهد “سيارة على طريق وعِر”، جعل Veo 3 السيارة تنزلق فوق المطبات، بينما أظهر Hailuo 2.3 تعليق السيارة وهي يستجيب للطريق وحركة الإطارات على التضاريس، ما قلّل الإحساس بالغرابة بشكل ملحوظ.

Hailuo 2.3 مقابل Kling 2.5

  • أفضلية Kling: ما يزال Kling متفوّقًا في إنتاج لقطات طويلة (حتى دقيقتين أو ثلاث).
  • أفضلية Hailuo: ينتج Hailuo 2.3 إطارات أكثر حدّة (يرى المستخدم أن 1080p الأصلي أوضح) ويتعامل أفضل مع الحركة السريعة؛ إذ قد يظهر لدى Kling أحيانًا “تمطيط” أو لطخات حركة، بينما يحافظ Hailuo على حدة الحواف وتفاصيل الأجسام.

Benchmark Comparison Chart

الشكل 3: مخطط تمثيلي لمجموعة من مؤشرات الأداء المقارَنة بين النماذج.


المواصفات التقنية

بالنسبة للمطورين والمستخدمين المتقدّمين، تحدد المواصفات مدى قابلية النموذج للاستخدام الحقيقي. يتوفّر Hailuo 2.3 من خلال واجهة ويب (مثل Seadance AI) وكذلك عبر منصات تجميع ومزوّدي خدمات آخرين.

الميزةالمواصفاتملاحظات
أعلى دقة1920×1080 (1080p)توليد أصلي، ليس مجرد رفع دقة.
المدةمن 6 إلى 10 ثوانٍيمكن تمديدها عبر خيارات “Extend” في بعض الواجهات.
معدّل الإطارات24 أو 30 أو 60 إطارًا/ثانيةقابلة للاختيار في أوضاع Pro.
نِسَب الأبعاد16:9، 9:16، 1:1، 4:3دعم كامل للفيديو العمودي لـ TikTok وShorts.
نوع الإدخالنص إلى فيديو (T2V)، صورة إلى فيديو (I2V)يبرع I2V في الحفاظ على ثبات الشخصيات.
نموذج التسعيراشتراك / نظام نقاطحوالي 0.30–0.50 دولار لكل توليد عالي الدقة (بحسب المزوّد).
زمن استجابة APIحوالي 30–60 ثانيةوضع قياسي؛ تتوفر أوضاع أسرع لدى بعض الخدمات.

حالات الاستخدام الواقعية: لمن صُمّم Hailuo 2.3؟

Hailuo 2.3 ليس لعبة تجريبية؛ بل يشق طريقه فعليًا إلى سلاسل إنتاج حقيقية.

1. التجارة الإلكترونية والإعلانات

هذا ربما أهم سيناريو. إمكانية تحويل صورة منتج ثابتة (مثل زجاجة عطر) إلى فيديو يظهر فيه المنتج في جدول ماء أو محاطًا ببتلات متحركة تمنح العلامات التجارية قوة بصرية هائلة.

  • دراسة حالة: انطلاقًا من صورة حذاء رياضي واحدة، تم توليد إعلان يظهر فيه الحذاء وهو يخطو داخل بركة ماء. كانت واقعية حركة المياه كافية للاستغناء عن محاكاة CGI مكلفة، مع توفير كبير في ميزانية المؤثرات البصرية.

2. محتوى شبكات التواصل (Reels / TikTok)

مع نموذج Hailuo 2.3 Fast يمكن لمنشئي المحتوى إنتاج مقاطع B‑roll بكميات كبيرة لقنوات “بدون ظهور الوجه”. تساعد دقة الالتزام بالمطالبة النصية في إنشاء استعارات بصرية محددة (مثل “دماغ يتوهج بالطاقة”) لمحتوى تعليمي خلال ثوانٍ.

3. السينما المستقلة والـ Previs

يستخدم بعض المخرجين Hailuo 2.3 في مرحلة الـ Pre‑visualization. بدلًا من رسم لوحات القصص (Storyboards)، يُنشئون لقطات متحركة تعكس المزاج والإضاءة وحركة الكاميرا المَرجوّة.

  • مثال: “لقطة واسعة سينمائية، ترافلينغ إلى الأمام، مدينة ديستوبية، ضباب برتقالي.” خلال أقل من دقيقة، يحصل فريق الإضاءة والتصوير على مرجع بصري متحرك للجو العام.

4. تطوير الألعاب

تستفيد استوديوهات الألعاب من النموذج لإنشاء خامات (Textures) متحركة أو عناصر خلفية (مثل بوابة سحرية في حلقة متكررة)، ليتم إدراجها بعد ذلك في محركات ألعاب مثل Unity أو Unreal.

Mobile App Interface

الشكل 4: واجهة التطبيق على الهواتف تجعل إنشاء المحتوى أثناء التنقل أمرًا سهلًا لمديري قنوات التواصل الاجتماعي.


مقارنة: Hailuo 2.3 مقابل Hailuo 2.3 Fast

تقدّم MiniMax نسختين واضحتين من النموذج، واختيار النسخة المناسبة خطوة أساسية لإدارة الميزانية والوقت.

Hailuo 2.3 (النسخة القياسية)

  • أفضل استخدام: الإخراج النهائي، الإعلانات، السرد القصصي السينمائي.
  • نقاط القوة: فيزياء أكثر دقة، أقصى جودة للملمس والضوء، أفضل نتيجة مرئية ممكنة.
  • العيوب: زمن توليد أطول (قد يمتد إلى دقائق) وتكلفة أعلى لكل ثانية فيديو.

Hailuo 2.3 Fast

  • أفضل استخدام: توليد أفكار، لوحات قصص، حلقات قصيرة للسوشيال، الميمات.
  • نقاط القوة: سرعة عالية جدًا (غالبًا أقل من 30 ثانية لكل مقطع)، وتكلفة أقل بحوالي 50٪.
  • العيوب: فيزياء أقل صرامة قليلاً؛ الخلفيات قد تظهر بها بعض التناقضات، واليدين في الحركات المعقّدة لا تزالان نقطة ضعف بين الحين والآخر.

التوصية: استخدم أولًا Fast لتجريب وضبط المطالبة النصية والتركيب البصري، ثم نفّذ نفس المطالبة (مع نفس الـ Seed إن أمكن) عبر النموذج Standard للحصول على النسخة النهائية عالية الجودة.


القيود والتحديات الحالية

رغم هذا الانطباع القوي، Hailuo 2.3 ليس خاليًا من العيوب. ولتقديم تقييم متوازن، لا بد من إظهار نقاط الضعف أيضًا.

  1. النص داخل الفيديو: مثل أغلب نماذج الفيديو، يواجه صعوبة في توليد نص واضح وقابل للقراءة داخل المشهد (مثل لافتة نيون بكلمة محددة). يظل من الأفضل غالبًا استخدام أدوات متخصصة في النصوص البصرية، ثم تحريك النتائج باستخدام Hailuo.
  2. الاتساق الزمني في المقاطع الطويلة: حتى 6 ثوانٍ، الاتساق الزمني ممتاز؛ لكن عند تمديد المقاطع إلى 15–20 ثانية قد تظهر “منطق أحلام”، مثل تحوّل النهار تدريجيًا إلى غروب من دون سبب سردي.
  3. التفاعلات المعقّدة باليدين: حركة المشي والجسم ككل أصبحت مقنعة، لكن الحركات الدقيقة للأصابع (مثل العزف على الغيتار أو الكتابة على لوحة مفاتيح) قد ينتج عنها أحيانًا “أصابع معكرونة”، وإن كان ذلك أقل من النسخة 02.
  4. مرشّحات الأمان/الرقابة: يحتوي النموذج على حواجز سلامة صارمة. هي ضرورية، لكنها قد تسبّب أحيانًا إنذارات خاطئة على مطالبات بريئة إذا كانت صياغة الكلمات ملتبسة أو حساسة.

الآثار المستقبلية على عالم الفيديو بالذكاء الاصطناعي

إطلاق Hailuo 2.3 إشارة واضحة إلى نضج السوق. لقد انتقلنا من الانبهار لمجرد رؤية صورة تتحرك، إلى التركيز على مدى قابلية استخدام هذه الحركة في سياقات عملية.

  • تحويل الفيزياء إلى “سلعة جاهزة”: أثبتت MiniMax أن الفيزياء الواقعية ليست حكرًا على محركات مثل Unreal وUnity؛ نماذج التوليد بدأت تتعلّم قوانين الطبيعة فعليًا.
  • سير عمل يتمحور حول المخرج: من المرجّح أن تسمح الإصدارات القادمة بتعديل الإضاءة أو زاوية الكاميرا بعد التوليد، ما يقرّبنا من منظومة مونتاج فيديو حجمية (Volumetric) تُدار بالكامل بالذكاء الاصطناعي.
  • حرب الأسعار: مع جودة عالية وسعر منخفض بهذا الشكل، يدفع Hailuo منافسين غربيين مثل Runway وLuma إلى إعادة التفكير في تسعيرهم أو القفز بقدراتهم قفزة كبيرة لمجاراة المنافسة.

الخاتمة

Hailuo 2.3 ليس مجرد تحديث تدريجي؛ بل هو بيان واضح عن نوايا MiniMax. عبر إتقان التحكم في الحركة والفيزياء، عالجت الشركة اثنتين من أكبر الشكاوى من الفيديوهات المولَّدة بالذكاء الاصطناعي، واقتربت خطوة أخرى من مستوى اللقطات المصوَّرة بالكاميرا.

بالنسبة للمسوقين، وصنّاع الأفلام، ومنشئي المحتوى، يمثّل Hailuo 2.3 اللحظة التي يتحوّل فيها الفيديو بالذكاء الاصطناعي من أداة “تجريبية” إلى أداة “أساسية”. إذا لم تكن قد جرّبته بعد، فربما تعتمد على تصوّرات قديمة عما يمكن للذكاء الاصطناعي إنجازه اليوم. لقد اكتمل بناء ناطحة السحاب؛ والمنظر من الأعلى يستحق النظر.

Hailuo AI Generative Result

الشكل 5: مثال على مخرجات عالية الدقة وغنية بالتفاصيل يمكن الحصول عليها بواسطة Hailuo 2.3.