جيميناي أومني كسر حدود التقنية: أدخل ما تريد لإنشاء أي شيء تريد!

مايو 21, 2026

أعلنت غوغل نموذجها الجديد “جيميناي أومني” ضمن فعاليات مؤتمر المطورين “غوغل اي/او 2026″، وتصفه الشركة بأنه نموذج قادر على “إنشاء أي شيء انطلاقا من أي نوع من المدخلات”، في نقلة جديدة في عالم الذكاء الاصطناعي.

ويمثل هذا الإعلان خطوة ملموسة نحو تحقيق استراتيجية عملاق التكنولوجيا الأميركي الطموحة التي بدأت قبل ثلاث سنوات، والمتمثلة في بناء شبكة عصبية موحدة قادرة على معالجة وإنتاج النصوص، الصور، الصوت، ومقاطع الفيديو في آن واحد وبشكل أصيل.

وصرح سوندار بيتشاي، الرئيس التنفيذي لشركة غوغل، خلال إيجاز صحافي، بأن الذكاء الاصطناعي ينتقل اليوم من مرحلة “التنبؤ بالنصوص إلى محاكاة الواقع الفعلي” عبر ما يُعرف بنماذج العالم (World Models)، معتبراً عائلة “Omni” القفزة الكبرى القادمة في هذا المسار.

ثورة في إنتاج الفيديو والتعديل النصي

تأتي عائلة النماذج الجديدة بقدرة متطورة على التحليل المنطقي المتقاطع بين مختلف الوسائط.

وبدلاً من مجرد دمج المدخلات بشكل بدائي، يقوم “Omni” بالربط بينها لإنتاج مخرجات متسقة؛ مما يسمح بتوليد مقاطع فيديو عالية الجودة تعكس فهماً عميقاً لقوانين الفيزياء، والتاريخ، والعلوم. كما يتيح النموذج للمستخدمين تعديل الصور الفوتوغرافية عبر أوامر نصية بسيطة، مستغناً عن برمجيات التحرير المعقدة.

وفي هذا السياق، أكدت نيكول بريشتوفا، مديرة إدارة المنتجات في قطاع “Google DeepMind”، أن هذا الإصدار يتجاوز مجرد تحديث لنموذج الفيديو السابق “Veo”، بل هو “دمج لذكاء Gemini مع القدرات الإخراجية الفائقة لنماذج الوسائط لدينا”، مشيرة إلى تطلعات الشركة المستقبلية لتوليد الصور من الصوت أو العكس.

هويات رقمية وتدابير أمنية ضد “التزييف العميق”

يتيح الإصدار الجديد للمستخدمين إمكانية إنشاء مقاطع فيديو باستخدام صور رمزية رقمية (آفاتار) مخصصة تحاكي هوياتهم الفردية. وللحد من مخاطر تقنيات “التزييف العميق” (Deepfakes)، فرضت غوغل إجراءات أمنية صارمة تشمل تسجيل المستخدم لنفسه وهو ينطق بسلسلة من الأرقام العشوائية للتحقق من هويته قبل تخزين “الآفاتار”.

وفي خطوة إضافية لتعزيز الشفافية، أعلنت الشركة أن جميع المقاطع المنتجة عبر “Omni” ستتضمن علامة مائية رقمية غير مرئية تُعرف باسم (SynthID)، مما يسمح بالتحقق من منشأ الفيديو التوليدي.

طرحت غوغل أولى نماذج هذه العائلة تحت اسم Gemini Omni Flash عبر تطبيق Gemini، ومنصة “YouTube Shorts”، واستوديو الإبداع “Flow”. ويستطيع النموذج حالياً توليد مقاطع فيديو مدتها 10 ثوانٍ، وهو تحديد عزته بريشتوفا إلى رغبة الشركة في استيعاب أكبر عدد من المستخدمين وتلبية طبيعة الاستهلاك الحالي للمقاطع القصيرة، مؤكدة أن الفترات الأطول قيد التطوير.

ويستهدف نموذج “Flash” شريحة المستهلكين الأفراد لإنتاج ما وصفه مهندسو غوغل بـ “الميمز المخصصة”، مثل إزالة المارة من خلفيات الفيديوهات الشخصية أو توليد لقطات تخيلية للمستخدم. ورغم سهولة الاستخدام، حذر الخبراء من أن الأوامر النصية تتطلب دقة عالية لتفادي الإفراط غير المقصود في التعديل.

رغم التركيز الراهن على المستهلك، تعتزم غوغل إتاحة “Omni” للشركات والمطورين عبر واجهة برمجة التطبيقات (API) في الأسابيع المقبلة، وسط توقعات بأن تُحدث هذه التقنية تحولاً جذرياً في قطاعات الإعلانات وصناعة السينما بفضل دقتها العالية في دمج النصوص والشعارات داخل المشاهد التوليدية.

وتسعى غوغل من خلال هذه الخطوة إلى منافسة شركات ناشئة مثل “Luma AI” التي تطور أدوات إعلانية مشابهة. كما ألمحت الشركة إلى تطوير نموذج أكثر قوة تحت اسم Gemini Omni Pro لخدمة قطاع المحترفين، على أن يتم إطلاقه فور تحقيق طفرة نوعية تتجاوز قدرات نسخة “Flash” الحالية.

ميدل إيست اون لاين

لزيارة موقع بوابة الشرق الاوسط الجديدة على الفيسبوك

لزيارة موقع بوابة الشرق الاوسط الجديدة على التويتر

الوسوم