سورا (نموذج تحويل نص إلى فيديو)
نوع |
نموذج تحويل نص إلى فيديو |
---|---|
سمي باسم | |
المطور الأصلي | |
المطورون | |
موقع الويب |
الإصدار الأول |
---|
جزء من سلسلة مقالات حول |
الذكاء الاصطناعي |
---|
سورا(Sora) هو نموذج تحويل النص إلى فيديو من قبل شركة أوبن أيه آي(OpenAI). يمكنه إنشاء مقاطع فيديو بناءً على نص الوصفية بالإضافة إلى تمديد الزمن في مقاطع الفيديو للأمام أو للخلف.[2][3] اعتبارًا من فبراير 2024، ما يزال غير متاحًا للجمهور بعد.[4]
تاريخ
[عدل]تم إنشاء العديد من نماذج تحويل النص إلى فيديو قبل سورا، بما في ذلك نموذج قم-بصناعة-فيديو (make-A-Video) من شركة ميتا، جين-٢ من شركة رنوي (Runway)، ولومير من غوغل الذي لا يزال في مرحلة البحث.[5][6] أصدرت أوبن أيه آي نموذج دال-إي (DALL-E) ٣، وهو النموذج الثالث من نماذج DALL-E لتحويل النص إلى صورة، في سبتمبر 2023.[7]
أطلق الفريق المطوّر اسم سورا على النموذج والذي يعني السماء باليابانية للدلالة على "إمكانات الإبداعية للنموذج اللامحدودة".[8] في 15 فبراير 2024، قامت أوبن أيه آي بعرض سورا لأول مرة من خلال إصدار مقاطع عالية الوضوح التي أنشئها النموذج، بما في ذلك سيارة دفع رباعي تسير على طريق جبلي، ورسوم متحركة لـ "وحش قصير زغبي" بجوار شمعة، وشخصين يسيران عبر طوكيو في الثلج، ولقطات تاريخية مزيفة لحمى الذهب في كاليفورنيا، وذكرت أنها كانت قادرة على إنتاج مقاطع فيديو تصل مدتها إلى دقيقة واحدة.[9][10] ثم شاركت الشركة تقريرًا فنيًا يسلط الضوء على الأساليب المستخدمة لتدريب النموذج. [11] [12] كما نشر سام ألتمان، الرئيس التنفيذي لشركة أوبن أيه آي، سلسلة من التغريدات، ردًا على نصوص مستخدمي تويتر مقاطع فيديو أنشأها سورا.
ذكرت أوبن أي آيه أنها تخطط لإتاحة سورا للعموم ولكن لن يكون ذلك قريبًا؛ ولم يحدد متى. [9] [13] أتاحت الشركة وصولًا محدودًا إلى " فريق أحمر" صغير، يضم خبراء في المعلومات المضللة والتحيز، لإجراء اختبار الخصومة على النموذج.[14] كما سمحت الشركة لمجموعة صغيرة من المحترفين المبدعين، بما في ذلك صانعي الفيديو والفنانين، للحصول على آراء حول فائدته في المجالات الإبداعية. [15]
القدرات والقيود
[عدل]التكنولوجيا وراء سوا هي تعديل للتكنولوجيا وراء دال أي 3. وفقًا لـ أوبن أي آيه، فإن سورا هو محول انتشار[16] وهو نموذج انتشار كامن لتقليل الضوضاء مع محول واحد باعتباره مزيل الضوضاء. يتم إنشاء الفيديو في مساحة كامنة عن طريق تقليل التشويش ثلاثي الأبعاد، ثم يتم تحويله إلى مساحة قياسية من خلال إلغاء ضغط الفيديو. يتم إعادة التسميات لزيادة بيانات التدريب، باستخدام نموذج تحويل الفيديو إلى نص لإنشاء تسميات توضيحية مفصّلة على مقاطع الفيديو.[17]
قامت أوبن أي آيه بتدريب النموذج باستخدام مقاطع الفيديو المتاحة للعموم بالإضافة إلى مقاطع الفيديو المحمية بحقوق الطبع والنشر المرخصة لهذا الغرض، لكنها لم تكشف عن عدد مقاطع الفيديو أو مصدرها الدقيق.[8] عند إطلاقه، اعترفت أوبن أيه آي ببعض عيوب سورا، بما في ذلك معاناة النموذج لمحاكاة الفيزياء المعقدة، ولفهم السببية، والتمييز بين اليسار واليمين.[18] ذكرت أوبن أي آيه أيضًا أنه، التزامًا بممارسات السلامة الحالية للشركة، سوف تقوم سورا بتقييد المطالبات النصية للصور الجنسية أو العنيفة أو التي تحض على الكراهية أو صور المشاهير، بالإضافة إلى المحتوى الذي يعرض ملكية فكرية موجودة مسبقًا.[14]
صرح تيم بروكس، الباحث الذي عمل على سورا، أن النموذج اكتشف كيفية إنشاء رسومات ثلاثية الأبعاد من البيانات الخاصة به وحده، بينما قال بيل بيبلز، وهو أيضًا باحث يعمل على سورا، إن النموذج أنشأ تلقائيًا زوايا فيديو مختلفة دون أن يُطلب منه ذلك.[9] وفقًا لـ أوبن أيه آي، يتم تمييز مقاطع الفيديو التي تم إنشاؤها بواسطة سورا ببيانات تعريف C2PA للإشارة إلى أنها تم إنشاؤها بواسطة الذكاء الاصطناعي. [8]
الاستقبال
[عدل]وصف ويل دوغلاس هيفين من مجلة MIT Technology Review مقاطع الفيديو التوضيحية بأنها "مثيرة للإعجاب"، لكنه أشار أيضاً إلى أنها بالتأكيد منتقاة بعناية وقد لا تمثل مخرجات سورا النموذجية.[19] بينما أعرب الأكاديمي الأمريكي أورين إتزيوني عن مخاوفه بشأن قدرة التكنولوجيا على خلق معلومات مضللة للحملات السياسية[8] كتب ستيفن ليفي لمجلة Wired بالمثل أنه من المحتمل أن يخلق "قطار معلومات مضللة" ورأى أن المقاطع كانت "مثيرة للإعجاب" ولكنها "ليست مثالية" وأنها "تُظهر فهمًا ناشئًا للقواعد السينمائية". وذلك بسبب تغييرات اللقطة غير المتوقعة. وأضاف ليفي: "سيمر وقت طويل جدًا، هذا إن حدث، قبل أن يهدد نموذج تحويل النص إلى فيديو صناعة الأفلام الفعلية."[9] أما ليزا لاسي من موقع CNET فقد وصفت مقاطع الفيديو بأنها "واقعية بصورة ملحوظة - باستثناء ربما عندما يظهر وجه بشري عن قرب أو عندما تسبح الكائنات البحرية".[14]
مراجع
[عدل]- ^ ا ب "ثريدز" (بالإنجليزية). 6 Jul 2023.
- ^ Metz، Cade (15 فبراير 2024). "OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos". نيويورك تايمز. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-15.
- ^ Brooks، Tim؛ Peebles، Bill؛ Holmes، Connor؛ DePue، Will؛ Guo، Yufei؛ Jing، Li؛ Schnurr، David؛ Taylor، Joe؛ Luhman، Troy (15 فبراير 2024). "Video generation models as world simulators". أوبن أيه آي. مؤرشف من الأصل في 2024-02-16. اطلع عليه بتاريخ 2024-02-16.
- ^ Yang، Angela (15 فبراير 2024). "OpenAI teases 'Sora,' its new text-to-video AI model". إن بي سي نيوز. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-16.
- ^ Mauran، Cecily (15 فبراير 2024). "OpenAI announces Sora, a wild AI text-to-video model. See it in action". ماشابل. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-16.
- ^ Levy، Steven (15 فبراير 2024). "OpenAI's Sora Turns AI Prompts Into Photorealistic Videos". Wired. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-16.
- ^ Lacy، Lisa (15 فبراير 2024). "Meet Sora, OpenAI's Text-to-Video Generator". سي نت. مؤرشف من الأصل في 2024-02-16. اطلع عليه بتاريخ 2024-02-16.
- ^ ا ب ج د Metz، Cade (15 فبراير 2024). "OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos". نيويورك تايمز. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-15.Metz, Cade (February 15, 2024). "OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos". The New York Times. Archived from the original on February 15, 2024. Retrieved February 15, 2024.
- ^ ا ب ج د Levy، Steven (15 فبراير 2024). "OpenAI's Sora Turns AI Prompts Into Photorealistic Videos". Wired. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-16.Levy, Steven (February 15, 2024). "OpenAI's Sora Turns AI Prompts Into Photorealistic Videos". Wired. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
- ^ Mauran، Cecily (15 فبراير 2024). "OpenAI announces Sora, a wild AI text-to-video model. See it in action". ماشابل. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-16.Mauran, Cecily (February 15, 2024). "OpenAI announces Sora, a wild AI text-to-video model. See it in action". Mashable. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
- ^ Brooks، Tim؛ Peebles، Bill؛ Holmes، Connor؛ DePue، Will؛ Guo، Yufei؛ Jing، Li؛ Schnurr، David؛ Taylor، Joe؛ Luhman، Troy (15 فبراير 2024). "Video generation models as world simulators". أوبن أيه آي. مؤرشف من الأصل في 2024-02-16. اطلع عليه بتاريخ 2024-02-16.Brooks, Tim; Peebles, Bill; Holmes, Connor; DePue, Will; Guo, Yufei; Jing, Li; Schnurr, David; Taylor, Joe; Luhman, Troy; Luhman, Eric; Ng, Clarence Wing Yin; Wang, Ricky; Ramesh, Aditya (February 15, 2024). "Video generation models as world simulators". OpenAI. Archived from the original on February 16, 2024. Retrieved February 16, 2024.
- ^ Edwards, Benj (16 Feb 2024). "OpenAI collapses media reality with Sora, a photorealistic AI video generator". آرس تكنيكا (بالإنجليزية الأمريكية). Archived from the original on 2024-02-17. Retrieved 2024-02-17.
- ^ Yang، Angela (15 فبراير 2024). "OpenAI teases 'Sora,' its new text-to-video AI model". إن بي سي نيوز. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-16.Yang, Angela (February 15, 2024). "OpenAI teases 'Sora,' its new text-to-video AI model". NBC News. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
- ^ ا ب ج Lacy، Lisa (15 فبراير 2024). "Meet Sora, OpenAI's Text-to-Video Generator". سي نت. مؤرشف من الأصل في 2024-02-16. اطلع عليه بتاريخ 2024-02-16.Lacy, Lisa (February 15, 2024). "Meet Sora, OpenAI's Text-to-Video Generator". CNET. Archived from the original on February 16, 2024. Retrieved February 16, 2024.
- ^ Heaven، Will Douglas (15 فبراير 2024). "OpenAI teases an amazing new generative video model called Sora". إم آي تي تكنولوجي ريفيو. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-15.
- ^ Peebles، William؛ Xie، Saining (2023). "Scalable Diffusion Models with Transformers". 2023 IEEE/CVF International Conference on Computer Vision (ICCV). ص. 4172–4182. arXiv:2212.09748. DOI:10.1109/ICCV51070.2023.00387. ISBN:979-8-3503-0718-4. ISSN:2380-7504. S2CID:254854389.
- ^ Edwards, Benj (16 Feb 2024). "OpenAI collapses media reality with Sora, a photorealistic AI video generator". آرس تكنيكا (بالإنجليزية الأمريكية). Archived from the original on 2024-02-17. Retrieved 2024-02-17.Edwards, Benj (February 16, 2024). "OpenAI collapses media reality with Sora, a photorealistic AI video generator". Ars Technica. Archived from the original on February 17, 2024. Retrieved February 17, 2024.
- ^ Pequeño IV، Antonio (15 فبراير 2024). "OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts". فوربس. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-15.
- ^ Heaven، Will Douglas (15 فبراير 2024). "OpenAI teases an amazing new generative video model called Sora". إم آي تي تكنولوجي ريفيو. مؤرشف من الأصل في 2024-02-15. اطلع عليه بتاريخ 2024-02-15.Heaven, Will Douglas (February 15, 2024). "OpenAI teases an amazing new generative video model called Sora". MIT Technology Review. Archived from the original on February 15, 2024. Retrieved February 15, 2024.