·10 اردیبهشت 1403

این هوش مصنوعی جدید چینی از متن شما ویدئو می‌سازد

پژوهشگران چینی از نرم‌افزار قدرتمند تولید ویدئو با هوش مصنوعی به نام Vidu رونمایی کردند. این نرم‌افزار با هوش مصنوعی قادر است با دریافت متن، ویدئوهای ۱۶ ثانیه‌ای با کیفیت ۱۰۸۰p تولیدکند. رونمایی از این نرم‌افزار در انجمن ۲۰۲۴ Zhongguancun در پکن انجام شد. سازندگان Vidu آن را رقیبی جدی برای نرم‌افزار Sora شرکت OpenAI معرفی کردند.

فهرست عناوین نمایش

قابلیت تولید ویدئوهای کوتاه‌تر

درحالی‌که نرم‌افزار Sora قادر به تولید ویدئوهای ۶۰ ثانیه‌ای است، Vidu ویدئوهای ۱۶ ثانیه‌ای تولید می‌کند. Vidu براساس معماری مبدل دیداری فراگیر (U-ViT) بنا شده‌است. به گفته شرکت سازنده این نرم‌افزار امکان شبیه‌سازی دنیای واقعی با تولید نماهای چنددوربینی را می‌دهد.

قابلیت‌های Vidu

شرکت سازنده Vidu مدعی است که ویدو قادر به تولید ویدئوهایی با صحنه‌های پیچیده منطبق با قوانین فیزیک دنیای واقعی است. نورپردازی و سایه‌های واقع‌گرایانه و حالات چهره دقیق از ویژگی‌های مهم این نرم‌افزار است. این مدل همچنین با داشتن قوه تخیل قوی، محتوای سورئال و غیرموجود را با عمق و پیچیدگی ایجاد می‌کند. قابلیت‌های چنددوربینی Vidu امکان تولید نماهای پویا را فراهم می‌کند که به‌طور یکپارچه بین نماهای لانگ‌شات، کلوزآپ و مدیوم‌شات در یک صحنه جابجا می‌شود.

مقایسه با Sora

شرکت سازنده در نمایش خود سعی کرد صحنه‌های مشابهی را که قبلا توسط OpenAI هنگام عرضه Sora به اشتراک گذاشته شده‌بود، بازسازی‌کند. Vidu دستاورد چشمگیری است و نشان‌دهنده پیشرفت سریع چین در تحقیقات هوش مصنوعی است، مقایسه مستقیم با Sora نشان می‌دهد که ویدئوهای تولیدشده به سطح واقع‌گرایی Sora نمی‌رسند. خروجی هوش مصنوعی ویدئو Vidu در عین تأثیرگذاری، از نظر وفاداری بصری به پای Sora نمی‌رسد.

با این حال، مهم است که بپذیریم انسجام زمانی حاصل‌شده توسط Vidu قابل تحسین است و این فناوری پتانسیل بهبود و ارتقاء بیشتر در طول زمان را دارد.