کارتون هوش مصنوعی تام و جری که انویدیا ساخته واقعا ترسناک بهنظر میرسد
گروهی از محققان شرکت انویدیا (Nvidia) که روی تراشههای هوش مصنوعی کار میکنند، طی یک همکاری با دانشجویان دانشگاههای استنفورد، یو سی سن دیگو، یو سی برکلی و یو تی آستین برای ساخت یک ویدیو تام و جری دور هم جمع شدند. برای انجام این کار، محققان و دانشجویان مذکور حدود ۸۱ قسمت از کارتون تام و جری (Tom & Jerry) را در اختیار مدل هوش مصنوعی قرار دادند تا به بهترین شکل ممکن با جزئیات شخصیتها، طراحی محیطی و ساختار کارتون آشنا شود.
گفته میشود هدف این آزمایش ساخت ویدیوهای طولانیتر از حد معمول با هوش مصنوعی بوده تا چالش self-attention را از میان ببرد. این مشکل حتی با جدیدترین مدلهای هوش مصنوعی مثل Sora 2 هم وجود دارد و این مدلها نمیتوانند ویدیوهایی طولانیتر از ۲۵ ثانیه بسازند. بنابراین در حال حاضر تمام APIهای عرضه شده برای عموم که روی ساخت ویدیو کار میکنند، از لحاظ فنی بسیار محدود هستند. تا همین چند ماه پیش هوش مصنوعی Sora از OpenAI حداکثر ۲۰ ثانیه، Moviegen از متا حداکثر ۱۶ ثانیه، Ray از لوما حداکثر ۱۰ ثانیه و Veo 2 از گوگل حداکثر ۸ ثانیه ویدیو میساختند.
تیم تحقیقاتی شرکت انویدیا (شامل جیاروی ژو، شیهائو هان، کا چون چئونگ، جان کائوتز، یجین چوی، یو سان، ژیالونگ وانگ) طی یک بیانیه مفصل از نحوه ساخت ویدیو طولانیتر برای تام و جری پرده برداشتهاند. در بیانیه تیم آمده است:
این ویدیوها با صحنههای همگام و همسان و همچنین حرکات داینامیک داستانهای پیچیدهای را روایت میکنند. هر ویدیو مستقیما با مدل هوش مصنوعی آن هم با یک شات (یعنی بدون ادیت، تغییر یا استفاده از post-processing) ساخته شده است. هر داستان به صورت کاملا جدید طراحی شده است.
نکته جالب توجه آن است که در بیانیه محققان انویدیا هیچگونه اشارهای به بهرهگیری قانونی از حقوق کپی رایت و کسب اجازه از کمپانی برادران وارنر برای ساخت ویدیوها وجود ندارد. در هر صورت، شما در ادامه میتوانید یکی از ویدیوهای ساخته شده توسط هوش مصنوعی را مشاهده کنید، جایی که تام به عنوان یک کارمند اداری در مرکز تجارت جهانی مشغول به کار است:
شاید ویدیو بالا در نگاه ابتدایی خیلی تحسینبرانگیز به نظر برسد، اما کافی است چند ثانیه با دقت به تماشای آن ادامه دهید و متوجه نقصهای آشکار، حرکات غیرمنطقی، اشیاء عجیب و غریب و کلی موارد دیگر شوید. در حالی که ما با یک آزمایش طرف هستیم و باید آن را بر اساس اهداف تحقیقاتی قضاوت کنیم، در هر صورت این نمونه به خوبی نشان میدهد که هوش مصنوعی همچنان چند سال تا ساخت انیمیشنها و ویدیوهای کامل و بینقص فاصله دارد.
مسئله جالب دیگر که نباید نادیده گرفته شود، حجم دیوانهوار و عظیم پرامپت مورد نظر برای دستیابی به همین ویدیو نسبتا کوتاه و پرنقص است. طبق آنچه محققان انویدیا منتشر کردهاند، پرامپت کارتون یک دقیقهای تام و جری حدود ۱۵۰۰ کلمه بوده که واقعا دیوانهوار است! در نهایت اگر به تماشای بقیه ویدیوهای هوش مصنوعی تام و جری علاقه دارید، میتوانید به این لینک در سایت Cartoon Brew سر بزنید.
نظر شما درباره ویدیو هوش مصنوعی تام و جری چیست؟ فکر میکنید چقدر زمان میبرد تا هوش مصنوعی بتواند آثار طولانی و بینقص تولید کند؟
منبع: Cartoon Brew

نظرات