رونمایی مایکروسافت از هوش مصنوعی VASA-1 که عکس‌ها را سخنگو می‌کند + ویدئو

مهرناز زاوه شنبه، ۰۱ اردیبهشت ۱۴۰۳

به لطف ابزار هوش مصنوعی جدید مایکروسافت، مرز بین آنچه واقعی هست و نیست، روز به روز باریک‌تر می‌شود. این فناوری که VASA-1 نام دارد، تصویری ثابت از چهره یک فرد را به یک کلیپ متحرک از صحبت کردن یا آواز خواندن او تبدیل می‌کند.

این غول فناوری ادعا می‌کند که حرکات لب «به‌طرز بی‌نظیری» با صدا هماهنگ می‌شوند تا به نظر برسد که سوژه زنده است. در واقع عملکرد VASA-1 فراتر از تطبیق حرکات لب با صدا است و می‌تواند طیف گسترده‌ای از احساسات، ظرافت‌های چهره و حرکات طبیعی سر را نیز به تصویر بکشد و چهره‌های ساخته‌شده را واقعی‌تر نشان دهد.

در یک نمونه، شاهکار قرن شانزدهمی لئوناردو داوینچی، «مونالیزا»، با لهجه آمریکایی شروع به رپ کردن می‌کند.

علاوه‌براین، VASA-1 روی ویدیوی تولیدشده کنترل دارد؛ به این معنا که کاربر می‌تواند جهت نگاه‌کردن شخصیت، مقیاس‌های مختلف فاصله سوژه از تصویر و حتی حالت احساسی آن‌ها را مشخص کند.

در ویدئوی زیر نتایج حاصل از حالات متفاوت چهره را مشاهده می‌کنید.

با این حال، مایکروسافت اذعان می‌کند که از آنجایی که این ابزار ممکن است برای جعل هویت انسان مورد سوء استفاده قرار گیرد، آن را برای عموم منتشر نخواهد کرد.

یکی دیگر از خطرات احتمالی کلاهبرداری است، زیرا کاربران آنلاین ممکن است به‌وسیله یک پیام جعلی از تصویر شخصی که به او اعتماد دارند گول بخورند.

کارشناسان مایکروسافت با پیش‌بینی نگرانی‌هایی که ممکن است مردم داشته باشند، گفتند:«VASA-1 به منظور ایجاد محتوایی که برای گمراه کردن یا فریب استفاده می‌شود طراحی نشده است. با این حال، مانند سایر تکنیک‌های مشابه تولید محتوا، همچنان می‌توان از آن برای جعل هویت انسان‌ها سوء استفاده کرد».

مایکروسافت اذعان می‌کند که تکنیک‌های موجود هنوز با «اصالت چهره‌های طبیعی در حال حرف زدن» فاصله دارند، اما قابلیت‌های هوش مصنوعی به سرعت در حال رشد است.

به گفته محققان دانشگاه ملی استرالیا، چهره‌های جعلی ساخته شده توسط هوش مصنوعی واقعی‌تر از چهره انسان به نظر می‌رسند. این متخصصان هشدار می‌دهند که تصاویر هوش مصنوعی از افراد، دارای واقع‌گرایی افراطی یا هایپررئالیسم هستند؛ به این معنی که چهره‌ها تناسب بیشتری دارند و مردم این موضوع را به عنوان نشانه‌ای از واقعی‌بودن تلقی می‌کنند.

مطالعه دیگری توسط کارشناسان دانشگاه لنکستر نشان داد که چهره‌های جعلی ساخته‌شده توسط هوش مصنوعی قابل اعتمادتر به نظر می‌رسند، که این موضوع پیامدهایی برای حفظ حریم خصوصی آنلاین دارد.

«سورا» در پاسخ به دستورالعمل «گربه‌ای که صاحبش را از خواب بیدار می‌کند و صبحانه می‌خواهد» این ویدیو را ارائه کرد.

در همین حال، OpenAI، خالق ربات معروف ChatGPT، ابزار ترسناک تبدیل متن به ویدیو سورا (Sora) خود را در ماه فوریه معرفی کرد که می‌تواند کلیپ‌های ویدیویی هوش مصنوعی فوق‌العاده واقعی را تنها بر اساس دستورالعمل‌های متنی کوتاه و توصیفی بسازد.

کارشناسان هشدار دادند که این موضوع می‌تواند کل صنایعی مانند تولید فیلم را از بین ببرد و منجر به افزایش ویدیوهای دیپ ‌فیک به‌ویژه در آستانه رویدادهای مهم سیاسی مانند انتخابات ریاست جمهوری شود.

https://rzto.ir/3ed7

منبع: dailymail