SORA چیست؟ | هوش مصنوعی جدید که ویدیوهای کاملا واقعی می سازد!
![](https://coinxo.net/wp-content/uploads/2024/04/SORA-OpenAI-780x470.jpg)
بار دیگر، OpenAI، توسعه دهنده Chat GPT، با رونمایی از هوش مصنوعی جدید، دنیای فناوری را تحت تاثیر قرار داده است. یک مدل تولید کننده ویدئو با هوش مصنوعی به نام SORA که می تواند ویدئوهای کوتاه بسیار واقعی را با استفاده از متن ساده ایجاد کند. اگرچه این محصول هنوز در دسترس عموم قرار نگرفته است، اما انتشار برخی از نمونه های تولید شده توسط تیم سازنده تعجب کاربران را برانگیخت. در زیر به این خواهیم پرداخت که این هوش مصنوعی جدید SORA چیست و چگونه کار می کند. ما همچنین نظر برخی از کارشناسان را در مورد این محصول بررسی می کنیم.
تبدیل متن ساده به ویدیو
مدت کوتاهی پس از معرفی و عرضه چت بات GPT توسط OpenAI، این شرکت محصول جدید خود، هوش مصنوعی بسیار قدرتمند برای تبدیل متن به ویدئو را ارائه کرد. در روز پنجشنبه، 15 فوریه 2024 (26 فوریه 1402)، حساب رسمی OpenAI در پلتفرم X پستی را منتشر کرد که علاوه بر متن، شامل یک ویدیوی دلگرم کننده از منظره برفی در یک شهر بود. در متن پست اشاره شده است که این شرکت یک مدل هوش مصنوعی جدید به نام SORA ایجاد کرده است که میتواند ویدیوهایی تا 60 ثانیه ایجاد کند و صحنههای بسیار دقیق، حرکات پیچیده دوربین و شخصیتهای متعدد را با حرکات و احساسات کاملاً واقعی به تصویر بکشد. بهتر است قبل از هر توضیح دیگری این ویدیو را ببینید.
با کمال تعجب، این ویدیو با ارائه SORA تنها با متن انگلیسی ساده ساخته شده است. برای درک بهتر معجزه این محصول پیشنهاد می کنیم ترجمه فارسی متن اصلی را مطالعه کرده و با جزئیات موجود در ویدیو مقایسه کنید:
شهر زیبا و برفی توکیو بیش از حد شلوغ است. دوربین چند نفر را در یک خیابان شلوغ دنبال می کند که از هوای زیبای برفی لذت می برند و از فروشگاه های اطراف خرید می کنند. گلبرگ های زیبای ساکورا همراه با دانه های برف در باد حرکت می کنند.
حال بیایید نگاهی دقیق تر به این محصول جذاب و ویژگی های آن داشته باشیم.
SORA چیست؟
طبق تعریف وب سایت رسمی OpenAI، Sora (SORA) یک مدل هوش مصنوعی است که می تواند با استفاده از دستورات متنی صحنه های واقعی و تخیلی ایجاد کند. در واقع SORA یک متن توضیحی از کاربر دریافت می کند و با توجه به آن ویدئویی با طول حداکثر یک دقیقه و با جزئیات بالا و دقیق ایجاد می کند. OpenAI همچنین ادعا میکند که مدل SORA AI میتواند صحنههای واقعی فیلممانند را تا رزولوشن 1920x1080p ایجاد کند. این صحنه ها می توانند شامل شخصیت های متعدد، انواع خاص حرکت و جزئیات سوژه و پس زمینه باشند.
SORA چگونه کار می کند؟
مانند محصول قبلی OpenAI، Dall-E 3، که متن را به تصویر تبدیل می کند، SORA نیز بر روی مدلی به نام مدل انتشار کار می کند.
انتشار در اینجا به یک مدل هوش مصنوعی مولد اشاره دارد که خروجی خود را با ایجاد یک ویدیو یا تصویر به شکلی که در ابتدا شبیه “نویز” است، ایجاد می کند. سپس با “حذف نویز” به تدریج آن را طی چندین مرحله تغییر می دهم و به نتیجه نهایی نزدیک می کنم. OpenAI میگوید Sora بر اساس تحقیقات قبلی از مدلهای ChatGPT و Dall-E 3 ساخته شده است و ادعا میکند که این ویژگی به SORA کمک میکند تا ورودیهای کاربر را با دقت بیشتری نشان دهد.
در تصویر زیر می بینیم که تصاویر تولید شده توسط SORA در ابتدا و قبل از پردازش مکرر، وضوح و دقت کمتری دارند و با پردازش بیشتر، کیفیت و جزئیات تصویر بهبود می یابد.
از سوی دیگر، با این حال، OpenAI اذعان می کند که SORA هنوز در مرحله توسعه است و دارای چندین نقطه ضعف است. به همین دلیل، شبیه سازی دقیق فیزیک یک صحنه پیچیده می تواند چالش برانگیز باشد، زیرا گاهی اوقات نمی تواند به درستی تأثیر اجزا را بر روی یکدیگر درک کند. برای مثال OpenAI تصویر زیر را منتشر کرد که در آن حرکت یک فرد روی تردمیل به عقب و اشتباه نشان داده شده است.
کاربردهای SORA چیست؟
از زمانی که OpenAI چت بات GPT را معرفی کرد تا به امروز، تغییرات و پیشرفت های زیادی در نحوه استفاده از آن ایجاد شده است. افراد و شرکت ها می توانند GPT های خود را آموزش دهند و مطابق با اهداف خود از آنها استفاده کنند. بنابراین اکنون که تنها چند روز از رونمایی محدود SORA AI می گذرد، کمی زود است که درباره کاربردها و پتانسیل آن اظهار نظر کنیم.
اما وبسایت رسمی OpenAI توضیح میدهد که SORA علاوه بر اینکه میتواند از دستورات متنی ویدیو بسازد، میتواند تصویر ثابت موجود را بگیرد و محتوای آن تصویر را با دقت و توجه به جزئیات متحرک کند و با آن ویدیو بسازد. این مدل هوش مصنوعی همچنین میتواند یک ویدیوی موجود را بگیرد و آن را به موقع پخش کند یا فریمهای گمشدهاش را بارها و بارها پخش کند.
نظر کارشناسی در مورد SORA
دهها دموی ویدیویی در پلتفرم X منتشر شده است که نمونههای تولید شده توسط Sora را نشان میدهد، و Sora در حال حاضر با بیش از 173000 پست در X ترند شده است. سام آلتمن، مدیر عامل OpenAI، برای نشان دادن قابلیتهای مدل جدید این شرکت، اعلام کرد که درخواستهای متنی کاربران را برای تولید یک ویدیوی سفارشی در X میپذیرد. او در ادامه مجموعاً هفت ویدیو تولید شده توسط سورا را به اشتراک گذاشت که بسیاری از کاربران را شگفتزده کرد.
جیم فان، محقق ارشد انویدیا، در پستی در 15 فوریه در پلتفرم X گفت که هر کسی که فکر میکند SORA فقط یک «اسباببازی خلاقانه» دیگر مانند Dall-E 3 است، بسیار در اشتباه است. او در ادامه توضیح می دهد که: “SORA یک موتور فیزیک مبتنی بر داده است که بسیاری از جهان های واقعی یا خیالی را شبیه سازی می کند.” جیم فان با اشاره به یکی از ویدیوهای تولید شده توسط SORA می گوید: “من تعجب نمی کنم اگر SORA بر روی حجم زیادی از داده های مصنوعی با استفاده از Unreal Engine 5 آموزش داده شود. به نظر می رسد این اتفاق افتاده است!”
متن مورد نیاز: “نمای نزدیک از دو کشتی دزدان دریایی در حال مبارزه با یکدیگر در حالی که در یک فنجان قهوه حرکت می کنند.”
به گفته فن، SORA AI چیزی بیش از یک ابزار تولید ویدیو و چیزی بیش از یک «موتور فیزیک مبتنی بر داده» است. زیرا این مدل نه تنها ویدئوهای انتزاعی تولید می کند، بلکه به طور قطع فیزیک اجسام در خود صحنه را نیز ایجاد می کند. مک کی ریگلی، مفسر و تحلیلگر فناوریهای هوش مصنوعی، به همراه بسیاری از کاربران دیگر، نوشت که ویدیوی ایجاد شده توسط SORA چیزی را به جا نمیگذارد.
آیا می توان از SORA برای عموم استفاده کرد؟
OpenAI گفت که مدل جدید هوش مصنوعی آن در حال حاضر فقط در دسترس «تیمهای قرمز» (یک اصطلاح فنی برای محققان امنیت سایبری) برای ارزیابی و شناسایی آسیبپذیریها یا خطرات است. این دسترسی همچنین به برخی از طراحان، هنرمندان تجسمی و فیلمسازان برای دریافت بازخورد داده شد، اما OpenAI نام این افراد را فاش نمی کند. بنابراین به نظر می رسد زمان زیادی تا عرضه عمومی این محصول باقی مانده است.
همچنین تاریخ انتشار رسمی SORA توسط تیم سازنده اعلام نشده است و انتظار می رود با توجه به پیچیدگی و تکنولوژی بالای این محصول، انتشار آن کمی بیشتر طول بکشد و حتی در سال 2024 شاهد عرضه آن نباشید.
خطرات استفاده از SORA چیست؟
در دسامبر 2023، گزارشی از دانشگاه استنفورد نشان داد که ابزارهای تولید تصویر مبتنی بر هوش مصنوعی با استفاده از پایگاه داده لایون هوش مصنوعی از هزاران تصویر از کودک آزاری در حال توسعه هستند. این نگرانیهای اخلاقی و قانونی جدی را برای فناوری متن به تصویر ایجاد میکند.
همچنین زمانی که ابزارهای هوش مصنوعی برای تبدیل متن به تصاویر مانند Dall-E رایج شد، این حمله علیه آنها شکل گرفت که تصاویر تولید شده توسط آنها می توانست برای اهداف شوم مانند کلاهبرداری و غیره مورد استفاده قرار گیرد. ایجاد تعادل بین گسترش استفاده از فناوری جدید و مدیریت ریسک چالشی است که احتمالاً در راه SORA قرار دارد.
نتیجه
پیشرفت ها در مدل ها و ابزارهای هوش مصنوعی در ماه ها و سال های اخیر خیره کننده بوده است. این ابزارها روش و تعریف انجام بسیاری از فعالیت ها را برای افراد تغییر داده است. اما مدل هوش مصنوعی SORA آنقدر پیچیده به نظر می رسد که بتوان به راحتی آن را تحلیل کرد. در نتیجه باید منتظر ماند و دید که OpenAI چه زمانی قصد دارد این محصول شگفت انگیز را به صورت رسمی عرضه کند. تا آن زمان، پیشنهاد می کنیم از وب سایت رسمی OpenAI دیدن کنید و از تصاویر منحصر به فرد ایجاد شده توسط SORA لذت ببرید.