در این پست وبلاگ، پیشرفتها در پردازش ویدیو، بهویژه در سبکسازی ویدیو را بررسی خواهیم کرد.
Liu، F.-L.، Chen، S.-Y.، Lai، Y.-K.، Li، C.، Jiang، Y.-R.، Fu، H.، و Gao، L. (2022) . DeepFaceVideoEditing: ویرایش عمیق ویدیوهای چهره مبتنی بر طرح. تراکنش های ACM روی گرافیک، 41(4)، 1-16. https://doi.org/10.1145/3528223.3530056
اگر بهعنوان تولیدکننده محتوا کار میکنید، ممکن است هدف شما ایجاد یک ویدیو با سبک امضای خود باشد، با استفاده از ابزارهایی مانند Adobe Illustrator برای ایجاد دستی تصاویر با پالت رنگ خود. به نظر شما این تصویر در چه سبکی است؟
اگرچه این مدل تا حدی بهینه شده است، اما هنوز یک تاخیر آشکار در سبک سازی ویدیوی بلادرنگ وجود دارد.
ما هنوز آنجا نیستیم، اما با سبک سازی تصویر، یک الگوریتم می تواند. این مدل ها می توانند یک تصویر ورودی را تغییر داده و آن را به سبک دلخواه تبدیل کنند. پروژه های منبع باز مانند این بر اساس (Huang & Belongie, 2017) می توانند به شما در ایجاد این دگرگونی های هنری کمک کنند.
نتایج را ذیلا بررسی کنید:
همیشه بهتر است نشان داده شود، نه گفتن: جدول زیر سرعت سبک سازی ویدیو را قبل و بعد از شتاب BigDL-Nano در پردازنده Intel® Core™ i9–12900 با اعداد فرآیند متفاوت نشان می دهد. (عدد فرآیند در اینجا به تعداد فرآیندهایی اشاره دارد که همزمان استنتاج را انجام می دهند. به عنوان مثال، اگر تعداد پردازش ها = 1 باشد، تنها یک پردازش اصلی برای ارائه فریم به فریم ویدیو لازم است. اگر تعداد پردازش ها باشد. =4، سپس چهار فرآیند به طور همزمان اجرا می شود و هر فرآیند فقط باید حدود یک چهارم فریم های تصویر را پردازش کند.)
هر نتیجه تاخیر با میانگین 20 آزمایش تکراری محاسبه می شود. توجه: مقادیر زیر بر اساس طول/رزولوشن ویدیوی ورودی و نوع CPU استفاده شده متفاوت است.
در چند سال اخیر، شبکه های عصبی در همه جا ارتباط برقرار کرده اند.
برای محتوای متن باز بیشتر از اینتل، بررسی کنید open.intel
پردازش ویدیو نیز یک مورد استفاده عالی است، جایی که الگوریتمهای توسعهیافته در دهه 1980 تنها به لطف قدرت محاسباتی بزرگ به سرعتهای مفیدی میرسند.
Texler، O.، Futschik، D.، Kučera، M.، Jamriška، O.، Sochorová، Š.، Chai، M.، Tulyakov، S.، و Sýkora، D. (2020). سبک سازی تعاملی ویدئو با استفاده از آموزش مبتنی بر پچ چند شات (arXiv:2004.14489). arXiv. http://arxiv.org/abs/2004.14489
سبک سازی ویدیو یک میانبر عالی برای خلاقانی است که نمی خواهند (یا وقت ندارند) هزاران دنباله را به صورت دستی ترسیم کنند. فقط از مدل بخواهید ویدیوی ورودی را با تقلید از هنرمند تغییر دهد (انتقال سبک) و voilà خروجی چیزی شبیه به این خواهد بود:
ویدئوها یک جریان متوالی از تصاویر هستند، بنابراین سبک سازی ویدئو پیچیده تر از سبک سازی تصویر است. چالشها شامل نحوه دستیابی به سبکسازی بلادرنگ ویدیو (Lu et al., 2018) و نحوه حفظ تداوم تمام فریمهایی است که ویدیو را تشکیل میدهند. همچنین شامل پردازش ویدیو (لی و همکاران، 2022)، فناوری سبکسازی تصویر و زمینههای دیگر میشود، زیرا به این سادگی نیست، همیشه یک موضوع آکادمیک داغ بوده است. و در حال حاضر آنها به سمت سبک سازی سه بعدی روی می آورند که در آن سبک به یک شی در سه بعدی انتشار می یابد (Nguyen-Phuoc et al., 2022) (Liu et al., 2022) (Hauptfleisch et al., 2020)
پس از آموزش، آماده است تا یک استنتاج با هر ورودی دیگر تولید کند، به این معنی که در طول استنتاج، مدل سبکی را که یاد گرفته است اعمال می کند و آن را بر روی هر تصویر ورودی اعمال می کند، همانطور که در زیر مشاهده می شود.
از باکتریها گرفته تا تصاویر ماهوارهای، آنها برای تکرار رفتار نورونهای مغز با الگوریتمها کار میکنند.
این برای یک تصویر ثابت خوب است، اما ویدیو چطور؟
هوانگ، ایکس، و بلونگی، اس. (2017). انتقال سبک دلخواه در زمان واقعی با عادی سازی نمونه تطبیقی. https://doi.org/10.48550/ARXIV.1703.06868
از منظر تجاری، به تولیدکنندگان محتوای دیجیتال اجازه میدهد محتوای جالبی را به سرعت تولید کنند و نیاز به ترسیم دستی هر فریم را کم میکند. در عین حال، این فناوری همچنین میتواند در برنامههای پخش ویدیوی موجود یا برنامههای پردازش عکس تعبیه شود تا عملکردهایی مانند سبکسازی ویدیو و فیلترهای ویدیویی را ارائه دهد – مانند این مثال برای انتقال چندین سبک از پیش آموزشدیده به یک جریان ویدیویی گرفته شده از یک آیفون معمولی. * دوربین. نتایج عالی به نظر میرسند – و کیفیت همچنان بهبود مییابد – اما پیشرفت در هوش مصنوعی میتواند به معنی تاخیر در زمان پردازش باشد.
سبکسازی ویدیو، علیرغم مشکلات طولانی مدت محاسبات، راهی عالی برای ایجاد محتوای جذاب است. BigDL-Nano برای صرفهجویی در زمان و انرژی، سبکسازی ویدیویی قدرتمندی را با تحویل سریعتر ارائه میکند – حتی اجرای آن را روی رایانههای شخصی کوچک قابل حمل، مانند Intel® NUCs، ممکن میسازد.
مدل آموزشدیده میتواند هر ویدیوی ورودی را که نیاز دارید تغییر دهد، فقط چند تصویر لازم است تا یک مدل در حدود 20 تا 30 دقیقه ایجاد شود. برای جزئیات دقیق در مورد معماری های چند شات به (Texler et al., 2020) مراجعه کنید.
به نظر می رسد مستقیماً از قلم موی ونسان ون گوگ آمده است، درست است؟ مغز شما هنرمند را بر اساس سبک پیشبینی میکرد و از تصاویر دیگر آثار هنری او که در مغز توانا شما ذخیره شده بود، ترسیم میکرد. اگر فقط قدرت فوقالعاده استخراج سبک و وارد کردن آن به مغز خود را داشتید، میتوانید تصاویر را با ضربات استادانه امپرسیونیست معروف ایجاد و اصلاح کنید.
این مدل همچنین میتواند روی هر ویدیویی که میخواهید سبکسازی کند:
چالشهای کلیدی برای سبکسازی ویدیو وجود دارد، از جمله استنتاج بلادرنگ، پردازش موازی، و تداوم فریمهای مختلف در ویدیو.
درست مانند هر مدل هوش مصنوعی، دو مرحله وجود دارد: آموزش و استنتاج.
قبل از آموزش مدل، فیلم ورودی باید به تصویر تبدیل شود (گروه A). کاربر فریم های کلیدی تلطیف شده از تصاویر ورودی (گروه B) را ارائه می دهد. این تمام داده هایی است که مدل برای آموزش نیاز دارد. سپس از آن داده ها می آموزد که تصاویر سبک شده را تولید کند (گروه C).
همانطور که با مقایسه ورودی با خروجی می بینید، مدل با استفاده از علائم مشخصه ون گوگ، سبک فریم کلیدی اولیه را تقلید می کند. برای تقلید از سبک، پارامترهایی مانند رنگ ها یا سبک های طراحی را در نظر می گیرد.
برای اجرای بهینه، مخزن BigDL را بررسی کنید.
Hauptfleisch, F., Texler, O., Texler, A., Krivánek, J., & Sýkora, D. (2020). StyleProp: سبک سازی مبتنی بر مثال در زمان واقعی مدل های سه بعدی. انجمن گرافیک کامپیوتر، 39(7)، 575-586. https://doi.org/10.1111/cgf.14169
BigDL می تواند به کاهش این شکاف کمک کند. BigDL-Nano دو عملکرد دارد – کوانتیزاسیون و استنتاج چند فرآیندی – که می تواند سرعت پردازش را با تغییرات کمتر کد تقریباً دو برابر کند.
نویسندگان: Ezequiel Lanza، Ruonan Wang
Nguyen-Phuoc، T.، Liu، F.، & Xiao، L. (2022). SNeRF: بازنمایی ضمنی عصبی تلطیف شده برای صحنه های سه بعدی. https://doi.org/10.48550/ARXIV.2207.02363