حالا نوبت شماست. ما در اینجا شما را از طریق مراحل راهنمایی می کنیم یا می توانید پیاده سازی را در GitHub* دنبال کنید.
برای اجرای اسکریپت نصب، پوشه ای را که در آن فایل ها را دانلود کرده اید باز کنید:
می توانید از معماری توضیح داده شده در بالا استفاده کنید و تصویر خود را دریافت کنید، اما آیا متوجه شده اید که فرآیند چقدر طول می کشد – گاهی اوقات چند دقیقه؟
3. رمزگشای تصویر (رمزگذار VAE): تصویر تولید شده توسط سازنده تصویر را دریافت کرده و تصویر نهایی را به فرمت مورد نظر تبدیل می کند.
بینایی کامپیوتر یک مثال بارز است. علیرغم نیازهای محاسباتی سنگین، دستاوردهای بزرگی در سنتز تصویر حاصل شده است (هوانگ و همکاران، 2018)، فرآیند تولید مصنوعی تصاویر حاوی محتوای خاص. این کار با چارچوب یادگیری ماشینی معروف به شبکههای متخاصم مولد (GAN) شروع شد تا به مدلهای انتشار امروزی برسد. این تکامل مدلهایی را به دانشمندان داده ارائه میکند که آموزش آنها آسان است و سریع همگرا میشوند و میتوانند به طور قابل اعتماد تصاویر با کیفیت بالا تولید کنند.
pip install -r requirements.txt
Stable Diffusion یک ابزار قدرتمند با پتانسیل ایجاد انقلاب در بسیاری از برنامه های کاربردی دنیای واقعی است. مدلهای نشاندادهشده در این وبلاگ و فرآیندهای یادگیری آنها به مقدار زیادی محاسبات نیاز دارند. بهینهسازیهایی مانند موارد ارائه شده توسط اینتل میتوانند زمان پردازش را کوتاه کنند.
پس از اتمام نصب، برنامه در دستگاه شما در دسترس خواهد بود، سپس این آدرس را به مرورگر خود اضافه کنید: http://127.0.0.1:7860/
ازکیل لانزا یک مبشر متن باز در تیم اکوسیستم باز اینتل است که مشتاق کمک به مردم برای کشف دنیای هیجان انگیز هوش مصنوعی است. او همچنین یک مجری مکرر کنفرانس هوش مصنوعی و خالق موارد استفاده، آموزش و راهنماهایی است که به توسعه دهندگان کمک می کند تا ابزارهای AI منبع باز مانند TensorFlow* و Hugging Face* را بکار گیرند. او را در توییتر در @ پیدا کنیدeze_lanza
قبل از ایجاد تصویر خود، باید مدل بهینه شده را دریافت کنید. برای اجرا به تب “بهینه سازی مدل” بروید.
توجه: این مرحله ممکن است کمی طول بکشد زیرا برنامه مدل اصلی را دانلود کرده و آن را به صورت بلادرنگ برای شما بهینه میکند.
تنها در چند دقیقه با لپ تاپ خود آثار هنری بدیع خلق کنید
در اینجا یک نمونه از متن ورودی آورده شده است: سگی که عینک دارد.
مرحله آموزش/استنتاج: فرآیند انتشار معکوس، مدل یاد میگیرد که پس از آموزش دادهها را از نویز بازیابی کند.
Huang, H., Yu, PS, & Wang, C. (2018). مقدمه ای بر سنتز تصویر با شبکه های متخاصم مولد (arXiv:1803.04469). arXiv. http://arxiv.org/abs/1803.04469
برای دسترسی به پیاده سازی، توصیه می کنیم از یک محیط مجازی جدید برای اجرای دمو و نصب پیش نیازها استفاده کنید تا آماده باشید.
این به این دلیل است که مدلهایی که ما استفاده میکنیم بزرگ هستند، اما میتوانید آنها را برای کاهش زمان پردازش بهینه کنید. بدون پرداختن زیاد به جزئیات، قطعاتی وجود دارند که میتوان آنها را بهینه کرد تا نتایج یکسانی را در زمان کمتری به دست آورد. بهینهسازی قبلاً در BigDL انجام شده است، با در نظر گرفتن بهینهسازیهای چندگانه مانند Intel® Optimization برای TensorFlow*، Intel® Extension برای PyTorch*، Intel® Distribution of OpenVINO*، Intel® AVX-512 و غیره.
این به نوبه خود نقش مهمی در هوش مصنوعی مولد (AIGC) ایفا می کند که می تواند انواع داده ها از جمله صدا، کد، تصاویر، متن، شبیه سازی ها، اشیاء سه بعدی، فیلم ها و غیره را تولید کند. با آموزش الگوریتمی کار می کند که چگونه اطلاعات جدید را بر اساس داده های آموزشی قبلی تولید کند. از جمله کاربردهای فراوان می توان به تولید متن (GPT، نمایش رمزگذار دوطرفه از Transformers (BERT) یا اخیراً ChatGPT*)، تولید صدا، ایجاد متن به تصویر (DALL-E* یا Stable Diffusion*) و موارد دیگر اشاره کرد.
مرحله پیش پردازش: فرآیند انتشار به جلو، از بین بردن داده های آموزشی با اضافه کردن مداوم نویز گاوسی برای تولید نمونه های آموزشی.
انتشار پایدار می تواند برای تولید تصویر به دو صورت بدون شرط و شرطی استفاده شود.
توجه: از آنجایی که مدلی که ما با آن کار میکنیم Hugging Face* است، باید یک عدد اضافه کنید نشانه دسترسی همانطور که در تصویر بالا نشان داده شده است.
پس از بهینه سازی مدل، می توانید هر متنی را برای ایجاد یک تصویر اصلی تایپ کنید.
پس از اتمام نصب، برنامه در دستگاه شما در دسترس خواهد بود، سپس این آدرس را به مرورگر خود اضافه کنید: http://127.0.0.1:7860/
اکنون که مدل شما آماده است، می توانید از تب “txt2img” شروع به تولید تصاویر کنید. این برنامه همچنان گزینه های بیشتری را ارائه می دهد.
انتشار پایدار مدلی است که برای تولید تصویر با وضوح بالا استفاده می شود. برای درک اینکه چگونه مدلهای انتشار بدون عمیق شدن در اصول پیچیده ریاضی کار میکنند، یک مدل انتشار پایدار txt2img را به سه بخش اصلی تقسیم میکنیم:
ما یک لپتاپ/رومیزی اینتل را با حداقل 16 گیگابایت رم و حداقل 15 گیگابایت فضای خالی دیسک توصیه میکنیم.
conda activate sd
Tags: اینتل
اینل مگ، منتشر کننده اخبار و رویدادهای شرکت اینتل به زبان فارسی است
© 2022 اینتل مگ مجله خبری محصولات intelintelmag.ir.
© 2022 اینتل مگ مجله خبری محصولات intelintelmag.ir.