برای محتوای متن باز بیشتر از اینتل، بررسی کنید open.intel یا ما را دنبال کنید توییتر.
تولید تصویر بدون قید و شرط این می تواند یک تصویر جدید از نویز بدون شرایط در هر زمینه (مانند یک متن سریع یا یک تصویر دیگر) ایجاد کند. این مدل آموزش داده خواهد شد و تصاویر تصادفی تولید خواهد کرد. برای جزئیات، این مثال از آموزش مدل با تصاویر پروانه را بررسی کنید.
در اینجا یک نمونه از متن ورودی آورده شده است: سگی که عینک دارد.
این به این دلیل است که مدلهایی که ما استفاده میکنیم بزرگ هستند، اما میتوانید آنها را برای کاهش زمان پردازش بهینه کنید. بدون پرداختن زیاد به جزئیات، قطعاتی وجود دارند که میتوان آنها را بهینه کرد تا نتایج یکسانی را در زمان کمتری به دست آورد. بهینهسازی قبلاً در BigDL انجام شده است، با در نظر گرفتن بهینهسازیهای چندگانه مانند Intel® Optimization برای TensorFlow*، Intel® Extension برای PyTorch*، Intel® Distribution of OpenVINO*، Intel® AVX-512 و غیره.
- تصویر به تصویر. Super-Resolution: یک تصویر با وضوح فوق العاده بر اساس تصاویر با وضوح پایین ایجاد می کند. در اینجا پیاده سازی یک مدل انتشار ارتقاء دهنده است. ورودی: Image-> Output: Image
می توانید از معماری توضیح داده شده در بالا استفاده کنید و تصویر خود را دریافت کنید، اما آیا متوجه شده اید که فرآیند چقدر طول می کشد - گاهی اوقات چند دقیقه؟
بینایی کامپیوتر یک مثال بارز است. علیرغم نیازهای محاسباتی سنگین، دستاوردهای بزرگی در سنتز تصویر حاصل شده است (هوانگ و همکاران، 2018)، فرآیند تولید مصنوعی تصاویر حاوی محتوای خاص. این کار با چارچوب یادگیری ماشینی معروف به شبکههای متخاصم مولد (GAN) شروع شد تا به مدلهای انتشار امروزی برسد. این تکامل مدلهایی را به دانشمندان داده ارائه میکند که آموزش آنها آسان است و سریع همگرا میشوند و میتوانند به طور قابل اعتماد تصاویر با کیفیت بالا تولید کنند.
تولید تصویر مشروط این مدل یک تصویر جدید از ورودی ها تولید می کند. اینها عبارتند از: متن به تصویر، تصویر به تصویر، معنایی، نقاشی درونی و بیرونی. بیایید نگاه دقیق تری بیندازیم:
- تبدیل متن به تصویر (txt2img): یک تصویر بر اساس متن ورودی ایجاد می کند. ورودی: متن -> خروجی-> تصویر
pip install -r requirements.txt
قبل از ایجاد تصویر خود، باید مدل بهینه شده را دریافت کنید. برای اجرا به تب “بهینه سازی مدل” بروید.
اکنون دو گزینه در دسترس است:
- CPU-FP32 یک مدل fp32 بهینه برای CPU تولید خواهد کرد و یک گزینه “CPU FP32” (به عنوان مثال “v2.1-base CPU FP32”) بعداً در Switch Option ظاهر می شود.
- CPU/iGPU FP16 مدلهای fp16 بهینهسازی شده را برای هر دو CPU و iGPU تولید میکند، و دو گزینه «FP16» (به عنوان مثال «v2.1-base CPU FP16»، «v2.1-base CPU+iGPU FP16») بعداً در «نمایش خواهد شد. گزینه سوئیچ.”
پس از اتمام نصب، برنامه در دستگاه شما در دسترس خواهد بود، سپس این آدرس را به مرورگر خود اضافه کنید: http://127.0.0.1:7860/
python launch.py
توجه: از آنجایی که مدلی که ما با آن کار میکنیم Hugging Face* است، باید یک عدد اضافه کنید نشانه دسترسی همانطور که در تصویر بالا نشان داده شده است.
تنها در چند دقیقه با لپ تاپ خود آثار هنری بدیع خلق کنید
Huang, H., Yu, PS, & Wang, C. (2018). مقدمه ای بر سنتز تصویر با شبکه های متخاصم مولد (arXiv:1803.04469). arXiv. http://arxiv.org/abs/1803.04469
انتشار پایدار می تواند برای تولید تصویر به دو صورت بدون شرط و شرطی استفاده شود.
3. رمزگشای تصویر (رمزگذار VAE): تصویر تولید شده توسط سازنده تصویر را دریافت کرده و تصویر نهایی را به فرمت مورد نظر تبدیل می کند.
مرحله پیش پردازش: فرآیند انتشار به جلو، از بین بردن داده های آموزشی با اضافه کردن مداوم نویز گاوسی برای تولید نمونه های آموزشی.
conda activate sd
اگر هر فناوری فصلی داشته باشد، هوش مصنوعی به «تابستان» رسیده است. مجموعه ای از پیشرفت ها در AI منجر به فعلی شده است شکوفایی در این رشته با انتظارات زیادی برای آینده.
مرحله آموزش/استنتاج: فرآیند انتشار معکوس، مدل یاد میگیرد که پس از آموزش دادهها را از نویز بازیابی کند.
Ho, J., Jain, A., & Abbeel, P. (2020). نویز زدایی از مدل های احتمالی انتشار (arXiv:2006.11239). arXiv. http://arxiv.org/abs/2006.11239
این به نوبه خود نقش مهمی در هوش مصنوعی مولد (AIGC) ایفا می کند که می تواند انواع داده ها از جمله صدا، کد، تصاویر، متن، شبیه سازی ها، اشیاء سه بعدی، فیلم ها و غیره را تولید کند. با آموزش الگوریتمی کار می کند که چگونه اطلاعات جدید را بر اساس داده های آموزشی قبلی تولید کند. از جمله کاربردهای فراوان می توان به تولید متن (GPT، نمایش رمزگذار دوطرفه از Transformers (BERT) یا اخیراً ChatGPT*)، تولید صدا، ایجاد متن به تصویر (DALL-E* یا Stable Diffusion*) و موارد دیگر اشاره کرد.
اکنون که مدل شما آماده است، می توانید از تب “txt2img” شروع به تولید تصاویر کنید. این برنامه همچنان گزینه های بیشتری را ارائه می دهد.
Stable Diffusion یک ابزار قدرتمند با پتانسیل ایجاد انقلاب در بسیاری از برنامه های کاربردی دنیای واقعی است. مدلهای نشاندادهشده در این وبلاگ و فرآیندهای یادگیری آنها به مقدار زیادی محاسبات نیاز دارند. بهینهسازیهایی مانند موارد ارائه شده توسط اینتل میتوانند زمان پردازش را کوتاه کنند.
- معنایی (img2img): به شما امکان می دهد یک تصویر جدید بر اساس تصویر ورودی + متن ایجاد کنید. می توانید با این آموزش تصویر به تصویر آن را امتحان کنید. در مثال زیر، از آن خواسته ایم که یک ساحل زیبا ایجاد کند. ما که به صحنه تعطیلات ایده آل خود راضی نبودیم، خواستیم یک زمین گلف اضافه کنیم. این مدل ساحل تولید شده را به عنوان ورودی گرفت و یک زمین گلف به آن اضافه کرد.
برای دسترسی به پیاده سازی، توصیه می کنیم از یک محیط مجازی جدید برای اجرای دمو و نصب پیش نیازها استفاده کنید تا آماده باشید.
پس از اتمام نصب، برنامه در دستگاه شما در دسترس خواهد بود، سپس این آدرس را به مرورگر خود اضافه کنید: http://127.0.0.1:7860/
- رنگ آمیزی: این قسمت های پوشانده شده از یک تصویر را با محتوای جدید پر می کند، یا به دلیل خراب شدن بخش هایی از تصویر یا جایگزینی محتوای موجود اما نامطلوب در تصویر. با استفاده از این مدل چند رنگ، ساعت دیواری زیر با ماسکی به سبک بتمن تعویض شده است. (برای تصویر جایگزین، از هر چیزی که تصور می کنید استفاده کنید.)
- نقاشی بیرونی: در اینجا نقاشی در مناطق خارج از تصویر اصلی رخ می دهد. مدل به طور مصنوعی تصویر را به اندازه دلخواه “پر” می کند. در مثال زیر، از مدل خواستیم تا تصویر «ماشین در خیابان» را ایجاد کند و از نقاشی بیرونی بخواهد که قسمت پایین سمت چپ تصویر را پر کند.
نویسندگان: Ezequiel Lanza، Ruonan Wang
ما یک لپتاپ/رومیزی اینتل را با حداقل 16 گیگابایت رم و حداقل 15 گیگابایت فضای خالی دیسک توصیه میکنیم.
ازکیل لانزا یک مبشر متن باز در تیم اکوسیستم باز اینتل است که مشتاق کمک به مردم برای کشف دنیای هیجان انگیز هوش مصنوعی است. او همچنین یک مجری مکرر کنفرانس هوش مصنوعی و خالق موارد استفاده، آموزش و راهنماهایی است که به توسعه دهندگان کمک می کند تا ابزارهای AI منبع باز مانند TensorFlow* و Hugging Face* را بکار گیرند. او را در توییتر در @ پیدا کنیدeze_lanza
پس از بهینه سازی مدل، می توانید هر متنی را برای ایجاد یک تصویر اصلی تایپ کنید.