در درجه اول، ما از گردش کار DL1 برای آموزش مدل های دو بعدی و سه بعدی استفاده می کنیم. ما به طور مداوم شاهد صرفهجویی در هزینهها در مقایسه با نمونههای مبتنی بر GPU موجود در انواع مدلها هستیم که ما را قادر میسازد تا به زمان بازار بسیار بهتری برای مدلهای موجود یا آموزش مدلهای بسیار بزرگتر و پیچیدهتر دست یابیم.
تصمیم ما برای شروع آزمایش DL1 برای گردشهای کاری آموزش یادگیری عمیق به ما این امکان را میدهد که صرفهجویی مداوم در هزینهها را ببینیم و سرعت ما را برای نوآوری تسریع کرده است.
فناوریهای اینتل ممکن است به فعالسازی سختافزار، نرمافزار یا سرویس نیاز داشته باشند.
نویسندگان: Diego Bailon Humpert، AWS EMEA و Global Automotive GTM Lead و David Peer، متخصص و رهبر تیم Mobileye AI Engineering DevOps.
اطلاعات بیشتر در مورد جزئیات محصول را می توانید در اینجا بیابید
نمودار زیر پیکربندی خوشه آمازون EKS ما را توصیف می کند. برای سادگی، نحوه پیکربندی یک منطقه در دسترس را توضیح دادیم. همین پیکربندی برای سایر مناطق در دسترس که بارهای کاری ما در آنها اجرا می شود، اعمال می شود.
این پیکربندی ما را قادر میسازد تا خوشههای خود را به 3200 نود که توسط 40000 پاد و بیش از 100000 vCPU در یک خوشه استفاده میشود، مقیاس کنیم، در حالی که بیش از 95 درصد از صفحه دادههای خوشه از نمونههای Spot استفاده میکنند.
در پاراگرافهای بعدی، نحوه پیکربندی و تنظیم صحیح DL1 برای گردشهای کاری EKS را به اشتراک میگذاریم.
– کلید: “Habana.ai/gaudi”
برچسب ها:
Habana.ai/gaudi: “درست”
ما چندین نوع گردش کار را اجرا می کنیم که به پیکربندی نمونه های مختلف نیاز دارند. اینجاست که برچسبهای گره، لکهها و تحملها، و تمایل گره به کار میآیند. این به ما اجازه می دهد تا بررسی کنیم که حجم کاری مناسب زیرساخت مناسب را با استفاده از نوع نمونه مناسب دریافت می کند.
nodeSelector:
– کلید: “Habana.ai/gaudi”
شروع کار با شتاب دهنده های گائودی به سادگی افزودن 2 خط کد است – همانطور که در کد نمونه زیر مشاهده می کنید.
فن آوری
تسریع: “dl1.24xlarge”
اثر: “NoSchedule”
برای تعیین نوع نمونه گزینه “nodeSelector” پارامتر. به عنوان مثال، هنگامی که یک پاد به یک نمونه مبتنی بر Habana Gaudi نیاز دارد، مانیفست pod زیر به ما امکان میدهد دقیقاً به آن دست پیدا کنیم:
مدل: Bert Large — Pretraining
چارچوب: Pytorch 1.9
مجموعه داده: Wikipedia/BooksCorpus
GitHub: https://github.com/HabanaAI/Model-References/tree/master/PyTorch/nlp/bertload_habana_module()
هزینه ها و نتایج شما ممکن است متفاوت باشد.
نتایج عملکرد بر اساس آزمایش در تاریخهای نشاندادهشده در پیکربندیها است و ممکن است همه بهروزرسانیهای در دسترس عموم را منعکس نکند. برای جزئیات پیکربندی به نسخه پشتیبان مراجعه کنید. هیچ محصول یا جزء نمی تواند کاملاً ایمن باشد.
تمام بارهای کاری تولید در Amazon EKS اجرا می شود. با توجه به تنوع گردش کار، ما پیکربندی های محاسباتی مختلفی را در هر خوشه EKS تطبیق داده ایم.
بهطور دقیقتر، برای برآورده کردن نیازهای محاسباتی، از نمونههای Amazon EC2 R5 با پردازندههای نسل دوم اینتل Xeon Scalable استفاده میکنیم. برای نیازهای AI/ML خود، برخی از گردشهای کاری آموزشی خود را به نمونههای Amazon EC2 DL1 منتقل کردیم.
نمونه گروه گره مدیریت شده:
اینتل داده های شخص ثالث را کنترل یا ممیزی نمی کند. برای ارزیابی دقت باید به منابع دیگری مراجعه کنید.
گردش کار ما عمدتاً از CPU پشتیبانی می کند. برای محیط آموزش یادگیری عمیق خود، ما شروع به استقرار نمونههای آمازون EC2 DL1 مبتنی بر Habana Gaudi برای مدلهای (2D و 3D) کردهایم.
عملکرد بر اساس استفاده، پیکربندی و سایر عوامل متفاوت است. در سایت شاخص عملکرد بیشتر بدانید.
لکه ها:
تحمل ها:
k8s.amazonaws.com/accelerator: “gaudi”
autoscaler: “درست”
© شرکت اینتل. اینتل، لوگوی اینتل و سایر علائم اینتل علائم تجاری Intel Corporation یا شرکت های تابعه آن هستند. نام ها و مارک های دیگر ممکن است به عنوان دارایی دیگران ادعا شود. را
اثر: “NoSchedule”
Mobileye شرکتی است که فناوریهای رانندگی مستقل و سیستمهای پیشرفته کمک راننده (ADAS) شامل دوربینها، تراشههای کامپیوتری و نرمافزار را توسعه میدهد.
از TensorFlow.common.library_loader وارد کردن load_habana_module
با توجه به معماری EKS فوق، توسعه دهندگان ما از راه اندازی گروه گره، مناطق در دسترس (AZ) یا هر جنبه دیگری آگاه نیستند و نباید آن را بدانند. برای دستیابی به این انتزاع، از گردش کار Argo استفاده می کنیم.
نمودار زیر یک گردش کار کامل ایجاد شده توسط یک توسعه دهنده را نشان می دهد. ما در حال حاضر روزانه بیش از 250 گردش کار را اجرا می کنیم.
نوع نمونه: “گائودی”
منطقه: “us-east-1a”
تسریع: “dl1.24xlarge”
– نام: spot-workflows-gaudi-a3
جداول زیر نمونههایی از نتایج آموزشی Mixed Precision/FP32 هستند که DL1 را با نمونههای رایج GPU مورد استفاده برای آموزش ML مقایسه میکنند که توسط AWS در اینجا منتشر شدهاند.
شما ماژول Habana را بارگیری می کنید و به سادگی با استفاده از کانتینر نرم افزار اجرا می کنید.
ارزش: “درست”
مدل: ResNet50
چارچوب: TensorFlow 2
مجموعه داده: Imagenet2012
GitHub: https://github.com/HabanaAI/Model-
مراجع/tree/master/TensorFlow/computer_vision/Resnets/resnet_kerasهنگام اجرای اسکریپت حتما از فایل اجرایی پایتون مناسب استفاده کنید. این بستگی به تنظیمات انتخابی شما دارد که در اینجا مستند شده است.
اطلاعات بیشتر در مورد استفاده از نوع نمونه DL1 را می توان به همان اندازه در اینجا یافت.
راهاندازی جریانهای کار دستهای آموزش یادگیری عمیق از طریق DL1 به ما این امکان را میدهد که بیشتر آموزش ببینیم و کمتر هزینه کنیم. نمونههای DL1 دارای حداکثر 8 پردازنده Gaudi هستند و عملکرد قیمتی تا 40٪ بهتر از آخرین نمونههای مبتنی بر GPU همانطور که در سایت نمونه AWS DL1 بیان شده است، ارائه میکنند.
در زیر نمونه هایی از پیکربندی گره-گروه ها در EKSCTL آورده شده است
در این پست وبلاگ، بررسی خواهیم کرد که چگونه Mobileye گروه مهندسی هوش مصنوعی خود را قادر میسازد تا روزانه بیش از 250 گردش کار را با استفاده از Amazon EKS اجرا کند و چگونه توسعه و زمان عرضه به بازار با استفاده از هر دو نمونه EC2 آمازون بر اساس شتابدهندههای Habana Gaudi کاهش مییابد. پردازنده های اینتل زئون مقیاس پذیر.
اپراتور: “Exists”