سفر Mobileye به سمت مقیاسسازی Amazon EKS به هزاران گره که از پردازندههای مقیاسپذیر Intel® Xeon® و شتابدهندههای هوش مصنوعی Gaudi Habana بهره میبرند | توسط اینتل | فناوری اینتل | ژوئیه، 2022
تصمیم ما برای شروع آزمایش DL1 برای گردشهای کاری آموزش یادگیری عمیق به ما این امکان را میدهد که صرفهجویی مداوم در هزینهها را ببینیم و سرعت ما را برای نوآوری تسریع کرده است.
برای تعیین نوع نمونه گزینه “nodeSelector” پارامتر. به عنوان مثال، هنگامی که یک پاد به یک نمونه مبتنی بر Habana Gaudi نیاز دارد، مانیفست pod زیر به ما امکان میدهد دقیقاً به آن دست پیدا کنیم:
نمودار زیر یک گردش کار کامل ایجاد شده توسط یک توسعه دهنده را نشان می دهد. ما در حال حاضر روزانه بیش از 250 گردش کار را اجرا می کنیم.
لکه ها:
هنگام اجرای اسکریپت حتما از فایل اجرایی پایتون مناسب استفاده کنید. این بستگی به تنظیمات انتخابی شما دارد که در اینجا مستند شده است.
اینتل داده های شخص ثالث را کنترل یا ممیزی نمی کند. برای ارزیابی دقت باید به منابع دیگری مراجعه کنید.
منطقه: “us-east-1a”
– کلید: “Habana.ai/gaudi”
فناوریهای اینتل ممکن است به فعالسازی سختافزار، نرمافزار یا سرویس نیاز داشته باشند.
عملکرد بر اساس استفاده، پیکربندی و سایر عوامل متفاوت است. در سایت شاخص عملکرد بیشتر بدانید.
اثر: “NoSchedule”
برچسب ها:
مدل: Bert Large — Pretraining چارچوب: Pytorch 1.9 مجموعه داده: Wikipedia/BooksCorpus GitHub: https://github.com/HabanaAI/Model-References/tree/master/PyTorch/nlp/bert
نتایج عملکرد بر اساس آزمایش در تاریخهای نشاندادهشده در پیکربندیها است و ممکن است همه بهروزرسانیهای در دسترس عموم را منعکس نکند. برای جزئیات پیکربندی به نسخه پشتیبان مراجعه کنید. هیچ محصول یا جزء نمی تواند کاملاً ایمن باشد.
در این پست وبلاگ، بررسی خواهیم کرد که چگونه Mobileye گروه مهندسی هوش مصنوعی خود را قادر میسازد تا روزانه بیش از 250 گردش کار را با استفاده از Amazon EKS اجرا کند و چگونه توسعه و زمان عرضه به بازار با استفاده از هر دو نمونه EC2 آمازون بر اساس شتابدهندههای Habana Gaudi کاهش مییابد. پردازنده های اینتل زئون مقیاس پذیر.
با توجه به معماری EKS فوق، توسعه دهندگان ما از راه اندازی گروه گره، مناطق در دسترس (AZ) یا هر جنبه دیگری آگاه نیستند و نباید آن را بدانند. برای دستیابی به این انتزاع، از گردش کار Argo استفاده می کنیم.
در درجه اول، ما از گردش کار DL1 برای آموزش مدل های دو بعدی و سه بعدی استفاده می کنیم. ما به طور مداوم شاهد صرفهجویی در هزینهها در مقایسه با نمونههای مبتنی بر GPU موجود در انواع مدلها هستیم که ما را قادر میسازد تا به زمان بازار بسیار بهتری برای مدلهای موجود یا آموزش مدلهای بسیار بزرگتر و پیچیدهتر دست یابیم.
load_habana_module()
در پاراگرافهای بعدی، نحوه پیکربندی و تنظیم صحیح DL1 برای گردشهای کاری EKS را به اشتراک میگذاریم.
ما چندین نوع گردش کار را اجرا می کنیم که به پیکربندی نمونه های مختلف نیاز دارند. اینجاست که برچسبهای گره، لکهها و تحملها، و تمایل گره به کار میآیند. این به ما اجازه می دهد تا بررسی کنیم که حجم کاری مناسب زیرساخت مناسب را با استفاده از نوع نمونه مناسب دریافت می کند.
تسریع: “dl1.24xlarge”
تمام بارهای کاری تولید در Amazon EKS اجرا می شود. با توجه به تنوع گردش کار، ما پیکربندی های محاسباتی مختلفی را در هر خوشه EKS تطبیق داده ایم. بهطور دقیقتر، برای برآورده کردن نیازهای محاسباتی، از نمونههای Amazon EC2 R5 با پردازندههای نسل دوم اینتل Xeon Scalable استفاده میکنیم. برای نیازهای AI/ML خود، برخی از گردشهای کاری آموزشی خود را به نمونههای Amazon EC2 DL1 منتقل کردیم.
k8s.amazonaws.com/accelerator: “gaudi”
شما ماژول Habana را بارگیری می کنید و به سادگی با استفاده از کانتینر نرم افزار اجرا می کنید.
گردش کار ما عمدتاً از CPU پشتیبانی می کند. برای محیط آموزش یادگیری عمیق خود، ما شروع به استقرار نمونههای آمازون EC2 DL1 مبتنی بر Habana Gaudi برای مدلهای (2D و 3D) کردهایم.
راهاندازی جریانهای کار دستهای آموزش یادگیری عمیق از طریق DL1 به ما این امکان را میدهد که بیشتر آموزش ببینیم و کمتر هزینه کنیم. نمونههای DL1 دارای حداکثر 8 پردازنده Gaudi هستند و عملکرد قیمتی تا 40٪ بهتر از آخرین نمونههای مبتنی بر GPU همانطور که در سایت نمونه AWS DL1 بیان شده است، ارائه میکنند.
هزینه ها و نتایج شما ممکن است متفاوت باشد.
– نام: spot-workflows-gaudi-a3
جداول زیر نمونههایی از نتایج آموزشی Mixed Precision/FP32 هستند که DL1 را با نمونههای رایج GPU مورد استفاده برای آموزش ML مقایسه میکنند که توسط AWS در اینجا منتشر شدهاند.
تحمل ها:
اطلاعات بیشتر در مورد استفاده از نوع نمونه DL1 را می توان به همان اندازه در اینجا یافت.
– کلید: “Habana.ai/gaudi”
نمونه گروه گره مدیریت شده:
ارزش: “درست”
در زیر نمونه هایی از پیکربندی گره-گروه ها در EKSCTL آورده شده است
فن آوری
نویسندگان: Diego Bailon Humpert، AWS EMEA و Global Automotive GTM Lead و David Peer، متخصص و رهبر تیم Mobileye AI Engineering DevOps.
شروع کار با شتاب دهنده های گائودی به سادگی افزودن 2 خط کد است – همانطور که در کد نمونه زیر مشاهده می کنید.
نوع نمونه: “گائودی”
Mobileye شرکتی است که فناوریهای رانندگی مستقل و سیستمهای پیشرفته کمک راننده (ADAS) شامل دوربینها، تراشههای کامپیوتری و نرمافزار را توسعه میدهد.
نمودار زیر پیکربندی خوشه آمازون EKS ما را توصیف می کند. برای سادگی، نحوه پیکربندی یک منطقه در دسترس را توضیح دادیم. همین پیکربندی برای سایر مناطق در دسترس که بارهای کاری ما در آنها اجرا می شود، اعمال می شود.
اطلاعات بیشتر در مورد جزئیات محصول را می توانید در اینجا بیابید
تسریع: “dl1.24xlarge”
nodeSelector:
اپراتور: “Exists”
این پیکربندی ما را قادر میسازد تا خوشههای خود را به 3200 نود که توسط 40000 پاد و بیش از 100000 vCPU در یک خوشه استفاده میشود، مقیاس کنیم، در حالی که بیش از 95 درصد از صفحه دادههای خوشه از نمونههای Spot استفاده میکنند.