سفر Mobileye به سمت مقیاس‌سازی Amazon EKS به هزاران گره که از پردازنده‌های مقی

در درجه اول، ما از گردش کار DL1 برای آموزش مدل های دو بعدی و سه بعدی استفاده می کنیم. ما به طور مداوم شاهد صرفه‌جویی در هزینه‌ها در مقایسه با نمونه‌های مبتنی بر GPU موجود در انواع مدل‌ها هستیم که ما را قادر می‌سازد تا به زمان بازار بسیار بهتری برای مدل‌های موجود یا آموزش مدل‌های بسیار بزرگ‌تر و پیچیده‌تر دست یابیم.

تصمیم ما برای شروع آزمایش DL1 برای گردش‌های کاری آموزش یادگیری عمیق به ما این امکان را می‌دهد که صرفه‌جویی مداوم در هزینه‌ها را ببینیم و سرعت ما را برای نوآوری تسریع کرده است.

فناوری‌های اینتل ممکن است به فعال‌سازی سخت‌افزار، نرم‌افزار یا سرویس نیاز داشته باشند.

نویسندگان: Diego Bailon Humpert، AWS EMEA و Global Automotive GTM Lead و David Peer، متخصص و رهبر تیم Mobileye AI Engineering DevOps.

اطلاعات بیشتر در مورد جزئیات محصول را می توانید در اینجا بیابید

نمودار زیر پیکربندی خوشه آمازون EKS ما را توصیف می کند. برای سادگی، نحوه پیکربندی یک منطقه در دسترس را توضیح دادیم. همین پیکربندی برای سایر مناطق در دسترس که بارهای کاری ما در آنها اجرا می شود، اعمال می شود.

سفر Mobileye به سمت مقیاس‌سازی Amazon EKS به هزاران گره که از پردازنده‌های مقیاس‌پذیر Intel® Xeon® و شتاب‌دهنده‌های هوش مصنوعی Gaudi Habana بهره می‌برند | توسط اینتل | فناوری اینتل | ژوئیه، 2022

این پیکربندی ما را قادر می‌سازد تا خوشه‌های خود را به 3200 نود که توسط 40000 پاد و بیش از 100000 vCPU در یک خوشه استفاده می‌شود، مقیاس کنیم، در حالی که بیش از 95 درصد از صفحه داده‌های خوشه از نمونه‌های Spot استفاده می‌کنند.

در پاراگراف‌های بعدی، نحوه پیکربندی و تنظیم صحیح DL1 برای گردش‌های کاری EKS را به اشتراک می‌گذاریم.

– کلید: “Habana.ai/gaudi”

برچسب ها:

Habana.ai/gaudi: “درست”

ما چندین نوع گردش کار را اجرا می کنیم که به پیکربندی نمونه های مختلف نیاز دارند. اینجاست که برچسب‌های گره، لکه‌ها و تحمل‌ها، و تمایل گره به کار می‌آیند. این به ما اجازه می دهد تا بررسی کنیم که حجم کاری مناسب زیرساخت مناسب را با استفاده از نوع نمونه مناسب دریافت می کند.

nodeSelector:

– کلید: “Habana.ai/gaudi”

شروع کار با شتاب دهنده های گائودی به سادگی افزودن 2 خط کد است – همانطور که در کد نمونه زیر مشاهده می کنید.

فن آوری

تسریع: “dl1.24xlarge”

اثر: “NoSchedule”

برای تعیین نوع نمونه گزینه “nodeSelector” پارامتر. به عنوان مثال، هنگامی که یک پاد به یک نمونه مبتنی بر Habana Gaudi نیاز دارد، مانیفست pod زیر به ما امکان می‌دهد دقیقاً به آن دست پیدا کنیم:

مدل: Bert Large — Pretraining
چارچوب: Pytorch 1.9
مجموعه داده: Wikipedia/BooksCorpus
GitHub: https://github.com/HabanaAI/Model-References/tree/master/PyTorch/nlp/bert

load_habana_module()

هزینه ها و نتایج شما ممکن است متفاوت باشد.

نتایج عملکرد بر اساس آزمایش در تاریخ‌های نشان‌داده‌شده در پیکربندی‌ها است و ممکن است همه به‌روزرسانی‌های در دسترس عموم را منعکس نکند. برای جزئیات پیکربندی به نسخه پشتیبان مراجعه کنید. هیچ محصول یا جزء نمی تواند کاملاً ایمن باشد.

تمام بارهای کاری تولید در Amazon EKS اجرا می شود. با توجه به تنوع گردش کار، ما پیکربندی های محاسباتی مختلفی را در هر خوشه EKS تطبیق داده ایم.
به‌طور دقیق‌تر، برای برآورده کردن نیازهای محاسباتی، از نمونه‌های Amazon EC2 R5 با پردازنده‌های نسل دوم اینتل Xeon Scalable استفاده می‌کنیم. برای نیازهای AI/ML خود، برخی از گردش‌های کاری آموزشی خود را به نمونه‌های Amazon EC2 DL1 منتقل کردیم.

نمونه گروه گره مدیریت شده:

اینتل داده های شخص ثالث را کنترل یا ممیزی نمی کند. برای ارزیابی دقت باید به منابع دیگری مراجعه کنید.

گردش کار ما عمدتاً از CPU پشتیبانی می کند. برای محیط آموزش یادگیری عمیق خود، ما شروع به استقرار نمونه‌های آمازون EC2 DL1 مبتنی بر Habana Gaudi برای مدل‌های (2D و 3D) کرده‌ایم.
عملکرد بر اساس استفاده، پیکربندی و سایر عوامل متفاوت است. در سایت شاخص عملکرد بیشتر بدانید.

لکه ها:

تحمل ها:

k8s.amazonaws.com/accelerator: “gaudi”

autoscaler: “درست”

© شرکت اینتل. اینتل، لوگوی اینتل و سایر علائم اینتل علائم تجاری Intel Corporation یا شرکت های تابعه آن هستند. نام ها و مارک های دیگر ممکن است به عنوان دارایی دیگران ادعا شود. را

منبع

اثر: “NoSchedule”

Mobileye شرکتی است که فناوری‌های رانندگی مستقل و سیستم‌های پیشرفته کمک راننده (ADAS) شامل دوربین‌ها، تراشه‌های کامپیوتری و نرم‌افزار را توسعه می‌دهد.

از TensorFlow.common.library_loader وارد کردن load_habana_module

با توجه به معماری EKS فوق، توسعه دهندگان ما از راه اندازی گروه گره، مناطق در دسترس (AZ) یا هر جنبه دیگری آگاه نیستند و نباید آن را بدانند. برای دستیابی به این انتزاع، از گردش کار Argo استفاده می کنیم.

نمودار زیر یک گردش کار کامل ایجاد شده توسط یک توسعه دهنده را نشان می دهد. ما در حال حاضر روزانه بیش از 250 گردش کار را اجرا می کنیم.

نوع نمونه: “گائودی”

منطقه: “us-east-1a”

تسریع: “dl1.24xlarge”

– نام: spot-workflows-gaudi-a3

جداول زیر نمونه‌هایی از نتایج آموزشی Mixed Precision/FP32 هستند که DL1 را با نمونه‌های رایج GPU مورد استفاده برای آموزش ML مقایسه می‌کنند که توسط AWS در اینجا منتشر شده‌اند.

شما ماژول Habana را بارگیری می کنید و به سادگی با استفاده از کانتینر نرم افزار اجرا می کنید.

ارزش: “درست”

مدل: ResNet50
چارچوب: TensorFlow 2
مجموعه داده: Imagenet2012
GitHub: https://github.com/HabanaAI/Model-
مراجع/tree/master/TensorFlow/computer_vision/Resnets/resnet_keras

هنگام اجرای اسکریپت حتما از فایل اجرایی پایتون مناسب استفاده کنید. این بستگی به تنظیمات انتخابی شما دارد که در اینجا مستند شده است.

اطلاعات بیشتر در مورد استفاده از نوع نمونه DL1 را می توان به همان اندازه در اینجا یافت.

راه‌اندازی جریان‌های کار دسته‌ای آموزش یادگیری عمیق از طریق DL1 به ما این امکان را می‌دهد که بیشتر آموزش ببینیم و کمتر هزینه کنیم. نمونه‌های DL1 دارای حداکثر 8 پردازنده Gaudi هستند و عملکرد قیمتی تا 40٪ بهتر از آخرین نمونه‌های مبتنی بر GPU همانطور که در سایت نمونه AWS DL1 بیان شده است، ارائه می‌کنند.

در زیر نمونه هایی از پیکربندی گره-گروه ها در EKSCTL آورده شده است

در این پست وبلاگ، بررسی خواهیم کرد که چگونه Mobileye گروه مهندسی هوش مصنوعی خود را قادر می‌سازد تا روزانه بیش از 250 گردش کار را با استفاده از Amazon EKS اجرا کند و چگونه توسعه و زمان عرضه به بازار با استفاده از هر دو نمونه EC2 آمازون بر اساس شتاب‌دهنده‌های Habana Gaudi کاهش می‌یابد. پردازنده های اینتل زئون مقیاس پذیر.

اپراتور: “Exists”

Tags: اینتل