بلکول پیامدهای قوی برای بار کاری هوش مصنوعی دارد و قابلیتهای فنی آن میتواند به ارائه اکتشافات در همه انواع برنامههای محاسباتی علمی، از جمله شبیهسازیهای عددی سنتی کمک کند. با کاهش هزینه های انرژی، محاسبات سریع و هوش مصنوعی، محاسبات پایدار را ترویج می کنند. بسیاری از برنامه های کاربردی محاسبات علمی در حال حاضر سود می برند. آب و هوا را می توان با 200 برابر هزینه کمتر و 300 برابر توان کمتر شبیه سازی کرد، در حالی که شبیه سازی های دیجیتال دوگانه 65 برابر هزینه کمتر و 58 برابر مصرف انرژی کمتری نسبت به سیستم های سنتی مبتنی بر CPU و سایر سیستم ها دارند.
شبیه سازی محاسبات علمی با بلک ول را دو برابر کنید
محاسبات علمی و شبیهسازیهای مبتنی بر فیزیک اغلب به فرمتهایی با دقت مضاعف یا FP64 (میز شناور) برای حل مسائل متکی هستند. پردازندههای گرافیکی بلکول 30 درصد عملکرد FP64 و FP32 FMA (افزودن چندگانه ترکیبی) بیشتر از Hopper ارائه میکنند.
شبیهسازیهای مبتنی بر فیزیک برای طراحی و توسعه محصول حیاتی هستند. از هواپیما و قطار گرفته تا پل ها، تراشه های سیلیکونی و داروها – آزمایش و بهبود محصولات در شبیه سازی میلیاردها دلار برای محققان و توسعه دهندگان صرفه جویی می کند.
امروزه مدارهای مجتمع مخصوص کاربرد (ASIC) تقریباً به طور انحصاری بر روی واحدهای پردازش مرکزی (CPU) در یک جریان کاری طولانی و پیچیده، از جمله تحلیل آنالوگ برای تعیین ولتاژ و جریان ساخته میشوند.
اما این در حال تغییر است. شبیه ساز Cadence SpecterX یکی از نمونه های راه حل طراحی مدار آنالوگ است. انتظار میرود شبیهسازیهای مدار SpecterX در سوپرتراشه GB200 Grace Blackwell – که GPUهای Blackwell و CPUهای Grace را به هم متصل میکند – 13 برابر سریعتر از یک CPU سنتی اجرا شوند.
همچنین، دینامیک سیالات محاسباتی با شتاب GPU یا CFD به یک ابزار اصلی تبدیل شده است. توسط مهندسان و طراحان تجهیزات برای پیش بینی رفتار طرح ها استفاده می شود. Cadence Fidelity شبیهسازیهای CFD را اجرا میکند که انتظار میرود در سیستمهای GB200 تا 22 برابر سریعتر از سیستمهای سنتی مجهز به CPU اجرا شوند. با مقیاسپذیری موازی و 30 ترابایت حافظه در هر رک GB200 NVL72، میتوان جزئیات پخش جریانی را مانند قبل ثبت کرد.
در برنامه دیگری، نرم افزار دوقلوی دیجیتال Cadence Reality را می توان برای ایجاد یک کپی مجازی از یک مرکز داده واقعی، شامل تمام اجزای آن – سرورها، سیستم های خنک کننده و منابع تغذیه استفاده کرد. این مدل مجازی به مهندسان اجازه می دهد تا تنظیمات و سناریوهای مختلف را قبل از پیاده سازی در دنیای واقعی آزمایش کنند و در زمان و هزینه صرفه جویی کنند.
جادوی Cadence Reality از الگوریتمهای مبتنی بر فیزیک ناشی میشود که میتوانند نحوه تأثیر گرما، جریان هوا و استفاده از نیرو بر مراکز داده را شبیهسازی کنند. این به مهندسان و اپراتورهای مرکز داده کمک میکند ظرفیت را به طور مؤثرتری مدیریت کنند، مسائل احتمالی عملیاتی را پیشبینی کنند، و تصمیمات آگاهانهای برای بهینهسازی طرح و عملکرد مرکز داده برای بهبود کارایی و استفاده از ظرفیت بگیرند. با استفاده از پردازندههای گرافیکی بلکول، انتظار میرود که این شبیهسازیها تا 30 برابر سریعتر از پردازندهها اجرا شوند و جدولهای زمانی تسریعشده و بازده انرژی بالاتری را ارائه دهند.
هوش مصنوعی برای محاسبات علمی
شتابدهندهها و شبکههای جدید بلکول جهشهایی در عملکرد برای شبیهسازی پیشرفته ارائه خواهند داد.
NVIDIA GB200 عصر جدیدی را برای محاسبات با عملکرد بالا (HPC) آغاز می کند. معماری آن دارای یک موتور کامپایلر نسل دوم است که برای تسریع بار کار استنتاج برای LLM ها بهینه شده است.
این افزایش سرعت 30 برابری را در برنامههای پرمصرف منابع مانند مدل 1.8 تریلیون پارامتری GPT-MoE (مخلوط ترانسفورماتور از قبل آموزشدیده از متخصصان) در مقایسه با نسل H100 فراهم میکند و فرصتهای جدیدی را برای محاسبات با کارایی بالا باز میکند. با فعال کردن دارندگان مدرک LLM برای پردازش و رمزگشایی مقادیر زیادی از داده های علمی، برنامه های کاربردی HPC می توانند زودتر به بینش های ارزشمندی دسترسی پیدا کنند که می تواند اکتشافات علمی را تسریع کند.
آزمایشگاه ملی ساندیا در حال ساخت یک LLM کمکی برای برنامه نویسی موازی است. هوش مصنوعی سنتی میتواند به طور موثر کد محاسباتی متوالی اولیه را تولید کند، اما وقتی نوبت به کد محاسباتی موازی برای برنامههای HPC میشود، LLMها ممکن است دچار تزلزل شوند. محققان Sandia با یک پروژه جاه طلبانه با این مشکل مقابله می کنند – تولید خودکار کد موازی در Kokkos، یک زبان برنامه نویسی تخصصی که توسط چندین آزمایشگاه ملی طراحی شده است تا وظایف ده ها هزار پردازنده را در قدرتمندترین ابررایانه های جهان انجام دهد.
Sandia از یک فناوری هوش مصنوعی به نام Retrieval Augmented Generation یا RAG استفاده می کند که قابلیت های بازیابی اطلاعات را با مدل های تولید زبان ترکیب می کند. این تیم در حال ایجاد پایگاه داده Kokkos و ادغام آن با مدل های هوش مصنوعی با استفاده از RAG است.
نتایج اولیه امیدوارکننده است. روشهای مختلف Sandia RAG کد Kokkos را بهطور مستقل برای برنامههای محاسباتی موازی نشان دادند. با غلبه بر موانع در تولید کد موازی مبتنی بر هوش مصنوعی، Sandia قصد دارد امکانات جدیدی را در محاسبات با کارایی بالا در میان امکانات ابررایانه پیشرو در سراسر جهان باز کند. نمونه های دیگر عبارتند از تحقیقات انرژی های تجدیدپذیر، علوم آب و هوا و کشف دارو.
پیشبرد پیشرفت در محاسبات کوانتومی
محاسبات کوانتومی یک سفر ماشین زمان را برای انرژی همجوشی، تحقیقات آب و هوا، کشف دارو و بسیاری از زمینههای دیگر باز میکند. بنابراین محققان سخت در حال شبیه سازی کامپیوترهای کوانتومی آینده بر روی سیستم ها و نرم افزارهای مبتنی بر GPU NVIDIA برای توسعه و آزمایش الگوریتم های کوانتومی سریعتر از همیشه هستند.
پلتفرم NVIDIA CUDA-Q شبیه سازی کامپیوترهای کوانتومی و توسعه برنامه های کاربردی هیبریدی را از طریق یک مدل برنامه نویسی یکپارچه برای واحدهای پردازش مرکزی (CPU)، واحدهای پردازش گرافیکی (GPU) و QPU (واحدهای پردازش کوانتومی) که با هم کار می کنند، امکان پذیر می کند.
CUDA-Q شبیهسازی در جریان کار در شیمی برای BASF، فیزیک انرژی بالا و فیزیک هستهای برای Stony Brook و شیمی کوانتومی برای NERSC را تسریع میکند.
معماری بلکول NVIDIA کمک میکند شبیهسازیهای کوانتومی را به ارتفاعات جدیدی برسانند. استفاده از آخرین فناوری اتصال چند گره NVIDIA NVLink به انتقال سریعتر داده ها برای درک مزایای شتاب بخشیدن به شبیه سازی کوانتومی کمک می کند.
تسریع تجزیه و تحلیل داده ها برای دستیابی به پیشرفت های علمی
پردازش داده با استفاده از RAPIDS در محاسبات علمی بسیار محبوب است. Blackwell یک موتور فشرده سازی سخت افزاری را برای فشرده سازی داده های فشرده و تسریع تجزیه و تحلیل در RAPIDS ارائه می دهد.
موتور رفع فشرده سازی بهبود عملکرد تا 800 گیگابایت بر ثانیه را ارائه می دهد و به گریس بلکول این امکان را می دهد که 18 برابر سریعتر از CPU ها – در Sapphire Rapids – و 6 برابر سریعتر از NVIDIA H100 Tensor Core GPU برای معیارهای جستجو کار کند.
موتور از طریق انتقال داده های موشکی با پهنای باند حافظه بالای 8 ترابایت بر ثانیه و اتصال پرسرعت NVLink Chip-to-Chip (C2C) به CPU Grace، کل فرآیند جستجوی پایگاه داده را تسریع می کند. بلک ول با دستیابی به عملکرد فوق العاده در تجزیه و تحلیل داده ها و موارد استفاده از علم داده، بینش داده ها را تسریع می بخشد و هزینه ها را کاهش می دهد.
ارائه عملکرد محاسباتی علمی برتر با شبکه های NVIDIA
پلت فرم شبکه NVIDIA Quantum-X800 InfiniBand بالاترین توان عملیاتی را برای زیرساخت های محاسباتی علمی ارائه می دهد.
این شامل آداپتورهای NVIDIA Quantum Q3400 و Q3200 و NVIDIA ConnectX-8 SuperNIC است که با هم تا دو برابر پهنای باند نسل قبلی را ارائه میکنند. پلتفرم Q3400 ظرفیت پهنای باند 5 برابری و 14.4 ترافلاپس محاسبات روی شبکه را با پروتکل جمعآوری و کاهش سلسله مراتبی مقیاسپذیر NVIDIA (SHARPv4) ارائه میکند که افزایش 9 برابری را نسبت به نسل قبلی ارائه میکند.
جهش در عملکرد و بهره وری توان به کاهش قابل توجهی در زمان تکمیل حجم کار و مصرف انرژی برای محاسبات علمی تبدیل می شود.