بهینه سازی برنامه های زبان مبتنی بر هوش مصنوعی BERT | توسط اینتل | فناوری اینتل

در این پست، کتابخانه‌ای را به شما نشان می‌دهیم که می‌تواند نمایش‌های رمزگذار دوطرفه را از مدل‌های ترانسفورماتور (BERT) بهینه کند تا با تبدیل آن‌ها به bfloat16 روی CPU اجرا شوند. ما توضیح خواهیم داد که این مدل ها چگونه کار می کنند و چرا نسخه های بهینه شده اهمیت دارند.

محققان در Google* ابتدا BERT را با حدود 340 میلیون پارامتر آموزش دادند. سپس تغییرات متعددی شروع به ظهور کردند، از ترانسفورماتورهای مختلف مولد از پیش آموزش دیده (GPT) از OpenAI* با حدود 175 میلیارد پارامتر (برای GTP-3) تا ماموت Wu Dao* با حدود 1.75 تریلیون پارامتر. این اعداد چشمگیر هستند اما بار محاسباتی هم برای آموزش و هم برای استنتاج دارند.

source /opt/intel/oneapi/setvars.sh # Make sure CMake can find oneDNN

cmake –build . -j 8

توجه: این فرآیند بهینه سازی روی هر مدلی کار می کند، در اینجا دستورالعمل های بیشتری وجود دارد.

کاهش نیازهای محاسباتی مدل هر دوی این مشکلات را حل می کند. ما به شما نشان خواهیم داد که چگونه در این پیاده سازی با مدل ترانسفورماتور BERT-Large Hugging Face کار می کند.

گرافیک: امتیاز سجوانی

mkdir build

Bfloat 16 یک فرمت داده عددی است که حافظه کمتری نسبت به سایرین اشغال می‌کند و برای ارائه کارایی بیشتر در برنامه‌های یادگیری ماشینی و کوه‌هایی از داده‌هایی که پردازش می‌کنند طراحی شده است. از 16 بیت برای نمایش یک عدد ممیز شناور استفاده می کند.

اگر سرعت و کارایی همیشه برای توسعه دهندگان مهم است، آنها در هوش مصنوعی که در آن مدل های بزرگ می توانند در مراحل آموزش یا استنباط گرفتار شوند، کلیدی هستند.

cmake ..

تستش کن

به دلیل اندازه مدل، دو مانع اصلی وجود دارد:

حافظه
مدل های ترانسفورماتور مانند BERT از یک نمودار با عملگرهای زیادی تشکیل شده است. از آنجایی که عمدتاً از سلول های ترانسفورماتور انباشته تشکیل شده است، یک نسخه حافظه فشرده بین محاسبات ابتدایی متعدد وجود دارد. اکثر روش‌ها بهینه‌سازی هر سلول را با ترکیب زیر نمودارهای کلیدی چند عملگر ابتدایی در هسته‌های منفرد، از جمله لایه‌های Self-Attention، Layer Normalization و Gaussian Error Linear Unit (Gelu) هدف قرار می‌دهند. اینها می توانند هزینه محاسبات و پهنای باند حافظه را به میزان قابل توجهی کاهش دهند.
CPU
مدل ها می توانند از طریق موازی سازی از چندین هسته بهره ببرند. این زمانی اتفاق می افتد که لایه Self-Attention معماری ترانسفورماتور (بردارهای Q، K و V) بر اساس تعداد هدهای Self-Attention تقسیم بندی شوند. این می تواند موازی سازی را تقویت کند و به دستگاه اجازه دهد تا به طور کامل از هسته های CPU موجود استفاده کند.

ازکیل لانزا یک مبشر متن باز در تیم اکوسیستم باز اینتل است که مشتاق کمک به مردم برای کشف دنیای هیجان انگیز هوش مصنوعی است. او همچنین یک مجری مکرر کنفرانس هوش مصنوعی و خالق موارد استفاده، آموزش و راهنماهایی است که به توسعه دهندگان کمک می کند تا ابزارهای AI منبع باز مانند TensorFlow* و Hugging Face* را بکار گیرند. او را در توییتر در @ پیدا کنیدeze_lanza

نویسندگان: ازکیل لانزا، امتیاز ساجوانی

سپاسگزاریها
نویسندگان از کریستوف پیوتر چوتکیویچ و میکولای ژیچینسکی برای کمک هایشان تشکر می کنند.

نتایج زیر را می‌توان در آخرین نسل پردازنده‌های مقیاس‌پذیر Intel® Xeon® که اکنون در سرویس‌های وب آمازون* موجود است تأیید کرد. در اینجا، ما آن را روی نمونه‌های Amazon R6i و Amazon R7i آزمایش کردیم

از ویکی پدیا، مجوز Creative Commons Attribution-ShareAlike 3.0

بهینه سازی برنامه های زبان مبتنی بر هوش مصنوعی BERT | توسط اینتل | فناوری اینتل | مه، 2023

منیژه مریدی

بهترین کامپیوتر all in one هفت برند از بهترین کامپیوتر همه‌کاره اکسیرشاپ | intelmag

نوشته‌های تازه

اینتل مگ

دسته‌ها

جدیدترین خبرها

هواوی در بحبوحه تحریم‌های آمریکا قصد دارد حافظه‌های HBM خانگی تولید کند

SALKER 2: Heart of Chornobyl یک تریلر جدید و اسکرین شات های بیشتری دریافت می کند