کنترل داده به اشتراک گذاشته نشده است عدم تمایل صاحبان داده به کنار گذاشتن کنترل دادههای خود، در دسترس بودن دادهها را برای تجزیه و تحلیل و تصمیمگیری محدود میکند و به طور بالقوه منجر به مدلهای هوش مصنوعی مغرضانه یا نادرست میشود.
مدل های غیرقابل تعمیم اگر داده های ارائه شده به اندازه کافی پراکنده نباشد، نمی توان آن را در کلمه واقعی تعمیم داد. به عنوان مثال، مدلهای ساخته شده بر روی دادههای تنها چند سازمان نمیتوانند پیشبینی مناسبی روی دادههای مختلف انجام دهند، زیرا این مدلها فقط الگوهای موجود در مجموعه دادههایی را که روی آنها آموزش دیدهاند، درک میکنند.
کمبود داده کمبود داده میتواند منجر به سوگیری و عدم دقت در مدلهای هوش مصنوعی و سایر فناوریهای مبتنی بر داده شود، زیرا ممکن است مدلها بر روی مجموعه دادههای ناقص یا مغرضانه آموزش داده شوند. این می تواند عواقب جدی داشته باشد، مانند تداوم تعصبات سیستمیک یا منجر به توصیه های نادرست یا ناقص.
مجموعه داده های بزرگ در حالت ایدهآل، مدلها باید با مقدار قابلتوجهی از داده آموزش داده شوند، متمرکز کردن مجموعه دادههای بزرگ برای توسعه هوش مصنوعی مستلزم انتقال دادهها به یک مکان مرکزی است که میتواند زمانبر و منابع فشرده باشد.
برای محتوای متن باز بیشتر از اینتل، بررسی کنید open.intel یا ما را دنبال کنید توییتر.
توسعه دهندگان هوش مصنوعی
دسترسی به مجموعه داده های متنوع و بزرگ توسعه دهندگان نیاز به ارائه مدل های قابل اعتماد دارند. از آنجایی که دادههای مورد استفاده برای آموزش آن مدلها متنوعتر میشوند، فرصتی را برای مدل فراهم میکند تا از طیف وسیعتری از اطلاعات یاد بگیرد، که میتواند به کاهش سوگیریهای بالقوه کمک کند.
اعتبارسنجی مدلهای هوش مصنوعی در انواع تنظیمات داده/دنیای واقعی مدل ها باید قوی، غیر مغرضانه و دقیق باشند. قابلیت اعتبارسنجی مدل با داده های چندین منبع به ارائه یک مدل قابل اعتماد کمک می کند.
محافظت از IP مدل AI: امنیت همیشه یک ملاحظه مهم برای مدلهای هوش مصنوعی است و این مدلها باید تحت حمله امن باقی بمانند. حفاظت به محافظت از حقوق مالکیت معنوی (IP) توسعه دهندگانی که آنها را ایجاد می کنند اشاره دارد.
عکس از جان اشنوبریچ در Unsplash
درک نکات دردناک و نیازهای صاحبان داده و توسعه دهندگان هوش مصنوعی برای موفقیت هر پروژه ML حیاتی است. ما برخی از چالشهایی را که این دو شخصیت در چرخه AI/ML با آنها روبرو هستند و همچنین نیازهای خاص آنها را بررسی خواهیم کرد. با شناسایی این نیازها و نقاط دردناک، میتوانیم استراتژیهایی برای رسیدگی به آنها و تضمین موفقیت پروژههای ML ایجاد کنیم.
نیاز دارد
سریع ترین راه برای تست OpenFL، امتحان کردن آموزش هاست. همچنین میتوانید با خواندن پست وبلاگ که نحوه آموزش یک مدل با OpenFL را توضیح میدهد یا بررسی مستندات آنلاین برای راهاندازی اولین فدراسیون خود، شروع کنید.
نقاط درد
نویسندگان: Ezequiel Lanza، Olga Perepelkina
برای صاحبان داده
کنترل کامل روی داده ها را حفظ کنید یادگیری فدرال میتواند به حفظ کنترل کامل بر دادهها کمک کند و به سازمانها اجازه میدهد مالکیت و کنترل دادههای خود را حفظ کنند و در عین حال آنها را برای استفاده در یادگیری ماشینی فعال کنند.
خطرات نقض داده ها را به حداقل برسانید از آنجایی که داده ها غیرمتمرکز باقی می مانند و نیازی به انتقال به یک مکان مرکزی ندارند، خطرات نقض داده ها کاهش می یابد. هر دستگاه لبه فقط به داده های خود دسترسی دارد و نیازی به اشتراک گذاری آن با دیگران ندارد و احتمال قرار گرفتن در معرض داده ها را کاهش می دهد.
کسب درآمد از داده ها یادگیری فدرال میتواند سازمانها را قادر سازد تا با سایر طرفها برای ایجاد بینش ارزشمندتر همکاری کنند. سازمانهای متعدد میتوانند بدون به اشتراک گذاشتن دادههای خام خود در فرآیند آموزش شرکت کنند و مدل نهایی میتواند برای ایجاد بینش و کسب درآمد از دادههای آنها به صورت جمعی استفاده شود.
OpenFL یک کتابخانه Python* برای یادگیری فدرال است که امکان همکاری در پروژه های یادگیری ماشین را بدون اشتراک گذاری داده های حساس یا خصوصی فراهم می کند. در یادگیری فدرال، مدل بهجای اینکه دادهها برای برآورده کردن مدل حرکت میکنند، برای برآورده کردن دادهها حرکت میکند. OpenFL به طور کلی از یک خط لوله کلاسیک علم داده پیروی می کند، با دو جزء جریان کار جدید: “همکار” و “جمع کننده”. برای مثال در دنیای واقعی، این مطالعه موردی را بخوانید که در آن آزمایشگاه های اینتل با 71 موسسه بین المللی مراقبت های بهداشتی و تحقیقاتی برای آموزش مدل های هوش مصنوعی برای شناسایی تومورهای مغزی همکاری کردند.
تصویر: ازکیل لانزا
یک پروژه معمولی AI/ML شامل محققان، ممیزان، مهندسین امنیت ابر و دیگران است. با این حال، دو تا از حیاتی ترین نقش ها، مالک داده و توسعه دهنده هوش مصنوعی هستند.
صاحب داده. این شخص مسئول اطمینان از اینکه داده های استفاده شده در سیستم هوش مصنوعی دقیق، کامل و معرف دامنه مشکل است، می باشد. آنها همچنین نقش کلیدی در حصول اطمینان از اینکه داده ها به درستی برچسب گذاری و حاشیه نویسی می شوند، ایفا می کنند، که برای وظایف یادگیری نظارت شده ضروری است.
توسعه دهنده هوش مصنوعی توسعه دهنده مسئول طراحی، توسعه و تنظیم دقیق سیستم هوش مصنوعی، اطمینان از مقیاس پذیری، قابلیت اطمینان و کارایی آن و اطمینان از سازگاری آن با زیرساخت های صاحب داده است.
به جلسات انجمن مجازی بروید، در اینجا تقویم با مناطق زمانی در چندین منطقه آمده است.
برنامه های کاربردی هوش مصنوعی با یک انگشت به هم نمی رسند. ساخت مدلهای هوش مصنوعی نیازمند همکاری قوی بین تیمهای متعدد با مسئولیتهای متعدد در طول چرخه یادگیری ماشین است. چالش ها شامل انتخاب چارچوب ها، ابزارها، منابع ماهر و زیرساخت های مناسب است. در ابتدایی ترین سطح، صاحبان داده ها و توسعه دهندگان باید برای ساختن این برنامه های در حال تغییر جهان به نقاط مشترک برسند. در این پست، نگاه دقیقتری به نیازها و نکات دردناک هر یک میاندازیم و به چگونگی کمک به یادگیری فدرال و OpenFL خواهیم پرداخت.
برای توسعه دهندگان ML:
دسترسی به مجموعه داده های متنوع از آنجایی که داده ها محافظت می شوند و مستقیماً به اشتراک گذاشته نمی شوند، این فرصت را برای توسعه دهندگان هوش مصنوعی فراهم می کند تا به مجموعه داده های متنوعی دسترسی داشته باشند و سپس مدل های قوی را آموزش دهند.
محافظت از IP اگرچه یادگیری فدرال به محافظت از اطلاعات کمک می کند، می توان یک لایه امنیتی اضافی برای جلوگیری از حملات احتمالی از طریق OpenFL + SGX (Gramine) اضافه کرد.
اولگا پرپلکینا، مدیر محصول هوش مصنوعی در اینتل او دارای مدرک دکترا در علوم اعصاب و مدرک فوق لیسانس در یادگیری ماشین/علوم داده است. او همچنین مشاور صنعتی در دانشکده آموزش دکتری در دانشگاه گلاسکو است. او را در لینکدین پیدا کنید.
ازکیل لانزا یک مبشر متن باز در تیم اکوسیستم باز اینتل است که مشتاق کمک به مردم برای کشف دنیای هیجان انگیز هوش مصنوعی است. او همچنین یک مجری مکرر کنفرانس هوش مصنوعی و خالق موارد استفاده، آموزش و راهنماهایی است که به توسعه دهندگان کمک می کند تا ابزارهای AI منبع باز مانند TensorFlow* و Hugging Face* را بکار گیرند. او را در توییتر در @ پیدا کنیدeze_lanza
تصویر: تیم OpenFL
در اینجا نحوه یادگیری فدرال می تواند این نقاط درد را کاهش دهد.
یادگیری فدرال با فعال کردن آموزش مدل های مشترک و در عین حال حفظ حریم خصوصی داده ها، بهبود تنوع داده ها و به طور بالقوه کاهش تعصب، یک برد برد را برای صاحبان داده ها و توسعه دهندگان هوش مصنوعی فراهم می کند. شما می توانید با استفاده از یک چارچوب متن باز قدرتمند به نام OpenFL با یادگیری فدرال شروع کنید.
گرافیک زیر نقش این دو شخصیت را در چرخه AI/ML نشان می دهد:
مسائل مربوط به صاحبان داده:
رعایت مقررات بسته به منطقه، دستورالعمل های نظارتی باید برای مدیریت/ذخیره داده ها رعایت شود، عدم انطباق مشکلات جدی ایجاد می کند. اینها شامل قانون قابل حمل و پاسخگویی بیمه سلامت 1996 (HIPAA) و مقررات حفاظت از داده های عمومی (GDPR) است.
فقدان تخصص هوش مصنوعی صاحبان داده ها ممکن است مجموعه داده های خود را از درون بدانند، اما باید سرمایه گذاری در تخصص هوش مصنوعی یا مشارکت با توسعه دهندگان هوش مصنوعی را در نظر بگیرند تا ارزش داده های خود را به طور کامل درک کنند تا از هوش مصنوعی برای حداکثر ارزش داده استفاده کنند.
ریسک شناسایی مجدد دادههایی که میتوانند به یک فرد متصل شوند و اطلاعات مربوط به آنها را فاش کنند، دادهها را حساستر و برای مالک خطرناکتر میکنند. فرآیندهایی مانند شناسایی زدایی می تواند خطر را کاهش دهد، در حالی که هنوز امکان استفاده از داده ها را فراهم می کند.
خوشبختانه راه حلی وجود دارد که به شما در مقابله با این چالش ها کمک می کند. در یک تنظیمات یادگیری ماشین متمرکز معمولی، دادهها از منابع مختلف جمعآوری میشوند، در یک مخزن مرکزی جمعآوری میشوند و سپس برای آموزش یک مدل یادگیری ماشین استفاده میشوند. یادگیری فدرال می تواند به لطف رویکرد یادگیری ماشینی توزیع شده که همکاری در پروژه های یادگیری ماشین را بدون نیاز به اشتراک گذاری داده های حساس، مانند سوابق بیمار، داده های مالی یا اطلاعات طبقه بندی شده، کمک کند. حداقل جابجایی داده مورد نیاز در سراسر فدراسیون فقط پارامترهای مدل و به روز رسانی آنها است.
عکس از عثمان یوسف در Unsplash
رفع نیازها و کاهش نقاط درد
سنگ بنای یادگیری فدرال این است که داده ها هرگز از جایی که در آن جمع آوری شده اند خارج نمی شوند، بنابراین هم صاحبان داده و هم توسعه دهندگان هوش مصنوعی می توانند از مشارکت در زنجیره ارزش AI/ML بهره ببرند.
مالک داده
کسب درآمد از دارایی های داده موجود داراییهای داده میتوانند منبع درآمد ارزشمندی برای شرکتها باشند، زیرا میتوانند یک بار مدیریت شوند و چندین بار کسب درآمد کنند. همین دادهها میتوانند از راههای مختلف درآمدزایی کنند، مانند فروش آن به مشتریان متعدد (داخلی یا خارجی)، استفاده از آن برای تبلیغات هدفمند، یا توسعه محصولات و خدمات دادهای.
در زنجیره ارزش / پیشرفت های هوش مصنوعی شرکت کنید ایفای نقش در زنجیره ارزش هوش مصنوعی میتواند مزایای استخراج ارزش بیشتر از داراییهای دادهای را برای مالکان فراهم کند، زیرا آنها درک میکنند که دادهها برای چه چیزی استفاده میشوند.
کنترل بر داده ها صاحبان داده ها باید کنترل خود را بر داده ها حفظ کنند و اطمینان حاصل کنند که آنها به طور مسئولانه و ایمن استفاده می شوند. این به محافظت از مالکیت معنوی آنها، حفظ اعتماد مشتری و جلوگیری از نقض داده ها یا سایر حوادث امنیتی کمک می کند.
صاحبان داده و توسعه دهندگان هوش مصنوعی هنگام کار با داده های خود با چالش های زیادی روبرو هستند، در اینجا سه مورد برتر برای هر کدام آورده شده است: