اینتل نتایج پیشرو در عملکرد هوش مصنوعی را در بنچمارک صنعت MLPerf v2.1 برای آموزش DL ارائه می دهد


امروز، MLCommons نتایج معیار عملکرد هوش مصنوعی پیشرو در صنعت خود را منتشر کرد که در آن پردازنده نسل چهارم Intel Xeon Scalable (با نام رمز Sapphire Rapids) و شتابدهنده یادگیری عمیق اختصاصی Habana Gaudi 2 نتایج آموزشی چشمگیری را ثبت کردند.

“من به پیشرفت مستمر تیممان از زمان آخرین ارائه نتایج رهبری در MLPerf در ماه ژوئن افتخار می کنم. پردازنده نسل چهارم Xeon Scalable و شتاب دهنده هوش مصنوعی Gaudi 2 اینتل از طیف گسترده ای از عملکردها پشتیبانی می کند و عملکرد رهبری را به مشتریانی ارائه می دهد که به آموزش عمیق و یادگیری عمیق نیاز دارند. حجم کار در مقیاس بزرگ.” ساندرا ریورا، معاون اجرایی اینتل و مدیر کل مرکز داده و گروه هوش مصنوعی

چرا مهم است

در بسیاری از موارد استفاده از مراکز داده، یادگیری عمیق (DL) بخشی از یک خط لوله یادگیری ماشینی (ML) و تجزیه و تحلیل داده پیچیده است که بر روی سرورهای مبتنی بر Xeon اجرا می‌شود که برای اجرای برنامه‌های کاربردی دیگر نیز استفاده می‌شوند و با تغییر تقاضای بار کاری در طول زمان سازگار هستند. . در این موارد استفاده است که Xeon Scalable بهترین هزینه کل مالکیت (TCO) و استفاده در طول سال را ارائه می دهد.

پردازنده نسل چهارم اینتل Xeon مقیاس‌پذیر با افزونه‌های پیشرفته ماتریس اینتل (AMX)، یک شتاب‌دهنده جدید هوش مصنوعی یکپارچه، به مشتریان اجازه می‌دهد تا پلتفرم سرور همه‌منظوره Xeon را گسترش دهند تا موارد استفاده بیشتر DL، از جمله آموزش DL و تنظیم دقیق را پوشش دهند. AMX یک موتور ضرب ماتریس اختصاصی است که در هر هسته پردازنده‌های نسل چهارم اینتل Xeon Scalable تعبیه شده است. این موتور اختصاصی هوش مصنوعی بهینه شده است تا با استفاده از چارچوب‌های استاندارد صنعت، عملکرد مدل آموزشی DL تا 6 برابر بالاتر را در بین نسل‌ها ارائه دهد.

در مواردی که سرور یا خوشه ای از سرورها عمدتاً برای آموزش DL و محاسبات استنتاج استفاده می شود، شتاب دهنده Habana Gaudi2 شتاب دهنده بهینه است. این به طور خاص برای ارائه بهترین عملکرد DL و TCO برای این موارد استفاده اختصاصی طراحی شده است.

درباره نتایج برای Xeon
اینتل نتایج آموزشی MLPerf v2.1 را در خانواده پردازنده‌های نسل چهارم Intel Xeon Scalable در طیف وسیعی از بارهای کاری ارسال کرده است. پردازنده مقیاس‌پذیر Intel Xeon تنها پردازنده‌ای بود که برای MLPerf نسخه 2.1 ارائه شد و بار دیگر نشان داد که بهترین پردازنده سرور برای آموزش هوش مصنوعی است و به مشتریان این امکان را می‌دهد تا از زیرساخت مشترک خود برای آموزش در هر مکان و هر زمان استفاده کنند. پردازنده‌های مقیاس‌پذیر نسل چهارم اینتل Xeon با اینتل AMX این عملکرد را در چارچوب‌های استاندارد صنعتی متعدد ارائه می‌دهند و با ابزارهای علمی داده سرتاسر و اکوسیستم گسترده راه‌حل‌های شریک هوشمند یکپارچه شده‌اند. توسعه دهندگان فقط باید از آخرین نسخه های چارچوب TensorFlow و PyTorch برای آزادسازی این عملکرد استفاده کنند. Intel Xeon Scalable اکنون می تواند هر بار کاری هوش مصنوعی را اجرا کند.

نتایج اینتل نشان می‌دهد که پردازنده‌های نسل چهارم اینتل زئون مقیاس‌پذیر، دسترسی پردازنده‌های همه‌منظوره را برای آموزش هوش مصنوعی گسترش می‌دهند، بنابراین مشتریان می‌توانند با Xeon‌هایی که قبلاً کسب‌وکارشان را اداره می‌کنند، کارهای بیشتری انجام دهند. این امر به ویژه برای آموزش مدل های متوسط ​​تا کوچک یا یادگیری انتقالی (معروف به تنظیم دقیق) صادق است. نتایج DLRM نمونه های بسیار خوبی هستند که در آن ما توانستیم مدل را در کمتر از 30 دقیقه (26.73) تنها با چهار گره سرور آموزش دهیم. حتی برای مدل‌های سایز متوسط ​​و بزرگ‌تر، پردازنده‌های نسل چهارم Xeon می‌توانند مدل‌های BERT و ResNet-50 را به ترتیب در کمتر از 50 دقیقه (47.26) و کمتر از 90 دقیقه (89.01) هدایت کنند. توسعه‌دهندگان اکنون می‌توانند مدل‌های کوچک DL را در طول یک استراحت قهوه، مدل‌های متوسط ​​را در هنگام ناهار آموزش دهند و از همان سرورهای متصل به سیستم‌های ذخیره‌سازی داده برای استفاده از تکنیک‌های تحلیل دیگر مانند یادگیری ماشین کلاسیک در بعد از ظهر استفاده کنند. این به شرکت اجازه می‌دهد تا پردازنده‌های یادگیری عمیق مانند Gaudi2 را برای بزرگ‌ترین و سخت‌ترین مدل‌ها نگه دارد.

درباره نتایج Habana Gaudi2

Gaudi2، پردازنده DL نسل دوم Habana، در ماه مه راه اندازی شد و نتایج رهبری را در آموزش MLPerf v2.0 10 روز بعد ارائه کرد. Gaudi2 که در 7 نانومتر تولید می‌شود و دارای 24 هسته پردازشگر تانسور، 96 گیگابایت حافظه داخلی HBM2e و 24100 پورت اترنت گیگابیتی آنبورد است، دوباره بهترین عملکرد سرور هشت کارتی را در مقایسه با A100 از Nvidia نشان داد.

همانطور که در اینجا نشان داده شده است، Gaudi2 زمان آموزش در TensorFlow را 10% برای BERT و ResNet-50 بهبود بخشید و نتایج را در PyTorch گزارش کرد که در ارسال ماه می به ترتیب به مزیت 4% و 6% TTT برای BERT و ResNet-50 دست یافت. گائودی 2. هر دو مجموعه نتایج در دسته بندی بسته و در دسترس ارسال شدند.

این پیشرفت‌های سریع بر منحصربفرد بودن معماری DL هدفمند Gaudi2، بلوغ فزاینده نرم‌افزار Gaudi2 و گسترش پشته نرم‌افزار Habana SynapseAI، بهینه‌سازی شده برای توسعه و استقرار مدل‌های یادگیری عمیق تأکید می‌کند.

به عنوان شواهدی دیگر از قدرت نتایج، Gaudi2 به عملکرد بهتر از Nvidia A100 برای BERT و ResNet-50 ادامه داد، همانطور که در ارسال ماه می انجام داد و در اینجا نشان داده شد. علاوه بر این، لازم به ذکر است که H100 ResNet-50 TTT انویدیا تنها 11 درصد سریعتر از عملکرد Gaudi2 است. و اگرچه H100 59٪ سریعتر از Gaudi2 در BERT است، باید توجه داشت که Nvidia BERT TTT را در نوع داده FP8 گزارش کرده است، در حالی که Gaudi2 TTT روی نوع داده استاندارد و تأیید شده BF16 است (با FP8 فعال در برنامه های نرم افزاری Gaudi2). Gaudi2 بهبود قابل توجهی در نسبت قیمت به عملکرد در مقایسه با A100 و H100 ارائه می دهد.

تیم اینتل و هابانا مشتاقانه منتظر ارسال‌های MLPerf آینده خود برای راه‌حل‌های مجموعه هوش مصنوعی اینتل هستند.



مرجع اخبار سخت افزار کامپیوترایران