تیم اینتل و هابانا مشتاقانه منتظر ارسالهای MLPerf آینده خود برای راهحلهای مجموعه هوش مصنوعی اینتل هستند.
اینتل نتایج پیشرو در عملکرد هوش مصنوعی را در بنچمارک صنعت MLPerf v2.1 برای آموزش DL ارائه می دهد
مرجع اخبار سخت افزار کامپیوترایران
پردازنده نسل چهارم اینتل Xeon مقیاسپذیر با افزونههای پیشرفته ماتریس اینتل (AMX)، یک شتابدهنده جدید هوش مصنوعی یکپارچه، به مشتریان اجازه میدهد تا پلتفرم سرور همهمنظوره Xeon را گسترش دهند تا موارد استفاده بیشتر DL، از جمله آموزش DL و تنظیم دقیق را پوشش دهند. AMX یک موتور ضرب ماتریس اختصاصی است که در هر هسته پردازندههای نسل چهارم اینتل Xeon Scalable تعبیه شده است. این موتور اختصاصی هوش مصنوعی بهینه شده است تا با استفاده از چارچوبهای استاندارد صنعت، عملکرد مدل آموزشی DL تا 6 برابر بالاتر را در بین نسلها ارائه دهد.
به عنوان شواهدی دیگر از قدرت نتایج، Gaudi2 به عملکرد بهتر از Nvidia A100 برای BERT و ResNet-50 ادامه داد، همانطور که در ارسال ماه می انجام داد و در اینجا نشان داده شد. علاوه بر این، لازم به ذکر است که H100 ResNet-50 TTT انویدیا تنها 11 درصد سریعتر از عملکرد Gaudi2 است. و اگرچه H100 59٪ سریعتر از Gaudi2 در BERT است، باید توجه داشت که Nvidia BERT TTT را در نوع داده FP8 گزارش کرده است، در حالی که Gaudi2 TTT روی نوع داده استاندارد و تأیید شده BF16 است (با FP8 فعال در برنامه های نرم افزاری Gaudi2). Gaudi2 بهبود قابل توجهی در نسبت قیمت به عملکرد در مقایسه با A100 و H100 ارائه می دهد.
نتایج اینتل نشان میدهد که پردازندههای نسل چهارم اینتل زئون مقیاسپذیر، دسترسی پردازندههای همهمنظوره را برای آموزش هوش مصنوعی گسترش میدهند، بنابراین مشتریان میتوانند با Xeonهایی که قبلاً کسبوکارشان را اداره میکنند، کارهای بیشتری انجام دهند. این امر به ویژه برای آموزش مدل های متوسط تا کوچک یا یادگیری انتقالی (معروف به تنظیم دقیق) صادق است. نتایج DLRM نمونه های بسیار خوبی هستند که در آن ما توانستیم مدل را در کمتر از 30 دقیقه (26.73) تنها با چهار گره سرور آموزش دهیم. حتی برای مدلهای سایز متوسط و بزرگتر، پردازندههای نسل چهارم Xeon میتوانند مدلهای BERT و ResNet-50 را به ترتیب در کمتر از 50 دقیقه (47.26) و کمتر از 90 دقیقه (89.01) هدایت کنند. توسعهدهندگان اکنون میتوانند مدلهای کوچک DL را در طول یک استراحت قهوه، مدلهای متوسط را در هنگام ناهار آموزش دهند و از همان سرورهای متصل به سیستمهای ذخیرهسازی داده برای استفاده از تکنیکهای تحلیل دیگر مانند یادگیری ماشین کلاسیک در بعد از ظهر استفاده کنند. این به شرکت اجازه میدهد تا پردازندههای یادگیری عمیق مانند Gaudi2 را برای بزرگترین و سختترین مدلها نگه دارد.
درباره نتایج Habana Gaudi2
Gaudi2، پردازنده DL نسل دوم Habana، در ماه مه راه اندازی شد و نتایج رهبری را در آموزش MLPerf v2.0 10 روز بعد ارائه کرد. Gaudi2 که در 7 نانومتر تولید میشود و دارای 24 هسته پردازشگر تانسور، 96 گیگابایت حافظه داخلی HBM2e و 24100 پورت اترنت گیگابیتی آنبورد است، دوباره بهترین عملکرد سرور هشت کارتی را در مقایسه با A100 از Nvidia نشان داد.
این پیشرفتهای سریع بر منحصربفرد بودن معماری DL هدفمند Gaudi2، بلوغ فزاینده نرمافزار Gaudi2 و گسترش پشته نرمافزار Habana SynapseAI، بهینهسازی شده برای توسعه و استقرار مدلهای یادگیری عمیق تأکید میکند.
در مواردی که سرور یا خوشه ای از سرورها عمدتاً برای آموزش DL و محاسبات استنتاج استفاده می شود، شتاب دهنده Habana Gaudi2 شتاب دهنده بهینه است. این به طور خاص برای ارائه بهترین عملکرد DL و TCO برای این موارد استفاده اختصاصی طراحی شده است.
“من به پیشرفت مستمر تیممان از زمان آخرین ارائه نتایج رهبری در MLPerf در ماه ژوئن افتخار می کنم. پردازنده نسل چهارم Xeon Scalable و شتاب دهنده هوش مصنوعی Gaudi 2 اینتل از طیف گسترده ای از عملکردها پشتیبانی می کند و عملکرد رهبری را به مشتریانی ارائه می دهد که به آموزش عمیق و یادگیری عمیق نیاز دارند. حجم کار در مقیاس بزرگ.” ساندرا ریورا، معاون اجرایی اینتل و مدیر کل مرکز داده و گروه هوش مصنوعی


چرا مهم است
در بسیاری از موارد استفاده از مراکز داده، یادگیری عمیق (DL) بخشی از یک خط لوله یادگیری ماشینی (ML) و تجزیه و تحلیل داده پیچیده است که بر روی سرورهای مبتنی بر Xeon اجرا میشود که برای اجرای برنامههای کاربردی دیگر نیز استفاده میشوند و با تغییر تقاضای بار کاری در طول زمان سازگار هستند. . در این موارد استفاده است که Xeon Scalable بهترین هزینه کل مالکیت (TCO) و استفاده در طول سال را ارائه می دهد.
درباره نتایج برای Xeon
اینتل نتایج آموزشی MLPerf v2.1 را در خانواده پردازندههای نسل چهارم Intel Xeon Scalable در طیف وسیعی از بارهای کاری ارسال کرده است. پردازنده مقیاسپذیر Intel Xeon تنها پردازندهای بود که برای MLPerf نسخه 2.1 ارائه شد و بار دیگر نشان داد که بهترین پردازنده سرور برای آموزش هوش مصنوعی است و به مشتریان این امکان را میدهد تا از زیرساخت مشترک خود برای آموزش در هر مکان و هر زمان استفاده کنند. پردازندههای مقیاسپذیر نسل چهارم اینتل Xeon با اینتل AMX این عملکرد را در چارچوبهای استاندارد صنعتی متعدد ارائه میدهند و با ابزارهای علمی داده سرتاسر و اکوسیستم گسترده راهحلهای شریک هوشمند یکپارچه شدهاند. توسعه دهندگان فقط باید از آخرین نسخه های چارچوب TensorFlow و PyTorch برای آزادسازی این عملکرد استفاده کنند. Intel Xeon Scalable اکنون می تواند هر بار کاری هوش مصنوعی را اجرا کند.
همانطور که در اینجا نشان داده شده است، Gaudi2 زمان آموزش در TensorFlow را 10% برای BERT و ResNet-50 بهبود بخشید و نتایج را در PyTorch گزارش کرد که در ارسال ماه می به ترتیب به مزیت 4% و 6% TTT برای BERT و ResNet-50 دست یافت. گائودی 2. هر دو مجموعه نتایج در دسته بندی بسته و در دسترس ارسال شدند.