نقص طراحی کشنده انویدیا در GPU بلک ول ماه ها پیش برطرف شد و نسخه اصلاح شده پردازنده های B100/B200 در آستانه تولید انبوه است. به گزارش رویترز، جنسن هوانگ، مدیر عامل انویدیا، این هفته اعتراف کرد که این نقص کاملاً توسط انویدیا ایجاد شده است و گفت که شریک تولید این شرکت TSMC به رفع به موقع آن کمک کرده است.
هوانگ گفت: “ما یک نقص طراحی در Blackwell داشتیم، عملکردی بود، اما نقص طراحی باعث شد بازده پایین باشد.” 100% تقصیر انویدیا بود.
هنگامی که اولین گزارش ها در مورد نقص طراحی ظاهر شد، برخی از رسانه ها گزارش دادند که TSMC مقصر است – و پیشنهاد کردند که این ممکن است باعث ایجاد فشار بین Nvidia و شریک ریخته گری آن شود. به گفته هوانگ اینطور نبود و محاسبات اشتباه خود انویدیا باعث این مشکل شد. هوانگ همچنین گزارش های مربوط به تنش بین دو شرکت را “اخبار جعلی” رد کرد.
پردازندههای گرافیکی بلکول B100 و B200 انویدیا دو چیپلت خود را با استفاده از فناوری بستهبندی CoWoS-L TSMC به هم متصل میکنند، که به یک interposer RDL مجهز به پلهای محلی سیلیکونی (LSI) متکی است (برای فعال کردن سرعت انتقال داده در حدود 10 ترابایت بر ثانیه). قرار گرفتن این پل ها بسیار مهم است. با این حال، یک عدم تطابق فرضی در خواص انبساط حرارتی بین چیپلتهای GPU، پلهای LSI، اینترپوزر RDL و بستر مادربرد باعث تاب برداشتن و از کار افتادن سیستم شد و طبق گزارشها، Nvidia مجبور شد لایههای فلزی بالایی و برآمدگیهای سیلیکون GPU را اصلاح کند. بازده تولید در حالی که این شرکت جزئیات خاصی را در مورد این تعمیر فاش نکرد، اشاره کرد که ماسک های جدید مورد نیاز است.
مشکلات کشنده عملکرد و مشکلات عمده عملکردی (نقاط) در دنیای نیمه هادی ها بی سابقه نیستند. به طور معمول، شرکت ها آنها را با اصلاح یک لایه فلزی (یا دو) اصلاح می کنند و آن را یک پله جدید می نامند. نمونه موردی: Sapphire Rapids اینتل طبق گزارشها دارای 500 باگ بود، و این شرکت حدود 12 مرحله را برای رفع همه آنها منتشر کرد (پنج مورد از آنها Respins پایه بودند). تکمیل هر مرحله جدید حدود سه ماه طول می کشد (شامل شناسایی مشکل، رفع آن و تولید نسخه جدیدی از تراشه)، بنابراین سرعتی که Nvidia و TSMC با آن GPU Blackwell را تعمیر کردند بسیار چشمگیر است.
پردازندههای گرافیکی بلکول که اکنون ثابت شدهاند برای هوش مصنوعی و ابررایانهها در اواخر اکتبر وارد تولید انبوه میشوند و در اوایل سال آینده (که همچنان سال مالی 2025 انویدیا خواهد بود) عرضه خواهند شد.
با این اوصاف، انویدیا در اوایل سال جاری فاش کرد که برای پاسخگویی به تقاضا برای پردازندههای گرافیکی Blackwell خود در میان ارائهدهندگان خدمات ابری بزرگ مانند AWS، گوگل و مایکروسافت، همچنان باید برخی از پردازندههای اولیه کمبازده بلکول را در سال 2024 عرضه کند. مشخص نیست که در سال 2024 چه تعداد GPU Blackwell به مراکز داده ارسال خواهد شد.
مرجع اخبار سخت افزار کامپیوترایران
تحریریه Techpowerup