بر اساس گزارشها، پردازندههای بلکول نسل بعدی انویدیا در هنگام نصب در رکهای سرور با ظرفیت بالا با چالشهای مهمی با گرم شدن بیش از حد روبرو هستند. اطلاعات. طبق گزارشها، این مسائل منجر به تغییرات و تأخیر در طراحی شده و نگرانیهایی را در میان مشتریانی مانند گوگل، متا و مایکروسافت در مورد اینکه آیا میتوانند سرورهای Blackwell را به موقع مستقر کنند، ایجاد کرده است.
به گفته خودی های آشنا با وضعیت که با اطلاعات، پردازنده های گرافیکی بلک ول انویدیا برای هوش مصنوعی و HPC هنگام استفاده در سرورهایی با 72 پردازنده در داخل آن بیش از حد گرم می شوند. انتظار می رود این ماشین ها تا 120 کیلو وات در هر رک مصرف کنند. این مشکلات باعث شده تا انویدیا چندین بار طراحی رک های سرور خود را مورد ارزیابی قرار دهد، زیرا گرمای بیش از حد عملکرد GPU را محدود می کند و خطر آسیب رساندن به قطعات را به همراه دارد. بر اساس گزارشها، مشتریان نگران این هستند که این عقبنشینیها ممکن است جدول زمانی آنها را برای استقرار پردازندههای جدید در مراکز دادهشان مختل کند.
طبق گزارشها، انویدیا به تامینکنندگان خود دستور داده است تا چندین تغییر طراحی در قفسهها برای مقابله با مشکلات گرمای بیش از حد ایجاد کنند. این شرکت از نزدیک با تامین کنندگان و شرکای خود برای توسعه بازنگری های مهندسی برای بهبود خنک سازی سرور همکاری کرده است. در حالی که این تنظیمات برای چنین عرضههای فناوری در مقیاس بزرگ استاندارد هستند، با این وجود به تأخیر اضافه کردهاند و تاریخهای حمل و نقل مورد انتظار را بیشتر به عقب میاندازند.
سخنگوی انویدیا در پاسخ به تاخیرها و مشکلات داغ شدن بیش از حد، به رویترز در مورد تلاش های مشترک با ارائه دهندگان ابر یادآوری کرد و تغییرات طراحی را به عنوان بخشی از روند عادی توسعه توصیف کرد. هدف این همکاری با ارائهدهندگان و تامینکنندگان ابری این است که محصول نهایی انتظارات عملکرد و قابلیت اطمینان را برآورده کند، زیرا Nvidia همچنان به کار برای حل این چالشهای فنی ادامه میدهد.
پیش از این، انویدیا مجبور بود به دلیل نقص طراحی پردازنده، تولید بلک ول را به تاخیر بیاندازد. پردازندههای گرافیکی Blackwell B100 و B200 انویدیا از فناوری بستهبندی CoWoS-L TSMC برای اتصال دو چیپلت خود استفاده میکنند. این طراحی شامل یک اینترپوزر RDL با پل های محلی سیلیکونی (LSI) است که از سرعت انتقال داده تا 10 ترابایت بر ثانیه پشتیبانی می کند. موقعیت یابی دقیق این پل های LSI برای عملکرد این فناوری به صورت مورد نظر ضروری است. با این حال، عدم تطابق در ویژگیهای انبساط حرارتی تراشههای GPU، پلهای LSI، interposer RDL و بستر مادربرد منجر به تاب برداشتن و خرابی سیستم شد. برای رفع این مشکل، Nvidia طبق گزارشها، لایههای فلزی بالای سیلیکون GPU و ساختارهای برآمدگی را برای بهبود قابلیت اطمینان تولید اصلاح کرده است. اگرچه انویدیا هرگز جزئیات خاصی را در مورد این تغییرات فاش نکرد، اما اشاره کرد که ماسک های جدید به عنوان بخشی از اصلاح ضروری است.
در نتیجه، ویرایش نهایی پردازندههای گرافیکی بلکول تنها در اواخر اکتبر وارد تولید انبوه شد، به این معنی که انویدیا میتواند این پردازندهها را از اواخر ژانویه عرضه کند.
مشتریان انویدیا، از جمله غولهای فناوری مانند گوگل، متا و مایکروسافت، از پردازندههای گرافیکی انویدیا برای آموزش قدرتمندترین مدلهای زبان بزرگ خود استفاده میکنند. تاخیر در پردازنده های گرافیکی هوش مصنوعی بلک ول به طور طبیعی بر برنامه ها و محصولات مشتریان انویدیا تأثیر می گذارد.
مرجع اخبار سخت افزار کامپیوترایران
تحریریه Techpowerup