اپل در حال آزمایش با مدلهای زبان توسعهیافته (LLM) است که اکثر برنامههای کاربردی هوش مصنوعی امروزی را تامین میکنند. این شرکت می خواهد که این LLM ها به بهترین وجه به کاربران خدمات ارائه دهند و آنها را به طور کارآمد ارائه دهند، که کار دشواری است زیرا به منابع زیادی از جمله محاسبات و حافظه نیاز دارند. به طور سنتی، LLM ها به شتاب دهنده های هوش مصنوعی همراه با ظرفیت DRAM بزرگ برای ذخیره وزن مدل نیاز داشتند. با این حال، اپل مقاله ای را با هدف ارائه LLM به دستگاه هایی با ظرفیت حافظه محدود منتشر کرده است. با ذخیرهسازی LLM بر روی NAND فلش (ذخیرهسازی معمولی)، این روش شامل ساخت یک مدل هزینه استنتاج است که با رفتار فلش همسو میشود و بهینهسازی را در دو حوزه مهم هدایت میکند: کاهش حجم دادههای انتقالیافته از حافظه فلش و خواندن دادهها در قالبهای بزرگتر و حجیمتر. . قطعات به هم پیوسته اپل میخواهد بهجای ذخیره وزنهای مدل بر روی DRAM از حافظه فلش برای ذخیره وزنها استفاده کند و فقط در صورت لزوم آنها را به صورت درخواستی به DRAM منتقل کند.
دو تکنیک اصلی در این چارچوب مبتنی بر فلش معرفی شده است: “پنجره” و “گروه بندی ردیف و ستون”. این روشها مجموعاً مدلهای در حال اجرا را تا دو برابر اندازه DRAM موجود، با استنتاج 4 تا 5 برابر سریعتر و استنتاج 20 تا 25 برابر سریعتر از رویکردهای بارگذاری ساده بر روی CPU و GPU، به ترتیب فعال میکنند. ادغام آگاهی پراکندگی، بارگذاری سازگار با زمینه، و طراحی سختافزاری راه را برای استنتاج عملی LLM در دستگاههای دارای محدودیت حافظه، مانند SoC با حافظه 8/16/32 گیگابایت، هموار میکند. DRAM در دسترس است. به خصوص با قیمتهای DRAM بالاتر از NAND Flash، تنظیماتی مانند تنظیمات گوشیهای هوشمند به راحتی میتوانند LLMهایی را با پارامترهای میلیاردی ذخیره و استنباط کنند، حتی اگر DRAM موجود کافی نباشد. برای تحلیل فنی بیشتر، مقاله arXiv را اینجا بخوانید.
مرجع اخبار سخت افزار کامپیوترایران
تحریریه Techpowerup