اپل می خواهد LLM ها را روی حافظه فلش ذخیره کند تا هوش مصنوعی را به گوشی های هوشمند و لپ تاپ ها بیاورد

اپل در حال آزمایش با مدل‌های زبان توسعه‌یافته (LLM) است که اکثر برنامه‌های کاربردی هوش مصنوعی امروزی را تامین می‌کنند. این شرکت می خواهد که این LLM ها به بهترین وجه به کاربران خدمات ارائه دهند و آنها را به طور کارآمد ارائه دهند، که کار دشواری است زیرا به منابع زیادی از جمله محاسبات و حافظه نیاز دارند. به طور سنتی، LLM ها به شتاب دهنده های هوش مصنوعی همراه با ظرفیت DRAM بزرگ برای ذخیره وزن مدل نیاز داشتند. با این حال، اپل مقاله ای را با هدف ارائه LLM به دستگاه هایی با ظرفیت حافظه محدود منتشر کرده است. با ذخیره‌سازی LLM بر روی NAND فلش (ذخیره‌سازی معمولی)، این روش شامل ساخت یک مدل هزینه استنتاج است که با رفتار فلش همسو می‌شود و بهینه‌سازی را در دو حوزه مهم هدایت می‌کند: کاهش حجم داده‌های انتقال‌یافته از حافظه فلش و خواندن داده‌ها در قالب‌های بزرگ‌تر و حجیم‌تر. . قطعات به هم پیوسته اپل می‌خواهد به‌جای ذخیره وزن‌های مدل بر روی DRAM از حافظه فلش برای ذخیره وزن‌ها استفاده کند و فقط در صورت لزوم آن‌ها را به صورت درخواستی به DRAM منتقل کند.

دو تکنیک اصلی در این چارچوب مبتنی بر فلش معرفی شده است: “پنجره” و “گروه بندی ردیف و ستون”. این روش‌ها مجموعاً مدل‌های در حال اجرا را تا دو برابر اندازه DRAM موجود، با استنتاج 4 تا 5 برابر سریع‌تر و استنتاج 20 تا 25 برابر سریع‌تر از رویکردهای بارگذاری ساده بر روی CPU و GPU، به ترتیب فعال می‌کنند. ادغام آگاهی پراکندگی، بارگذاری سازگار با زمینه، و طراحی سخت‌افزاری راه را برای استنتاج عملی LLM در دستگاه‌های دارای محدودیت حافظه، مانند SoC با حافظه 8/16/32 گیگابایت، هموار می‌کند. DRAM در دسترس است. به خصوص با قیمت‌های DRAM بالاتر از NAND Flash، تنظیماتی مانند تنظیمات گوشی‌های هوشمند به راحتی می‌توانند LLM‌هایی را با پارامترهای میلیاردی ذخیره و استنباط کنند، حتی اگر DRAM موجود کافی نباشد. برای تحلیل فنی بیشتر، مقاله arXiv را اینجا بخوانید.

مرجع اخبار سخت افزار کامپیوترایران