طبق گزارش Android Authority ، مقاله تحقیقاتی اپل، راهکاری برای اجرای مدلهای زبان بزرگ (LLM) روی دستگاههایی با رم محدود ارائه میدهد. این مقاله نشان میدهد که چگونه این شرکت میتواند «پارامترهای مدل» را ذخیره کرده و در صورت نیاز، به جای بارگذاری کل مدل در رم، بخشی از آنها را در رم دستگاه بارگذاری کند.
اپل به دنبال کمک به آیفونهای قدیمیتر با رم کمتر برای اجرای هوش مصنوعی عمومی است
این مقاله ادعا میکند که این روش امکان اجرای مدلهایی را فراهم میکند که به دو برابر رم مورد نیاز آیفون نیاز دارند و در عین حال سرعت استنتاج ۴-۵ برابر و ۲۰-۲۵ برابر را در مقایسه با روشهای بارگذاری ساده به ترتیب روی CPU و GPU تضمین میکنند.
استقرار هوش مصنوعی مصنوعی در دستگاهی با رم بیشتر، مزیت بزرگی خواهد بود زیرا سرعت خواندن/نوشتن سریعتری را فراهم میکند. سرعت برای هوش مصنوعی درون دستگاهی مهم است و زمان استنتاج بسیار سریعتری را فراهم میکند زیرا کاربران لزوماً مجبور نیستند دهها ثانیه (یا بیشتر) برای پاسخ یا نتیجه نهایی منتظر بمانند. همه اینها به این معنی است که یک دستیار هوش مصنوعی درون دستگاهی میتواند به طور بالقوه با سرعت مکالمه اجرا شود، تصاویر/متن را بسیار سریعتر تولید کند، مقالات را سریعتر خلاصه کند و غیره. اما راه حل اپل به این معنی است که کاربران لزوماً برای افزایش سرعت پاسخگویی به وظایف هوش مصنوعی درون دستگاهی به رم زیادی نیاز ندارند.
رویکرد اپل میتواند به آیفونهای قدیمی و جدید اجازه دهد تا ویژگیهای هوش مصنوعی مصنوعی را مستقیماً روی دستگاههای خود ارائه دهند. این مهم است زیرا آیفونهای اپل معمولاً رم کمتری نسبت به گوشیهای اندرویدی رده بالا ارائه میدهند. به عنوان مثال، سری آیفون ۱۱ فقط ۴ گیگابایت رم ارائه میدهد، در حالی که حتی آیفون ۱۵ معمولی فقط ۶ گیگابایت رم دارد.
اپل تنها شرکت موبایلی نیست که روی کوچکسازی LLM کار میکند. تراشههای پرچمدار اخیر کوالکام و مدیاتک هر دو از دقت INT4 برای کوچکسازی این مدلها پشتیبانی میکنند. در هر صورت، شرکتها در تلاشند تا راههای جدیدی برای کاهش الزامات سیستم برای هوش مصنوعی روی دستگاه پیدا کنند و حتی به گوشیهای رده پایین نیز اجازه دهند این ویژگی را ارائه دهند.
لینک منبع






نظر (0)