طبق گزارش Android Authority ، مقاله تحقیقاتی اپل ، راهکاری برای اجرای مدلهای زبان بزرگ (LLM) روی دستگاههایی با رم محدود ارائه میدهد. این مقاله نشان میدهد که چگونه این شرکت میتواند «پارامترهای مدل» را ذخیره کرده و در صورت نیاز، به جای بارگذاری کل مدل در رم، بخشی از آنها را در رم دستگاه بارگذاری کند.
اپل به دنبال راههایی برای کمک به آیفونهای قدیمیتر با رم کمتر در اجرای هوش مصنوعی عمومی است.
این مقاله نشان میدهد که این روش امکان اجرای مدلهایی را فراهم میکند که به دو برابر رم مورد نیاز آیفون نیاز دارند، در حالی که همچنان سرعت استدلال را به ترتیب ۴-۵ برابر و ۲۰-۲۵ برابر سریعتر، در مقایسه با روشهای سادهتر بارگذاری روی CPU و GPU تضمین میکند.
پیادهسازی هوش مصنوعی مصنوعی در دستگاههایی با رم کافی، مزایای قابل توجهی را ارائه میدهد، زیرا سرعت خواندن/نوشتن سریعتری را فراهم میکند. سرعت برای هوش مصنوعی درون دستگاهی بسیار مهم است و زمان استنتاج بسیار سریعتری را فراهم میکند، زیرا کاربران لزوماً مجبور نیستند دهها ثانیه (یا بیشتر) برای پاسخ یا نتیجه نهایی منتظر بمانند. همه اینها به این معنی است که یک دستیار هوش مصنوعی درون دستگاهی قادر است با سرعت مکالمه اجرا شود، تصاویر/متن را بسیار سریعتر تولید کند، مقالات را سریعتر خلاصه کند و غیره. اما راهحل اپل به این معنی است که کاربران لزوماً برای افزایش سرعت پاسخگویی وظایف هوش مصنوعی درون دستگاهی به رم زیادی نیاز ندارند.
رویکرد اپل میتواند به آیفونهای قدیمیتر و جدیدتر اجازه دهد تا ویژگیهای هوش مصنوعی یکپارچه را مستقیماً روی دستگاههای خود ارائه دهند. این مهم است زیرا آیفونهای اپل معمولاً رم کمتری نسبت به گوشیهای اندرویدی رده بالا ارائه میدهند. به عنوان مثال، سری آیفون ۱۱ فقط ۴ گیگابایت رم ارائه میدهد، در حالی که حتی آیفون ۱۵ استاندارد فقط ۶ گیگابایت رم دارد.
اپل تنها شرکت موبایلی نیست که تلاش میکند LLMها را کوچک کند. تراشههای پرچمدار اخیر کوالکام و مدیاتک هر دو از دقت INT4 برای کوچک کردن این مدلها پشتیبانی میکنند. در هر صورت، شرکتها در تلاشند تا راهحلهای جدیدی برای به حداقل رساندن نیازهای سیستم برای هوش مصنوعی در دستگاهها پیدا کنند و حتی گوشیهای رده پایین را نیز قادر به ارائه این قابلیت سازند.
لینک منبع










