Selon Android Authority , un document de recherche d' Apple détaille une solution pour exécuter des modèles de langage complexes (LLM) sur des appareils disposant d'une mémoire vive (RAM) limitée. Ce document explique comment l'entreprise peut stocker les « paramètres du modèle » et en charger une partie dans la RAM de l'appareil en cas de besoin, au lieu de charger l'intégralité du modèle.
Apple cherche des solutions pour permettre aux anciens iPhones dotés de moins de RAM d'exécuter de l'IA générale.
L'article suggère que cette méthode permet d'exécuter des modèles nécessitant deux fois plus de RAM qu'un iPhone ne peut en contenir, tout en garantissant des vitesses de raisonnement respectivement 4 à 5 fois plus rapides et 20 à 25 fois plus rapides que les méthodes plus simples de chargement sur le CPU et le GPU.
L'intégration de l'IA synthétique sur des appareils dotés d'une mémoire vive importante offre des avantages considérables, notamment des vitesses de lecture/écriture accrues. La rapidité est cruciale pour l'IA embarquée, car elle permet des temps d'inférence bien plus courts : les utilisateurs n'ont plus à attendre des dizaines de secondes (voire plus) pour obtenir une réponse ou un résultat. Ainsi, un assistant IA embarqué est capable de fonctionner à la vitesse d'une conversation, de générer des images et du texte beaucoup plus rapidement, de résumer des articles plus vite, etc. La solution d'Apple permet aux utilisateurs de bénéficier d'une réactivité accrue pour les tâches d'IA embarquée sans avoir besoin d'une grande quantité de mémoire vive.
L'approche d'Apple pourrait permettre aux iPhone, anciens comme récents, de proposer des fonctionnalités d'IA intégrées directement sur leurs appareils. C'est important car les iPhone d'Apple offrent généralement moins de mémoire vive que les smartphones Android haut de gamme. Par exemple, la gamme iPhone 11 ne propose que 4 Go de RAM, tandis que même l'iPhone 15 standard n'en possède que 6 Go.
Apple n'est pas la seule entreprise du secteur mobile à tenter de miniaturiser les LLM. Les puces haut de gamme récentes de Qualcomm et MediaTek prennent toutes deux en charge la précision INT4, ce qui permet de réduire la taille de ces modèles. Quoi qu'il en soit, les entreprises cherchent de nouvelles solutions pour minimiser les exigences système de l'IA sur les appareils, afin que même les téléphones d'entrée de gamme puissent offrir cette fonctionnalité.
Lien source








