De acordo com o Android Authority , o artigo de pesquisa da Apple detalha uma solução para executar modelos de linguagem de grande porte (LLMs) em dispositivos com RAM limitada. O artigo revela como a empresa pode armazenar "parâmetros de modelo" e carregar uma parte deles na RAM do dispositivo quando necessário, em vez de carregar o modelo inteiro na RAM.
A Apple está tentando ajudar iPhones mais antigos com menos RAM a executar IA geral
O artigo afirma que esse método permite executar modelos que exigem o dobro de RAM que um iPhone pode ter, ao mesmo tempo em que garante velocidades de inferência de 4 a 5x e 20 a 25x em comparação com métodos de carregamento simples na CPU e GPU, respectivamente.
Implementar IA sintética em um dispositivo com mais RAM seria um grande benefício, pois permitiria velocidades de leitura/gravação mais rápidas. A velocidade é importante para a IA no dispositivo, permitindo tempos de inferência muito mais rápidos, já que os usuários não precisam necessariamente esperar dezenas de segundos (ou mais) por uma resposta ou resultado final. Tudo isso significa que um assistente de IA no dispositivo poderia potencialmente rodar em velocidades de conversação, gerar imagens/texto muito mais rápido, resumir artigos mais rapidamente, etc. Mas a solução da Apple significa que os usuários não precisam necessariamente de muita RAM para acelerar a capacidade de resposta da IA no dispositivo às tarefas.
A abordagem da Apple pode permitir que iPhones antigos e novos ofereçam recursos de IA sintética diretamente no dispositivo. Isso é importante porque os iPhones da Apple geralmente oferecem menos RAM do que os celulares Android de última geração. A série iPhone 11, por exemplo, oferece apenas 4 GB de RAM, enquanto até mesmo o iPhone 15 de entrada tem apenas 6 GB.
A Apple não é a única empresa de telefonia móvel trabalhando na redução do LLM. Os chips topo de linha mais recentes da Qualcomm e da MediaTek suportam precisão INT4 para reduzir o tamanho desses modelos. De qualquer forma, as empresas estão buscando novas maneiras de reduzir os requisitos de sistema para IA no dispositivo, permitindo que até mesmo celulares de baixo custo ofereçam o recurso.
Link da fonte
Comentário (0)