As empresas do continente cortaram custos ao construir modelos treinados em quantidades menores de dados, exigindo menos poder de computação, mas hardware otimizado, disse Lee Kai-Fu, fundador da 01.ai e ex-chefe do Google China.

De acordo com o ranking divulgado recentemente pela UC Berkeley SkyLab e LMSYS, o modelo Yi-Lingtning da startup 01.ai ficou em terceiro lugar, empatado com o Grok-2 da x.AI, atrás da OpenAI e do Google. Este ranking é baseado nas pontuações dos usuários para as respostas às consultas.

2d82e5b153faa85bf01e3f82affa4e298ec4f24e.avif.jpg
Reduzir o custo das operações de IA é uma forma da China competir com os EUA. Foto: FT

01.ai e DeepSeek são empresas de IA do continente que estão adotando uma estratégia de foco em conjuntos de dados menores para treinar modelos, ao mesmo tempo em que contratam mão de obra barata e altamente qualificada.

O Financial Times afirmou que o custo de inferência do Yi-Lightning é de 14 centavos por milhão de tokens, em comparação com 26 centavos do GPT o1-mini da OpenAI. Já o GPT 4o custa até US$ 4,40 por milhão de tokens. O número de tokens usados ​​para gerar uma resposta depende da complexidade de cada consulta.

Os fundadores da Yi-Lightning revelaram que a empresa gastou US$ 3 milhões em "treinamento inicial", antes de realizar ajustes finos para diferentes casos de uso. Lee disse que o objetivo deles "não era criar o melhor modelo", mas sim construir um modelo concorrente que fosse "5 a 10 vezes mais barato".

O método aplicado por 01.ai, DeepSeek, MiniMax e Stepfun é chamado de “modelagem especializada” – o que significa simplesmente combinar múltiplas redes neurais treinadas em conjuntos de dados específicos de domínio.

Pesquisadores veem essa abordagem como uma forma fundamental de atingir o mesmo nível de inteligência dos modelos de big data, mas com menor poder computacional. No entanto, a dificuldade dessa abordagem é que os engenheiros precisam orquestrar o processo de treinamento com "vários especialistas" em vez de apenas um modelo geral.

Devido às dificuldades de acesso a chips de IA de ponta, as empresas chinesas passaram a desenvolver conjuntos de dados de alta qualidade, que podem ser usados ​​para treinar modelos especializados, competindo assim com rivais ocidentais.

Lee disse que o 01.ai tem maneiras não tradicionais de coletar dados, como escanear livros ou coletar artigos no aplicativo de mensagens WeChat, que não são acessíveis no site aberto.

O fundador acredita que a China está melhor posicionada que os EUA, com seu enorme conjunto de talentos técnicos baratos.

(De acordo com o FT, Bloomberg)

Meta lança modelo de IA de 'autoaprendizagem' A gigante de mídia social Meta acaba de anunciar um novo modelo de IA com recurso de avaliação de autoaprendizagem (STE), que pode restringir a intervenção humana no processo de desenvolvimento de IA.