O modelo de IA (inteligência artificial) s1, criado por pesquisadores americanos, tem um custo operacional de apenas 50 dólares, mas oferece capacidades de raciocínio equivalentes ao modelo o1 da OpenAI, que custa muito mais. O surgimento do s1 ocorre após o sucesso impressionante do DeepSeek, que causou comoção no Vale do Silício nos últimos dias.
A guerra da 'IA barata' está esquentando desde o surgimento do DeepSeek
A equipe disponibilizou o código-fonte do s1 no GitHub, juntamente com o código e os dados usados para construir o modelo. Um artigo publicado na semana passada explica o processo de desenvolvimento do modelo, destacando as técnicas inteligentes utilizadas. Em vez de começar do zero com um novo modelo de raciocínio, a equipe utilizou um modelo de linguagem existente e realizou um processo de "ajuste fino", destilando os recursos de raciocínio do modelo experimental Gemini 2.0 Flash Thinking do Google.
Custos operacionais de IA pouco abaixo de US$ 50
O treinamento do modelo s1 levou apenas 30 minutos, utilizando 16 GPUs Nvidia H100. Embora cada GPU custe cerca de US$ 25.000, o custo do aluguel do processo ficou abaixo de US$ 50 graças aos serviços de computação em nuvem. Em particular, a equipe descobriu um truque útil: instruir o modelo a "esperar" antes de dar uma resposta final, o que aprimorou seu raciocínio e resultou em soluções mais eficazes.
Embora o s1 tenha obtido ganhos significativos a um baixo custo, há preocupações quanto à sua escalabilidade. Usar o modelo do Google como "professor" levanta questões sobre sua capacidade de competir com os principais modelos de IA da atualidade. O Google provavelmente acompanhará de perto a situação, especialmente devido ao litígio em andamento entre a OpenAI e a DeepSeek.
[anúncio_2]
Fonte: https://thanhnien.vn/my-tao-ra-mo-hinh-ai-sieu-re-hoat-dong-tuong-tu-gpt-o1-185250207182535164.htm
Comentário (0)