A DeepSeek está focando em pesquisa e desenvolvimento de novos modelos, em vez de aparecer frequentemente na mídia. Foto: SCMP . |
Em colaboração com pesquisadores da Universidade de Tsinghua, a DeepSeek apresentou um novo método para aprimorar as capacidades de inferência de grandes modelos de linguagem (LLMs). O método, publicado em um artigo científico na noite de 4 de abril, ajuda os LLMs a produzirem resultados melhores e mais rápidos para consultas comuns.
Essa técnica combina dois métodos previamente bem-sucedidos do DeepSeek. Um deles é a modelagem generativa de recompensa (GRM), que permite ao modelo de IA autoavaliar e refinar suas respostas com base em resultados anteriores, e o outro é o ajuste de autocrítica baseado em princípios.
Ambos os métodos se baseiam no aspecto de "autoaprendizagem" da IA, reduzindo a dependência de feedback ou orientação humana direta, mas com o objetivo de fornecer resultados mais próximos das expectativas humanas.
Segundo os pesquisadores, apesar de ser um método novo, o DeepSeek-GRM alcança resultados excelentes e compete com os modelos de IA mais conhecidos e eficazes disponíveis atualmente. A DeepSeek planeja disponibilizar os modelos GRM em código aberto, mas nenhum prazo específico foi divulgado.
Após causar impacto global com seu modelo de plataforma V3 e modelo de inferência R1, a DeepSeek publicou este artigo acadêmico no arquivo científico online arXiv, despertando curiosidade sobre os próximos passos da empresa.
A Reuters prevê que o DeepSeek-R2, sucessor do R1, poderá ser lançado em abril, dada a contínua popularidade do seu antecessor. O DeepSeek-R1 causou sensação global no mundo da tecnologia graças ao seu desempenho superior em relação ao custo, tornando-o competitivo com os principais modelos atuais.
A DeepSeek manteve-se em silêncio sobre os rumores. No entanto, de acordo com fontes locais, uma conta do serviço de atendimento ao cliente da DeepSeek negou a informação em um chat em grupo com clientes corporativos.
Fundada em Hangzhou em 2023 pelo empreendedor Liang Wenfeng, a DeepSeek rapidamente ganhou atenção global nos últimos meses. Mas, em vez de capitalizar sobre sua fama, a empresa está concentrando seus recursos em pesquisa e desenvolvimento.
Anteriormente, a DeepSeek atualizou seu modelo V3, lançando a versão DeepSeek-V3-0324. De acordo com o anúncio, esta atualização apresenta capacidades de raciocínio aprimoradas, otimização para o desenvolvimento de interfaces de usuário web front-end e habilidades de escrita em chinês melhoradas.
Em fevereiro, a startup também disponibilizou cinco repositórios de código aberto, reafirmando seu compromisso com o "progresso com total transparência". Ainda naquele mês, a empresa anunciou um estudo técnico sobre "atenção esparsa nativa", que ajuda a melhorar o desempenho dos LLMs no processamento de grandes volumes de dados.
O DeepSeek é visto como um símbolo do dinamismo da indústria de IA da China, em um momento em que os EUA tentam conter o desenvolvimento tecnológico do país.
Fonte: https://znews.vn/deepseek-gay-to-mo-post1543900.html






Comentário (0)