DeepSeek si sta concentrando sulla ricerca e lo sviluppo di nuovi modelli, piuttosto che apparire frequentemente sui media. Foto: SCMP . |
In collaborazione con i ricercatori dell'Università di Tsinghua, DeepSeek ha introdotto un nuovo metodo per migliorare le capacità di inferenza dei modelli linguistici di grandi dimensioni (LLM). Il metodo, pubblicato in un articolo di ricerca la sera del 4 aprile, aiuta gli LLM a produrre risultati migliori e più rapidi per le query più comuni.
Questa tecnica combina due metodi di successo già utilizzati in DeepSeek. Il primo è la modellazione generativa delle ricompense (GRM), che consente al modello di intelligenza artificiale di autovalutarsi e perfezionare le proprie risposte in base ai risultati precedenti, e il secondo è la sintonizzazione della critica auto-principale.
Entrambi i metodi si basano sull'aspetto di "autoapprendimento" dell'IA, riducendo la dipendenza dal feedback o dalla guida umana diretta, ma con l'obiettivo di fornire risultati più vicini alle aspettative umane.
Secondo i ricercatori, nonostante sia un metodo nuovo, DeepSeek-GRM ottiene risultati eccezionali e compete con i modelli di intelligenza artificiale più noti ed efficaci attualmente disponibili. DeepSeek prevede di rendere open source i modelli GRM, ma non è stata fornita alcuna tempistica precisa.
Dopo aver riscosso un successo globale con la sua piattaforma modello V3 e il modello di inferenza R1, DeepSeek ha pubblicato questo articolo accademico sull'archivio scientifico online arXiv, suscitando curiosità sulle prossime mosse dell'azienda.
Reuters prevede che DeepSeek-R2, successore di R1, potrebbe essere lanciato ad aprile, vista la continua popolarità del suo predecessore. DeepSeek-R1 aveva già suscitato grande scalpore nel mondo della tecnologia grazie alle sue prestazioni superiori in rapporto al costo, risultando competitivo con i modelli leader di mercato.
DeepSeek non ha rilasciato dichiarazioni in merito alle voci. Tuttavia, secondo fonti locali, un account del servizio clienti di DeepSeek ha smentito l'informazione in una chat di gruppo con i clienti aziendali.
Fondata a Hangzhou nel 2023 dall'imprenditore Liang Wenfeng, DeepSeek ha rapidamente attirato l'attenzione globale negli ultimi mesi. Ma invece di capitalizzare sulla sua notorietà, l'azienda sta concentrando le proprie risorse sulla ricerca e lo sviluppo.
In precedenza, DeepSeek ha aggiornato il suo modello V3, rilasciando la versione DeepSeek-V3-0324. Secondo l'annuncio, questo aggiornamento presenta funzionalità di ragionamento migliorate, ottimizzazione per lo sviluppo dell'interfaccia utente web front-end e funzionalità di scrittura in cinese perfezionate.
A febbraio, la startup ha anche reso open source cinque repository di codice, riaffermando il suo impegno a "progredire con piena trasparenza". Sempre nello stesso mese, l'azienda ha annunciato uno studio tecnico sull'"attenzione sparsa nativa", che contribuisce a migliorare le prestazioni dei modelli lineari latenti (LLM) nella gestione di enormi quantità di dati.
DeepSeek è considerato un simbolo del dinamismo dell'industria cinese dell'intelligenza artificiale, in un momento in cui gli Stati Uniti stanno cercando di frenare lo sviluppo tecnologico del Paese.
Fonte: https://znews.vn/deepseek-gay-to-mo-post1543900.html










Commento (0)