DeepSeek znów przebija się

DeepSeek wprowadził na rynek nowy model sztucznej inteligencji, który potrafi przetwarzać dokumenty z użyciem od 7 do 20 razy mniejszej liczby tokenów niż tradycyjne metody. Zdjęcie: The Verge .

Według SCMP firma DeepSeek udostępniła nowy multimodalny model sztucznej inteligencji (AI) zdolny do przetwarzania dużych i złożonych dokumentów przy użyciu znacznie mniejszej liczby tokenów — od 7 do 20 razy mniejszej — niż w przypadku tradycyjnych metod przetwarzania tekstu.

Tokeny to najmniejsze jednostki tekstu przetwarzane przez sztuczną inteligencję. Zmniejszenie liczby tokenów oznacza oszczędność kosztów obliczeniowych i zwiększenie wydajności modelu sztucznej inteligencji.

Aby to osiągnąć, model DeepSeek-OCR (optycznego rozpoznawania znaków) wykorzystał percepcję wzrokową jako sposób kompresji informacji. To podejście pozwala dużym modelom językowym przetwarzać ogromne ilości tekstu bez proporcjonalnie rosnących kosztów obliczeniowych.

„Dzięki DeepSeek-OCR wykazaliśmy, że wykorzystanie percepcji wizualnej do kompresji informacji może doprowadzić do znaczącej redukcji liczby tokenów — od 7 do 20 razy na różnych etapach kontekstu historycznego — co wyznacza obiecujący kierunek rozwoju” — stwierdził DeepSeek.

Jak wynika z wpisu na blogu firmy, DeepSeek-OCR składa się z dwóch głównych komponentów: DeepEncodera i DeepSeek3B-MoE-A570M, który pełni funkcję dekodera.

W tym modelu DeepEncoder działa jako główne narzędzie, pomagając utrzymać niskie poziomy aktywacji przy danych wejściowych o wysokiej rozdzielczości, jednocześnie osiągając wysoki współczynnik kompresji w celu redukcji liczby tokenów.

Następnie dekoder jest modelem Mixture-of-Experts (MoE) z 570 milionami parametrów, którego zadaniem jest rekonstrukcja oryginalnego tekstu. Architektura MoE dzieli model na podsieci specjalizujące się w przetwarzaniu podzbioru danych wejściowych, optymalizując wydajność bez aktywowania całego modelu.

W OmniDocBench, benchmarku czytelności dokumentów, DeepSeek-OCR przewyższa główne modele OCR, takie jak GOT-OCR 2.0 i MinerU 2.0, przy jednoczesnym wykorzystaniu znacznie mniejszej liczby tokenów.

Źródło: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html

Komentarz (0)

Najbardziej popularne

Najnowsze

Zostaw komentarz, aby podzielić się swoimi odczuciami!