Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek znów przebija się

Firma DeepSeek przedstawia model DeepSeek-OCR, który wykorzystuje percepcję wizualną jako medium kompresji, umożliwiając przetwarzanie dużych dokumentów przy użyciu 20 razy mniejszej liczby tokenów niż w przypadku tradycyjnych metod.

ZNewsZNews23/10/2025

DeepSeek wprowadził na rynek nowy model sztucznej inteligencji, który potrafi przetwarzać dokumenty z użyciem od 7 do 20 razy mniejszej liczby tokenów niż tradycyjne metody. Zdjęcie: The Verge .

Według SCMP firma DeepSeek udostępniła nowy multimodalny model sztucznej inteligencji (AI) zdolny do przetwarzania dużych i złożonych dokumentów przy użyciu znacznie mniejszej liczby tokenów — od 7 do 20 razy mniejszej — niż w przypadku tradycyjnych metod przetwarzania tekstu.

Tokeny to najmniejsze jednostki tekstu przetwarzane przez sztuczną inteligencję. Zmniejszenie liczby tokenów oznacza oszczędność kosztów obliczeniowych i zwiększenie wydajności modelu sztucznej inteligencji.

Aby to osiągnąć, model DeepSeek-OCR (optycznego rozpoznawania znaków) wykorzystał percepcję wzrokową jako sposób kompresji informacji. To podejście pozwala dużym modelom językowym przetwarzać ogromne ilości tekstu bez proporcjonalnie rosnących kosztów obliczeniowych.

„Dzięki DeepSeek-OCR wykazaliśmy, że wykorzystanie percepcji wizualnej do kompresji informacji może doprowadzić do znaczącej redukcji liczby tokenów — od 7 do 20 razy na różnych etapach kontekstu historycznego — co wyznacza obiecujący kierunek rozwoju” — stwierdził DeepSeek.

Jak wynika z wpisu na blogu firmy, DeepSeek-OCR składa się z dwóch głównych komponentów: DeepEncodera i DeepSeek3B-MoE-A570M, który pełni funkcję dekodera.

W tym modelu DeepEncoder działa jako główne narzędzie, pomagając utrzymać niskie poziomy aktywacji przy danych wejściowych o wysokiej rozdzielczości, jednocześnie osiągając wysoki współczynnik kompresji w celu redukcji liczby tokenów.

Następnie dekoder jest modelem Mixture-of-Experts (MoE) z 570 milionami parametrów, którego zadaniem jest rekonstrukcja oryginalnego tekstu. Architektura MoE dzieli model na podsieci specjalizujące się w przetwarzaniu podzbioru danych wejściowych, optymalizując wydajność bez aktywowania całego modelu.

W OmniDocBench, benchmarku czytelności dokumentów, DeepSeek-OCR przewyższa główne modele OCR, takie jak GOT-OCR 2.0 i MinerU 2.0, przy jednoczesnym wykorzystaniu znacznie mniejszej liczby tokenów.

Źródło: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html


Komentarz (0)

Zostaw komentarz, aby podzielić się swoimi odczuciami!

W tej samej kategorii

Miejsce rozrywki bożonarodzeniowej wzbudza poruszenie wśród młodych ludzi w Ho Chi Minh City dzięki 7-metrowej sośnie
Co takiego dzieje się w 100-metrowej alejce, że wzbudza poruszenie w okresie Bożego Narodzenia?
Zachwycony wspaniałym weselem, które odbyło się przez 7 dni i nocy w Phu Quoc
Parada starożytnych kostiumów: Sto kwiatów radości

Od tego samego autora

Dziedzictwo

Postać

Biznes

Don Den – nowy „balkon nieba” Thai Nguyena przyciąga młodych łowców chmur

Aktualne wydarzenia

System polityczny

Lokalny

Produkt