DeepSeek membangunkan model yang boleh mengesahkan inferens matematik sendiri

DeepSeek - Ảnh 1. — DeepSeak telah membangunkan model AI yang bukan sahaja menulis kod tetapi juga menyemak dan membuktikan dirinya betul.

DeepSeekMath-V2 telah menetapkan rekod prestasi yang tidak pernah berlaku sebelum ini, mengatasi pencapaian manusia dalam pertandingan akademik yang ketat. Terutama, model itu memenangi pingat emas di International Mathematical Olympiad (IMO) 2025 dan terkejut dengan markah 118/120 pada peperiksaan Putnam, jauh melepasi rekod 90 markah tertinggi yang pernah dicapai oleh manusia.

Tetapi apa yang benar-benar menjadikan model ini pecah tanah bukanlah skor, tetapi ciri "pengesahan kendiri" DeepSeek.

Mekanisme pengesahan kendiri dan pembetulan ralat DeepSeek

Selama bertahun-tahun, model kecerdasan buatan (AI) dan model bahasa besar (LLM) menghadapi kelemahan yang serius apabila menyelesaikan masalah yang memerlukan logik mutlak seperti matematik, iaitu fenomena "penaakulan yang salah tetapi jawapan yang betul".

Iaitu, model mungkin secara rawak menghasilkan jawapan akhir yang betul, tetapi urutan langkah inferens, formula atau langkah logik yang membawa kepada keputusan itu mungkin salah, tidak lengkap atau halusinasi.

Dalam bidang sains , kejuruteraan dan matematik, jawapan yang betul dengan penyelesaian yang salah sama sekali tidak mempunyai nilai dan mengurangkan kebolehpercayaan sistem AI dengan ketara. DeepSeekMath-V2 dicipta untuk menamatkan era yang tidak boleh dipercayai ini.

Keupayaan pengesahan kendiri DeepSeekMath-V2 adalah teras kejayaannya. Ia bertindak sebagai "juruaudit dalaman" dalam proses pemikiran AI. Daripada hanya membuat satu inferens dan mengeluarkan jawapan, model DeepSeekMath-V2 menggabungkan mekanisme dua hala.

Yang pertama ialah peranan pembuktian, di mana model menjana rantaian awal hujah dan penyelesaian. Model kemudian secara automatik mencetuskan sistem penyemak dalaman, yang menyemak setiap langkah logik rantaian hujah yang baru dijana, mencari ralat, ketidakkonsistenan atau lonjakan yang tidak munasabah.

Proses ini sangat serupa dengan cara sistem penilaian IMO-ProofBench berfungsi, di mana satu AI menghasilkan hujah dan AI yang lain mengesahkannya. Dengan mengulangi semakan silang ini sehingga rantaian hujah disahkan benar-benar kukuh, DeepSeekMath-V2 memastikan bahawa bukan sahaja jawapan itu betul, tetapi laluan ke jawapan itu juga betul-betul betul dan telus.

Membuka Kunci Masa Depan AI yang Boleh Dipercayai

Implikasi kaedah inferens pengesahan sendiri ini boleh menetapkan standard ketelusan dan kebolehpercayaan baharu untuk aplikasi AI dunia sebenar.

Pada masa hadapan, model ini boleh digunakan dalam bidang penting lain seperti: AI bukan sahaja menulis kod tetapi juga menyemak sendiri dan membuktikan ketepatan, meminimumkan ralat yang serius.

Di samping itu, AI secara automatik boleh mengesahkan rantaian penaakulan yang kompleks apabila membangunkan hipotesis atau membuktikan teorem baharu, dengan itu memastikan rasional dan keselamatan keputusan penting yang dibuat oleh AI.

Keputusan DeepSeek untuk mengeluarkan kod sumber model secara terbuka pada platform seperti Hugging Face dan GitHub ialah langkah strategik, yang membolehkan komuniti penyelidikan global mengakses dan membina prinsip inferens yang boleh disahkan ini.

DeepSeekMath-V2 mewakili lonjakan kuantum ke hadapan, bukan sahaja menunjukkan keupayaan unggul AI untuk menyelesaikan masalah yang paling sukar, tetapi juga memastikan keupayaan ini dibina di atas asas kepercayaan dan logik yang tidak tergoyahkan. Ini adalah bukti bahawa generasi AI akan datang bukan sahaja lebih bijak, tetapi juga lebih jujur dan telus dalam proses pemikirannya.

Kembali ke topik

LAUT TIMUR

Sumber: https://tuoitre.vn/deepseek-phat-trien-mo-hinh-co-kha-nang-tu-kiem-chung-cac-suy-luan-trong-toan-hoc-2025113016585069.htm