
GPU adalah otak dari komputer AI.
Sederhananya, unit pemrosesan grafis (GPU) bertindak sebagai otak dari komputer AI.
Seperti yang mungkin sudah Anda ketahui, unit pemrosesan pusat (CPU) adalah otak dari sebuah komputer. Keunggulan GPU terletak pada kenyataan bahwa ia merupakan CPU khusus untuk melakukan perhitungan kompleks. Cara tercepat untuk melakukan perhitungan ini adalah dengan menggunakan sekelompok GPU untuk menyelesaikan suatu masalah bersama-sama. Meskipun demikian, melatih model AI masih dapat memakan waktu berminggu-minggu atau bahkan berbulan-bulan. Setelah dibangun, model tersebut ditempatkan di sistem komputer front-end, dan pengguna dapat mengajukan pertanyaan kepada model AI; proses ini disebut inferensi.
Komputer AI berisi beberapa GPU.
Arsitektur terbaik untuk memecahkan masalah AI adalah dengan menggunakan sekelompok GPU dalam sebuah rak, yang terhubung ke switch di bagian atas rak. Beberapa rak GPU dapat dihubungkan lebih lanjut dalam sistem konektivitas jaringan hierarkis. Seiring dengan semakin kompleksnya masalah yang harus dipecahkan, kebutuhan GPU juga meningkat, dengan beberapa proyek berpotensi perlu menggunakan klaster yang terdiri dari ribuan GPU.
Setiap klaster AI merupakan jaringan kecil.
Saat membangun klaster AI, perlu untuk menyiapkan jaringan komputer kecil agar dapat menghubungkan dan memungkinkan GPU untuk bekerja sama dan berbagi data secara efisien.

Diagram di atas menggambarkan Klaster AI di mana lingkaran di bagian bawah mewakili alur kerja yang berjalan pada GPU. GPU terhubung ke switch di rak atas (ToR). Switch ToR ini juga terhubung ke switch tulang punggung jaringan yang ditunjukkan di atas dalam diagram, menunjukkan hierarki jaringan yang jelas yang diperlukan ketika beberapa GPU terlibat.
Jaringan merupakan hambatan dalam penerapan AI.
Musim gugur lalu, di KTT global Open Computer Project (OCP), di mana para delegasi membangun infrastruktur AI generasi berikutnya, delegasi Loi Nguyen dari Marvell Technology menyoroti masalah utama: "jaringan adalah hambatan baru."
Secara teknis, latensi paket yang tinggi atau kehilangan paket akibat kemacetan jaringan dapat menyebabkan paket dikirim ulang, sehingga secara signifikan meningkatkan waktu penyelesaian pekerjaan (JCT). Akibatnya, jutaan atau puluhan juta dolar nilai GPU milik perusahaan terbuang sia-sia karena sistem AI yang tidak efisien, merugikan bisnis baik dari segi pendapatan maupun waktu pemasaran.
Pengujian dan pengukuran merupakan kondisi penting untuk keberhasilan pengoperasian jaringan AI.
Untuk mengoperasikan klaster AI secara efisien, GPU perlu mampu memanfaatkan kapasitas penuhnya untuk mempersingkat waktu pelatihan dan mengimplementasikan model pembelajaran guna memaksimalkan pengembalian investasi. Oleh karena itu, pengujian dan evaluasi kinerja klaster AI sangat diperlukan (Gambar 2). Namun, tugas ini tidak mudah, karena arsitektur sistem melibatkan banyak pengaturan dan hubungan antara GPU dan struktur jaringan yang perlu saling melengkapi untuk menyelesaikan masalah.

Hal ini menimbulkan banyak kesulitan dan tantangan dalam mengukur jaringan AI:
- Tantangan dalam mereplikasi seluruh jaringan produksi di laboratorium disebabkan oleh keterbatasan biaya, peralatan, kekurangan insinyur jaringan AI yang sangat terampil, ruang, pasokan daya, dan suhu.
- Pengujian di tempat dalam sistem produksi mengurangi kapasitas pemrosesan yang tersedia dari sistem produksi itu sendiri.
- Kesulitan dalam mereproduksi masalah secara akurat karena perbedaan skala dan cakupan masalah.
- Kompleksitas cara GPU terhubung secara kolektif.
Untuk mengatasi tantangan ini, bisnis dapat melakukan benchmarking pada sebagian dari konfigurasi yang diusulkan di lingkungan laboratorium untuk mengukur parameter kunci seperti JCT (waktu penyelesaian pekerjaan), bandwidth yang dapat dicapai oleh tim AI, dan membandingkannya dengan penggunaan platform switching dan penggunaan caching. Benchmarking ini membantu menemukan keseimbangan yang tepat antara beban kerja GPU/pemrosesan dan desain/instalasi jaringan. Setelah puas dengan hasilnya, arsitek komputer dan insinyur jaringan dapat menerapkan konfigurasi ini ke lingkungan produksi dan mengukur hasil baru tersebut.
Laboratorium riset perusahaan, lembaga riset, dan universitas bekerja untuk menganalisis setiap aspek pembangunan dan pengoperasian jaringan AI yang efektif guna mengatasi tantangan dalam mengelola jaringan besar, terutama karena praktik terbaik terus berubah. Pendekatan kolaboratif yang dapat diulang ini adalah satu-satunya cara bagi bisnis untuk melakukan pengukuran yang dapat diulang dan pengujian skenario "jika-maka" yang cepat—yang mendasar untuk mengoptimalkan jaringan berbasis AI.
(Sumber: Keysight Technologies)
Sumber: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html










