Jaringan AI - 5 Hal yang Perlu Diketahui

[iklan_1]

GPU adalah otak komputer AI

Sederhananya, unit pemrosesan grafis (GPU) bertindak sebagai otak komputer AI.

Seperti yang Anda ketahui, unit pemrosesan pusat (CPU) adalah otak komputer. Keunggulan GPU adalah CPU-nya yang khusus dan mampu melakukan perhitungan kompleks. Cara tercepat untuk melakukannya adalah dengan meminta beberapa GPU menyelesaikan masalah yang sama. Namun, pelatihan model AI bisa memakan waktu berminggu-minggu atau bahkan berbulan-bulan. Setelah dibangun, model tersebut ditempatkan di sistem komputer front-end dan pengguna dapat mengajukan pertanyaan kepada model AI, sebuah proses yang disebut inferensi.

Komputer AI yang berisi beberapa GPU

Arsitektur terbaik untuk permasalahan AI adalah menggunakan kluster GPU dalam satu rak, yang terhubung ke sakelar di atas rak tersebut. Beberapa rak GPU dapat dihubungkan dalam hierarki jaringan. Seiring dengan semakin kompleksnya permasalahan, kebutuhan GPU pun meningkat, dan beberapa proyek mungkin perlu menerapkan kluster yang terdiri dari ribuan GPU.

Setiap klaster AI adalah jaringan kecil

Saat membangun klaster AI, perlu menyiapkan jaringan komputer kecil untuk menghubungkan dan memungkinkan GPU bekerja sama dan berbagi data secara efisien.

Gambar di atas mengilustrasikan Kluster AI dengan lingkaran di bagian bawah yang mewakili alur kerja yang berjalan pada GPU. GPU terhubung ke sakelar top-of-rack (ToR). Sakelar ToR juga terhubung ke sakelar backbone jaringan yang ditunjukkan di atas diagram, menunjukkan hierarki jaringan yang jelas yang diperlukan ketika melibatkan beberapa GPU.

Jaringan menjadi hambatan dalam penerapan AI
Musim gugur yang lalu, di KTT Global Open Computer Project (OCP), di mana para delegasi berupaya membangun infrastruktur AI generasi berikutnya, delegasi Loi Nguyen dari Marvell Technology menyampaikan poin penting: "jaringan adalah hambatan baru."

Secara teknis, latensi paket yang tinggi atau kehilangan paket akibat kemacetan jaringan dapat menyebabkan paket dikirim ulang, yang secara signifikan meningkatkan waktu penyelesaian pekerjaan (JCT). Akibatnya, jutaan atau puluhan juta dolar GPU terbuang sia-sia oleh bisnis akibat sistem AI yang tidak efisien, yang mengakibatkan kerugian bagi bisnis baik dari segi pendapatan maupun waktu pemasaran.

Pengukuran adalah syarat utama keberhasilan pengoperasian jaringan AI

Agar klaster AI dapat berjalan secara efektif, GPU harus dapat dimanfaatkan sepenuhnya untuk mempersingkat waktu pelatihan dan memaksimalkan pengembalian investasi. Oleh karena itu, pengujian dan evaluasi kinerja klaster AI diperlukan (Gambar 2). Namun, tugas ini tidaklah mudah, karena dalam hal arsitektur sistem, terdapat banyak pengaturan dan hubungan antara GPU dan struktur jaringan yang perlu saling melengkapi untuk menyelesaikan masalah.

Platform Pengujian Pusat Data AI dan Cara Menguji Kluster Pusat Data AI

Hal ini menciptakan banyak tantangan dalam mengukur jaringan AI:

- Kesulitan dalam mereproduksi seluruh jaringan produksi di laboratorium karena keterbatasan biaya, peralatan, kekurangan insinyur AI jaringan yang terampil, ruang, daya, dan suhu.

- Pengukuran pada sistem produksi mengurangi kapasitas pemrosesan yang tersedia pada sistem produksi itu sendiri.

- Kesulitan dalam mereproduksi masalah secara akurat karena perbedaan skala dan ruang lingkup masalah.

- Kompleksitas bagaimana GPU terhubung secara kolektif.

Untuk mengatasi tantangan ini, perusahaan dapat menguji sebagian dari pengaturan yang direkomendasikan di lingkungan lab untuk mengukur metrik utama seperti waktu penyelesaian pekerjaan (JCT), bandwidth yang dapat dicapai tim AI, dan membandingkannya dengan pemanfaatan platform switching dan pemanfaatan cache. Pembandingan ini membantu menemukan keseimbangan yang tepat antara beban kerja GPU/pemrosesan dan desain/pengaturan jaringan. Setelah puas dengan hasilnya, arsitek komputer dan teknisi jaringan dapat menerapkan pengaturan ini ke tahap produksi dan mengukur hasil baru.

Laboratorium riset perusahaan, institusi akademik, dan universitas tengah berupaya menganalisis setiap aspek dalam membangun dan mengoperasikan jaringan AI yang efektif untuk mengatasi tantangan dalam bekerja pada jaringan besar, terutama seiring dengan terus berkembangnya praktik terbaik. Pendekatan kolaboratif dan berulang ini merupakan satu-satunya cara bagi perusahaan untuk melakukan pengukuran berulang dan menguji skenario "bagaimana jika" dengan cepat, yang merupakan dasar pengoptimalan jaringan untuk AI.

(Sumber: Keysight Technologies)

[iklan_2]
Sumber: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html