GPU datacenter umur 1-3 tahun karena satu server mengoreng 700W

   Stuff | 25 October 2024

GPU Datacenter usia pakai hanya 3 tahun

Menurut kabar dari spesialis Alphabet, GPU di datacenter mungkin hanya bertahan satu hingga tiga tahun.
Walau itu terkait dengan tingkat pemanfaatannya.

GPU melakukan pekerjaan berat untuk ML dan inferensi AI, komponen-komponen tersebut berada di beban yang cukup besar dan mengalami penurunan kinerja lebih cepat daripada komponen lainnya.

Tingkat GPU untuk beban kerja AI di datacenter layanan cloud (CSP) memiliki beban antara 60% dan 70%.
Tingkat pemanfaatan memang seperti itu.

GPU biasanya bertahan antara satu hingga dua tahun, paling lama tiga tahun, menurut kutipan yang diduga dari arsitek AI generatif Alphabet.
Informasi ini cukup menarik, walau apakah benar usia pakai GPU tidak lewat dari 3 tahun. Artinya dalam 2 tahun kedepan, akan banyak lagi pesanan GPU untuk Nvidia.

Sumber ini memang belum dapat di verifikasi, hanya disebut desain GenAI di perusahaan Alphabet.
Jadi jangan 100% mempercayai, karena cukup ekstrem bila sebuah GPU seharga diatas 100 juta rata rata bekerja 2 tahunan.


Walau kemungkinan tersebut dapat dibenarkan, dimana pusat data center untuk Ai dan HPC... maaf saja membutuhkan 700W per rack server.
Yang kita bayangkan bagaimana kekuatan power 700W tersebut terus bekerja di dalam sebuah server berukuran kecil.
Kemana energi panas yang harus dibuang, sampai arus yang melewati bagian / komponen.

Untuk memperpanjang usia pakai, pengelola dapat menurunkan intensitas pemakaian.
GPU dapat bertahan lebih lama, setidaknya kerusakan lebih lambat.
Kata lambat artinya proses juga lambat, disini kebalikan sebagai pengelola juga mendapatkan pengembalian model lebih lama.

Tentu bisnis seperti itu bukan yang dicari.

Untuk itu sistem datacenter dibuat dengan beban lebih tinggi dengan memanfaatkan sumber daya sebaik mungkin dan pengembalian modal lebih cepat.

Awal 2024, Meta merilis studi sistem machine learning Llama 3 405B.
Mengunakan 16 ribu lebih GPU Nvidia H100 80GB.
Tingkat kegagalan unit MFU di cluster sekitar 38%, gangguan tidak terduga sebanyak 419 kali selama 54 hari.
148 kali terjadi gangguan (30% selama proses pengujian) disebabkan GPU. Seperti sistem NVLink yang bermasalah.
17,2% disebabkan beban tinggi dan kerusakan di memory HBM3.

Diatas kertas, GPU H100 yang dimiliki perusahaan Meta.
Bila GPU dan RAM HBM3 terjadi gangguan atau rusak. Tingkat kegagalan pertahun sekitar 9%. Bila ditotal untuk kinerja 3 tahun mencapai 27%.
Walau ada kemungkinan GPU lebih cepat rusak di awal pemakaian, dan bertahap bekerja lebih stabil.
Jadi kelihatan pemanfaatkan intensif GPU di datacenter sangat rentan rusak.

Hasil Meta tampaknya cukup menguntungkan untuk GPU H100.
Jika GPU dan memorinya terus gagal pada tingkat Meta, maka tingkat kegagalan tahunan prosesor ini akan menjadi sekitar 9%, sedangkan tingkat kegagalan tahunan untuk GPU ini dalam tiga tahun akan menjadi sekitar 27%, meskipun ada kemungkinan bahwa GPU lebih sering gagal setelah satu tahun beroperasi.

Artikel Lain

Desain memory RAM CAMM2 menghilangkan kerumitan desain computer. Tidak lagi dipasang berdiri, tapi seperti di tanam pada board. Notebook, computer desktop sampai server computer dapat memanfaatkan teknologi memory CAMM2.

Kebutuhan produksi chip tipe CoWos adalah chip dengan sistem tumpuk, dan lebih rumit dibanding produksi chiplet. Kapasitas GPU yang ditingkatkan untuk menanam sistem tumpuk, sampai memory ada di dalam chip. AMD dan Nvidia kabar mencadangkan pengemasan chip CoWoS dalam 2 tahun mendatang.

Layanan streaming kebanjiran musik yang dibuat AI. Tidak sampai disana, beberapa bot digunakan untuk meningkatkan pendengar. Pembuat lagu mendapat bayaran dari jumlah lagu yang diputar. Tapi menjadi masalah, bagaimana dengan artis asli, dan bagaimana musik begitu mudah dibuat.

Supercomputer kehilangan data sebesar 77 TB, karena update. Pengoperasiqn supercomputer tidak murah, membutuhkan biaya listrik sangat besar untuk proses berbagai data penelitian. Tidak diketahui penyebab hilangnya data dari 4 kelompok peneliti tersebut

Pertama kali manusia membuat roket pada tahun 1926. Hampir satu abad tidak berubah. Masih mengunakan bahan bakar padat atau cair. Biaya pengiriman ke ruang angkasa membutuhan biaya 10.000 dollar / kg. Beberapa konsep dan disain mulai muncul. Walau biayanya masih sangat mahal

Satu gedung misterius di Inggris dimiliki sebuah JISC dimana membantu menghubungkan institusi pendidikan. Spencer menunjukan di dalam data center, umumnya hanya petugas saja yang boleh masuk. Ruang computer atau pusat data center disana hanya menangani computer untuk perguruan tinggi dari data biasa sampai penelitian medis



Youtube Obengplus


Trend