Il supercomputer Frontier alimentato da AMD incontra difficoltà, Can't Operate a Day without Issues
[ad_1]
Quando AMD ha annunciato che l'azienda avrebbe consegnato il supercomputer più veloce del mondo, Frontier, l'azienda ha anche svolto un compito enorme per fornire una macchina in grado di produrre un ExaFLOP di capacità totale e sostenuta per eseguire attività di elaborazione. Mentre il sistema è finalmente attivo e funzionante, far funzionare correttamente una macchina di quelle dimensioni è una sfida. Nel mondo del calcolo ad alte prestazioni, ottenere l'hardware è solo una parte della gestione del centro HPC. In un'intervista con All'interno di HPC, Justin Whitt, direttore del programma per l'Oak Ridge Leadership Computing Facility (OLCF), ha fornito informazioni su cosa vuol dire far funzionare il supercomputer più veloce del mondo e quali tipi di problemi sta affrontando.
The Frontier system is powered by AMD EPYC 7A53s "Trento" 64-nucleo 2.0 GHz CPUs and Instinct MI250X GPUs. Interconnecting everything is the HPE (Cray) Slingshot 64-port switch, which is responsible for sending data in and out of compute blades. The recent interview points out a rather interesting finding: exactly AMD Instinct MI250X GPUs and Slingshot interconnect cause hardware troubles for the Frontier. "It’s mostly issues of scale coupled with the breadth of applications, so the issues we’re encountering mostly relate to running very, very large jobs using the entire system … and getting all the hardware to work in concert to do that," says Justin Whitt. In addition to the limits of scale "The issues span lots of different categories, the GPUs are just one. A lot of challenges are focused around those, but that’s not the majority of the challenges that we’re seeing," ha detto. "It’s a pretty good spread among common culprits of parts failures that have been a big part of it. I don’t think that at this point that we have a lot of concern over the AMD products. We’re dealing with a lot of the early-life kind of things we’ve seen with other machines that we’ve deployed, so it’s nothing too out of the ordinary."
[ad_2]