Brudny sekret obliczeń o wysokiej wydajności

Brudny sekret obliczeń o wysokiej wydajności

W ciągu dziesięcioleci, odkąd Seymour Cray opracował pierwszy na świecie superkomputer CDC 6600 (otwiera się w nowej karcie), w społeczności komputerów o wysokiej wydajności (HPC) toczył się wyścig zbrojeń. Cel: poprawa wydajności za wszelką cenę, za wszelką cenę.

Napędzana postępami w zakresie obliczeń, pamięci masowej, sieci i oprogramowania, wydajność wiodących systemów wzrosła biliony razy od czasu wprowadzenia CDC 6600 w 1964 roku, od milionów operacji zmiennoprzecinkowych na sekundę (megaFLOPS) do kwintylionów (exaFLOPS).

Obecny posiadacz korony, kolosalny amerykański superkomputer o nazwie Frontier, jest w stanie wykonać 1102 exaFLOPS zgodnie z benchmarkiem High Performance Linpack (HPL). Uważa się jednak, że jeszcze potężniejsze maszyny działają gdzie indziej, za zamkniętymi drzwiami.

Oczekuje się, że pojawienie się tak zwanych superkomputerów eksaskalowych przyniesie korzyści praktycznie każdej branży – od nauki po bezpieczeństwo cybernetyczne, od opieki zdrowotnej po finanse – i utoruje drogę potężnym nowym modelom sztucznej inteligencji, których opracowanie w innym przypadku zajęłoby lata.

CDC 6600

CDC 6600, powszechnie uważany za pierwszy superkomputer na świecie. (Źródło zdjęcia: Muzeum Historii Komputerów)

Jednak zwiększenie prędkości tej wielkości wiąże się z kosztem: zużyciem energii. Przy pełnej prędkości Frontier zużywa do 40 MW (otwiera się w nowej karcie) energii, mniej więcej tyle samo, co 40 milionów komputerów stacjonarnych.

W superkomputerach zawsze chodziło o przesuwanie granic tego, co jest możliwe. Ale ponieważ potrzeba minimalizacji emisji staje się coraz bardziej oczywista, a ceny energii nadal rosną, branża HPC będzie musiała ponownie ocenić, czy nadal warto przestrzegać swojej pierwotnej zasady przewodniej.

wydajność vs. Efektywność

Jedną z organizacji działających na czele tego problemu jest Uniwersytet Cambridge, który we współpracy z Dell Technologies opracował kilka najnowocześniejszych, energooszczędnych superkomputerów.

Na przykład Wilkes3 (otwiera się w nowej karcie) zajmuje tylko 100. miejsce w ogólnych wykresach wydajności (otwiera się w nowej karcie), ale zajmuje trzecie miejsce w Green500 (otwiera się w nowej karcie), klasyfikacji systemów HPC opartej na wydajności na wat zużyta energia.

W rozmowie z TechRadar Pro dr Paul Calleja, dyrektor Research Computing Services na Uniwersytecie w Cambridge, wyjaśnił, że instytucja jest znacznie bardziej zainteresowana budowaniem wysoce produktywnych i wydajnych maszyn niż ekstremalnie potężnymi maszynami.

„Nie interesują nas duże systemy, ponieważ są to bardzo specyficzne rozwiązania punktowe. Ale technologie stosowane w pomieszczeniach mają znacznie szersze zastosowanie i pozwolą systemom działać o rząd wielkości wolniej, znacznie taniej i wydajniej energetycznie” – mówi dr Calleja.

„W ten sposób demokratyzuje dostęp do IT dla znacznie większej liczby osób. Jesteśmy zainteresowani wykorzystaniem technologii zaprojektowanych dla tych wspaniałych starych systemów do tworzenia znacznie trwalszych superkomputerów dla szerszego grona odbiorców.

University of Cambridge

Superkomputer Wilkes3 może nie jest najszybszy na świecie, ale należy do najbardziej energooszczędnych. (Źródło zdjęcia: Uniwersytet Cambridge)

W nadchodzących latach dr Calleja przewiduje również coraz bardziej zaciekłe dążenie do efektywności energetycznej w branży HPC i ogólnie w społeczności centrów danych, gdzie zużycie energii stanowi ponad 90% kosztów.

Ostatnie zmiany cen energii związane z wojną na Ukrainie również spowodowały, że superkomputery staną się znacznie droższe, zwłaszcza w kontekście obliczeń eksaskalowych, co dodatkowo ilustruje znaczenie wydajności na wat.

W kontekście Wilkes3 uniwersytet odkrył, że istnieje szereg optymalizacji, które pomogły poprawić poziom wydajności. Na przykład, obniżając częstotliwość taktowania, z jaką działały niektóre komponenty, w zależności od obciążenia, zespół był w stanie osiągnąć redukcję zużycia energii rzędu 20-30%.

„W ramach konkretnej rodziny architektonicznej szybkość zegara ma liniowy związek z wydajnością, ale kwadratowy związek ze zużyciem energii. To jest morderca – wyjaśnił dr Calleja.

„Zmniejszenie częstotliwości zegara zmniejsza zużycie energii w znacznie szybszym tempie niż wydajność, ale także wydłuża czas potrzebny na wykonanie zadania. Powinniśmy więc patrzeć nie na zużycie energii podczas biegu, ale na energię zużytą podczas pracy. Jest idealne miejsce.

Oprogramowanie jest królem

Oprócz dostrajania konfiguracji sprzętowych pod kątem określonych obciążeń, istnieje również szereg optymalizacji, które należy wykonać w innym miejscu, w kontekście pamięci masowej i sieci oraz w powiązanych dyscyplinach, takich jak chłodzenie i projektowanie szaf.

Jednak zapytany, gdzie konkretnie chciałby zobaczyć zasoby przeznaczone na dążenie do poprawy efektywności energetycznej, dr Calleja wyjaśnił, że należy przede wszystkim skupić się na oprogramowaniu.

„Sprzęt nie jest problemem, chodzi o wydajność aplikacji. To będzie główne wąskie gardło w dalszym rozwoju” – powiedział. „Dzisiejsze systemy eksaskalowe są oparte na architekturze GPU, a liczba aplikacji, które mogą wydajnie działać w dużej skali na systemach GPU, jest niewielka”.

„Aby naprawdę wykorzystać dzisiejszą technologię, musimy skupić się na rozwoju aplikacji. Cykl życia rozwoju obejmuje dziesięciolecia; oprogramowanie używane dzisiaj zostało opracowane 20 lub 30 lat temu i jest to trudne, gdy masz kod, który jest tak długi, że trzeba go przeprojektować.

Problem polega jednak na tym, że branża HPC nie ma w zwyczaju najpierw myśleć o oprogramowaniu. W przeszłości dużo więcej uwagi poświęcano sprzętowi, ponieważ, jak powiedział dr Calleja: „To proste; właśnie kupiłeś szybszy chip. Nie musisz myśleć mądrze”.

„Kiedy obowiązywało prawo Moore'a, zgodnie z którym wydajność procesora podwajała się co osiemnaście miesięcy, nie trzeba było nic robić, aby zwiększyć wydajność. Ale ta epoka się skończyła. Teraz, jeśli chcemy zrobić postęp, musimy cofnąć się i zmienić narzędzia oprogramowanie. »

Procesor ze stykami skierowanymi do góry spoczywa na płycie głównej komputera. chip jest podświetlony niebieskim światłem

Ponieważ prawo Moore'a zaczyna słabnąć, postęp w architekturze procesora nie może być dłużej traktowany jako źródło poprawy wydajności. (Źródło zdjęcia: Alexander_Safonov/Shutterstock)

Dr Calleja zarezerwował w tym względzie pewne pochwały dla firmy Intel. Ponieważ przestrzeń sprzętowa serwera staje się bardziej zróżnicowana z punktu widzenia dostawcy (pod wieloma względami pozytywny rozwój), kompatybilność aplikacji może stać się problemem, ale Intel pracuje nad rozwiązaniem.

„Jednym z wyróżników Intela jest to, że inwestuje on znaczne środki w ekosystem oneAPI, aby rozwijać przenośność kodu między różnymi typami krzemu. To właśnie tego typu łańcuchy narzędzi są nam potrzebne, aby umożliwić aplikacjom jutra wykorzystanie zalet powstającego krzemu” — mówi.

Osobno dr Calleja wezwał do większego skupienia się na „naukowej konieczności”. Zbyt często coś idzie nie tak w tłumaczeniu, powodując niedopasowanie architektury sprzętu i oprogramowania do rzeczywistych potrzeb użytkownika końcowego.

Według niego bardziej stanowcze podejście do współpracy międzybranżowej stworzyłoby „koło korzyści” użytkowników, usługodawców i dostawców, przynosząc korzyści zarówno w zakresie wydajności, jak i efektywności.

Przyszłość na skalę zetta

Zwykle, gdy symboliczny punkt orientacyjny eksaskali spada, uwaga skupi się teraz na następnym: skali zetta.

„Zettascale to tylko kolejna flaga w ziemi”, powiedział dr Calleja, „totem, który podkreśla technologie potrzebne do osiągnięcia kolejnego etapu rozwoju komputerów, którego nie można dziś osiągnąć”.

„Najszybsze systemy na świecie są niezwykle drogie jak na to, co się z nich uzyskuje, jeśli chodzi o wyniki naukowe. Ale są ważne, ponieważ pokazują sztukę tego, co możliwe i posuwają branżę do przodu.

University of Cambridge

Pembroke College, University of Cambridge, siedziba Open Zettascale Lab.(Źródło zdjęcia: University of Cambridge)

To, czy systemy zdolne do osiągnięcia wydajności zettaFLOPS, tysiąc razy wydajniejsze niż obecna uprawa, mogą zostać opracowane w sposób zgodny z celami zrównoważonego rozwoju, będzie zależeć od pomysłowości branży.

Nie ma binarnego związku między wydajnością a sprawnością energetyczną, ale uzyskanie niezbędnego wzrostu wydajności w odpowiedniej obwiedni mocy będzie wymagało sporej ilości umiejętności w każdej poddyscyplinie.

Teoretycznie istnieje złoty stosunek między wydajnością a zużyciem energii, więc korzyści dla społeczeństwa generowane przez HPC można uznać za warte kosztów emisji dwutlenku węgla.

Dokładna liczba oczywiście pozostanie nieuchwytna w praktyce, ale realizacja tego pomysłu jest z definicji krokiem we właściwym kierunku.