Wraz z rosnącym zapotrzebowaniem na sztuczną inteligencję (AI) i poprawą gęstości mocy, centra danych stoją przed niespotykanymi dotąd wyzwaniami w zakresie zarządzania temperaturą. Aby zoptymalizować wydajność i wydajność, jednocześnie zapobiegając przegrzaniu, wymagane jest dokładne monitorowanie temperatury w czasie rzeczywistym. Te rozwiązania w zakresie wykrywania muszą być dokładne, responsywne, solidne i zdolne do radzenia sobie z szybko zmieniającymi się obciążeniami termicznymi w urządzeniach o wysokiej czułości.
W tym artykule omówione zostaną wyzwania związane z zarządzaniem ciepłem, przed którymi stoją współcześni projektanci centrów danych wykorzystujących sztuczną inteligencję, a także przedstawiona zostanie szczegółowa analiza różnych systemów chłodzenia, w tym klimatyzacji, chłodzenia zanurzeniowego i rozwiązań do zarządzania temperaturą. Następnie przedstaw rozwiązania termistorowe o ujemnym współczynniku temperaturowym (NTC) firmy EPCOS (TDK) i wyjaśnij, jak wykorzystać te rozwiązania, aby sprostać wyzwaniom związanym z zarządzaniem ciepłem.
Dlaczego centra danych AI przyniosą nowe wyzwania w zakresie zarządzania temperaturą?
Sprzęt AI, taki jak jednostki przetwarzania grafiki (GPU) i jednostki przetwarzania tensorowe (TPU), zwykle zużywają znacznie więcej energii niż tradycyjne jednostki centralne (CPU). Dlatego centra danych skupiające się na sztucznej inteligencji często charakteryzują się stosunkowo dużą gęstością mocy i skoncentrowanymi hotspotami, co utrudnia zarządzanie przy użyciu tradycyjnych metod chłodzenia.
Co gorsza, obciążenia AI często znacznie się różnią, a podczas treningu wzmacniającego lub operacji wnioskowania obciążenia termiczne mogą gwałtownie wzrosnąć. Jeśli nie zostanie przeprowadzone odpowiednie zarządzanie temperaturą, sytuacje te mogą prowadzić do pogorszenia wydajności, nieplanowanych przestojów i pogorszenia przyspieszenia sprzętowego.
Aby sprostać tym nowym wymaganiom, w centrach danych należy zastosować bardziej zaawansowane metody chłodzenia. Bezpośrednie chłodzenie wiórów jest powszechną metodą chłodzenia. Technologia ta łączy rury chłodzące, płyty chłodzące lub wymienniki ciepła bezpośrednio z urządzeniami o dużej mocy, takimi jak procesory, procesory graficzne i pamięć. Dodatkowo można wybrać także metodę chłodzenia zanurzeniowego, która polega na zanurzeniu całego serwera w cieczy nieprzewodzącej.
Klimatyzacja również przechodzi różne ulepszenia. Na przykład jednostki chłodzące między rzędami i jednostki chłodzące wbudowane w szafy mogą zapewniać chłodzenie strefowe w oparciu o ogólny system klimatyzacji sali komputerowej, to znaczy reagować w czasie rzeczywistym na lokalne problemy z przegrzaniem.
Chociaż specyficzne warunki tych systemów chłodzenia są różne, wszystkie one napędzają zapotrzebowanie na monitorowanie temperatury z szerszą dystrybucją i szybszą reakcją. W tym artykule jako przykład podano bezpośrednio podłączony system chłodzenia chipów. Każdy docelowy chip musi być wyposażony w czujnik radiatora, aby zapewnić utrzymanie standardów temperatury. Konieczne jest monitorowanie dopływu chłodziwa za pomocą czujników montowanych na rurociągach, a inne czujniki należy zainstalować na urządzeniu rozprowadzającym chłodziwo i wymienniku ciepła, aby zapewnić sprawną pracę układu.
Zalety czujników termistorowych NTC w zastosowaniach w centrach danych
Termistory NTC mogą spełnić wszystkie te wymagania. Jak sama nazwa wskazuje, rezystancja czujników NTC maleje wraz ze wzrostem temperatury. W przypadku termistorów NTC osiąga się to za pomocą małego termoczułego elementu ceramicznego z tlenku zamkniętego w ochronnej obudowie z metalu lub żywicy epoksydowej.
Rysunek 1 pokazuje typową krzywą rezystancji temperaturowej termistora o rezystancji znamionowej 2-5 kΩ przy 25°C. Jak pokazano na rysunku, im większa rezystancja, tym termistor jest bardziej odpowiedni do zastosowań wysokotemperaturowych, ponieważ zmianę rezystancji łatwiej jest zmierzyć.
Typowy wykres krzywej odporności na temperaturę
Rysunek 1: Typowa krzywa rezystancji temperaturowej termistora o wartości znamionowej od 2 k Ω do 5 k Ω w temperaturze 25 ° C. (Źródło obrazu: EPCOS (TDK))
Wśród zalet, jakie termistory NTC wnoszą do centrów danych AI, można wymienić:
Wysoka precyzja i szybka reakcja: niezwykle wrażliwa na niewielkie zmiany temperatury, a dzięki małej masie termicznej szybkość reakcji jest szybka. Dzięki tym funkcjom termistory NTC skutecznie spełniają szybko zmieniające się wymagania termiczne centrów danych AI.
Trwałość i stabilność: Wykonany z wytrzymałych materiałów, charakteryzuje się doskonałą długoterminową niezawodnością i minimalnym odchyleniem oporu w czasie. Ta stabilność minimalizuje wymagania konserwacyjne i w największym możliwym stopniu zmniejsza ryzyko nieoczekiwanych przestojów.
Kompaktowy rozmiar i elastyczna instalacja: dzięki niewielkim rozmiarom można go łatwo zintegrować ze środowiskami centrów danych intensywnie korzystającymi z urządzeń i o ograniczonej przestrzeni. Dzięki różnym kształtom może zaspokoić różnorodne potrzeby systemów chłodzenia w centrach danych sztucznej inteligencji.
Seria termistorów EPCOS NTC w pełni ucieleśnia te zalety. Ta seria produktów obejmuje rozwiązania do monitorowania grzejników i rurociągów, zanurzonych systemów chłodzenia i central wentylacyjnych.
Monitorowanie komponentów dużej mocy za pomocą termistorów NTC zainstalowanych na radiatorach
Procesory dużej mocy, takie jak procesory graficzne i TPU, wymagają rygorystycznego monitorowania temperatury, aby utrzymać wydajność i zapobiec przegrzaniu. B57703M0103G040 (rysunek 2) służy do bezpośredniego montażu na radiatorze, dzięki czemu doskonale nadaje się do tego zadania. Ten przykręcany czujnik zawiera termistor NTC w metalowej obudowie z wystającymi pierścieniami.
EPCOS B57703M0103G040 Termistor końcówki pętli
Rysunek 2: Termistor złącza pierścieniowego B57703M0103G040 umożliwia precyzyjne monitorowanie temperatury radiatorów procesorów o dużej mocy. (Źródło obrazu: EPCOS (TDK))
Konstrukcja czujników przykręcanych jest zarówno wygodna, jak i ważna, zapewnia dobre połączenie termiczne z powierzchnią radiatora i stały nacisk kontaktowy, zmniejszając w ten sposób opór cieplny i poprawiając dokładność pomiaru, gdy obciążenie zmienia się szybko.
Czujnik przeszedł długoterminowy test stabilności trwający 10000 godzin w temperaturze +70°C i może być używany w warunkach wysokiej temperatury powszechnie spotykanej w centrach danych AI. Rezystancja znamionowa czujnika w temperaturze +25°C wynosi 10 kΩ, co stanowi niezawodną podstawę do pomiaru wyższych temperatur roboczych i dokładne sprzężenie zwrotne dla systemu kontroli temperatury.

