Intel wyszczególnia swoje karty AI do wnioskowania i szkolenia Nervana

Ta strona może zarabiać prowizje partnerskie z linków na tej stronie. Warunki korzystania. Intel wyszczególnia swoje karty AI do wnioskowania i szkolenia Nervana 1W tym tygodniu trwają Hot Chips 31, prezentacje wielu firm. Intel postanowił wykorzystać tę wysoce techniczną konferencję do omówienia różnych produktów, w tym dużych sesji poświęconych działowi sztucznej inteligencji w firmie. Sztuczna inteligencja i uczenie maszynowe są postrzegane jako kluczowe obszary dla przyszłości komputerów, a chociaż Intel zajął się tymi dziedzinami za pomocą funkcji takich jak DL Boost w Xeon, buduje również dedykowane akceleratory dla rynku.

NNP-I 1000 (Spring Hill) i NNP-T (Spring Crest) są przeznaczone dla dwóch różnych rynków, wnioskowania i szkolenia. „Szkolenie” polega przede wszystkim na tworzeniu i uczeniu sieci neuronowej przetwarzania danych. Wnioskowanie odnosi się do zadania faktycznego uruchomienia wyuczonego obecnie modelu sieci neuronowej. Wymaga znacznie większej mocy obliczeniowej do wyszkolenia sieci neuronowej niż do zastosowania wyników tego szkolenia do rzeczywistych zadań kategoryzacji lub klasyfikacji.

Spring Crest NNP-T został zaprojektowany do skalowania w niespotykanym dotąd stopniu, z równowagą między możliwościami przetwarzania tensorów, wbudowanym HBM, możliwością pracy w sieci i wbudowanymi pamięciami SRAM, aby zwiększyć wydajność przetwarzania. Podstawowy układ jest zbudowany przez TSMC – tak, TSMC – na 16 nm, z matrycą o wielkości 680 mm2 i przekładnią 1200 mm2. Cały zespół składa się z 27 miliardów tranzystorów ze stosami 4×8 GB pamięci HBM2-2400, 24 klastrami przetwarzania Tensor (TPC) o częstotliwości rdzenia do 1,1 GHz. Sześćdziesiąt cztery linie SerDes HSIO zapewniają łączną przepustowość 3,58 TB / s, a karta obsługuje połączenie PCIe 4.0 x16. Oczekuje się, że pobór mocy wyniesie 150-250 W. Układ został zbudowany przy użyciu zaawansowanego opakowania CoWoS firmy TSMC (Chip-on-Wafer-on-Substrate) i przenosi 60 MB pamięci podręcznej rozproszonej na różne rdzenie. CoWoS konkuruje z EMIB Intela, ale Intel postanowił zbudować ten sprzęt w TSMC zamiast korzystać z własnych odlewni. Wydajność szacuje się na maksymalnie 119 TOPS.

„Nie chcemy marnować obszaru na rzeczy, których nie potrzebujemy”, wiceprezes Intel ds. Sprzętu Carey Kloss powiedział Next Platform. „Nasz zestaw instrukcji jest prosty; mnożenie macierzy, algebra liniowa, zwoje. Nie mamy rejestrów jako takich, wszystko jest tensorem (2D, 3D lub 4D). ”W oprogramowaniu jest wiele rzeczy, w tym możliwość zaprogramowania tego samego przy łamaniu modelu, aby uruchomić lub wyłączyć matrycę . „Pomyśl o tym jak o hierarchii” – powiedział Kloss w wywiadzie. „Możesz użyć tego samego zestawu instrukcji do przenoszenia danych między dwoma klastrami w jednej grupie obok jednego HBM lub między grupami, a nawet umrzeć w sieci. Chcemy, aby oprogramowanie zarządzało komunikacją w prosty sposób. ”

Pokaz slajdów poniżej pokazuje architekturę NNP-T. Wszystkie dane są udostępniane dzięki uprzejmości Intela, a dane dotyczące wydajności udostępnione w firmowych znakach mikrobenchowych nie zostały oczywiście zweryfikowane przez ExtremeTech.

NNP-T jest zaprojektowany do skutecznego skalowania na zewnątrz bez konieczności stosowania podwozia. Wiele akceleratorów NNP-T można łączyć ze sobą w tej samej obudowie, a karty obsługują połączenie podwozia z podwoziem, a nawet połączenie między stelażami bez użycia przełącznika. Z tyłu każdej karty Mezzanine znajdują się cztery porty sieciowe QFSP (Quad Small Form Factor Pluggable).

Nie mamy jeszcze danych dotyczących wydajności, ale jest to wysokiej klasy karta szkoleniowa, z którą Intel wejdzie na rynek, aby konkurować z takimi graczami jak Nvidia. Nie jest jeszcze jasne, w jaki sposób ostateczne rozwiązania, takie jak Xe, które nie będą dostarczane do centrów danych do 2021 r., Zmieszczą się w przyszłym portfolio produktów firmy, gdy na rynku centrów danych będą dostępne zarówno rdzenie do przetwarzania tensorowego, jak i procesory graficzne.

Spring Hill / NNP-I: Islandia na pokładzie

Spring Hill, nowy akcelerator wnioskowania Intela, to zupełnie inna bestia. Tam, gdzie NNP-T jest przeznaczony do kopert mocy 150-250 W, NNP-I jest częścią 10-50 W przeznaczoną do podłączenia do gniazda M.2. Zawiera dwa rdzenie procesorów Islandii połączone z 12 silnikami obliczeniowymi wnioskowania (ICE).

Intel wyszczególnia swoje karty AI do wnioskowania i szkolenia Nervana 2

12 silników ICE i dwa rdzenie procesora są wspierane przez 24 MB spójnego L3 i obsługują instrukcje AVX-512 i VNNI. Istnieją dwa wbudowane kontrolery pamięci LPDDR4X podłączone do puli pamięci LPDDR4 (brak słowa o pojemności). Przepustowość pamięci DRAM wynosi do 68 GB / s, ale całkowita ilość pamięci DRAM na karcie nie jest znana. Spring Hill można dodać do każdego nowoczesnego serwera obsługującego gniazda M.2 – według Intela urządzenie komunikuje się przez pion M.2 jak produkt PCIe, a nie przez NVMe.

Celem, w przypadku NNP-I, jest wykonywanie operacji na procesorze AI przy mniejszym obciążeniu podstawowym procesora w systemie. Urządzenie łączy się przez PCIe (obsługiwane są zarówno PCIe 3.0, jak i 4.0) i obsługuje obciążenie AI, wykorzystując wbudowane rdzenie Icelandake do wszelkich niezbędnych operacji. SRAM i DRAM on-die zapewniają przepustowość pamięci lokalnej.

Intel wyszczególnia swoje karty AI do wnioskowania i szkolenia Nervana 3

Inference Compute Engine obsługuje różne formaty instrukcji, od FP16 do INT1, z programowalnym procesorem wektorowym i 4 MB pamięci SRAM dla każdego pojedynczego ICE.

Intel wyszczególnia swoje karty AI do wnioskowania i szkolenia Nervana 4

Istnieje również silnik tensorowy, nazwany Deep Learning Compute Grid, oraz Tensilica Vision P6 DSP (używany do przetwarzania obciążeń, które nie są dostrojone do działania w stałej funkcji DL Compute Grid).

Intel wyszczególnia swoje karty AI do wnioskowania i szkolenia Nervana 5

Ogólny podsystem pamięci NNP-I jest również zoptymalizowany, z pamięcią podręczną L3 podzieloną na osiem 3 MB segmentów, współdzielonych między rdzeniami ICE i CPU. Celem jest, aby dane znajdowały się jak najbliżej potrzebnych elementów przetwarzania. Intel twierdzi, że NNP-I może zapewnić wydajność ResNet50 wynoszącą 3600 wnioskowania na sekundę przy pracy z 10 W TDP. Działa to do 4,8 TOPS / wat, co spełnia ogólne cele Intela w zakresie wydajności (firma twierdzi, że NNP-I jest najbardziej wydajny przy niższych watach).

Intel nie spodziewa się, że NNP-I wejdzie na rynek detaliczny, ale rozwiązania wnioskowania prowadzą energiczny biznes w porównaniu z wysokiej klasy rozwiązaniami szkoleniowymi zorientowanymi na centra danych. NNP-I może dostarczyć szeroką gamę klientów w niezbyt odległej przyszłości, w zależności od ogólnego wykorzystania.

Oba te rozwiązania mają na celu wyzwanie Nvidii w centrum danych. Chociaż oba są zupełnie różne od Xeon Phi, możesz argumentować, że wspólnie celują w niektóre przestrzenie, na które Intel chciał sprzedać Xeon Phi, choć na bardzo różne sposoby. Niekoniecznie jest to jednak zła rzecz – kiedy zbudowano oryginalnego Larrabee, pomysł użycia układów GPU do sztucznej inteligencji i pracy w centrum danych był odległą koncepcją. Powrót do tematu z nową wyspecjalizowaną architekturą zarówno do wnioskowania, jak i szkolenia jest mądrym posunięciem dla Intela, jeśli firma może oderwać się od Nvidii.

Teraz przeczytaj: