Intel wyszczeg├│lnia swoje karty AI do wnioskowania i szkolenia Nervana

Ta strona mo┼╝e zarabia─ç prowizje partnerskie z link├│w na tej stronie. Warunki korzystania. Intel wyszczeg├│lnia swoje karty AI do wnioskowania i szkolenia Nervana 1W tym tygodniu trwaj─ů Hot Chips 31, prezentacje wielu firm. Intel postanowi┼é wykorzysta─ç t─Ö wysoce techniczn─ů konferencj─Ö do om├│wienia r├│┼╝nych produkt├│w, w tym du┼╝ych sesji po┼Ťwi─Öconych dzia┼éowi sztucznej inteligencji w firmie. Sztuczna inteligencja i uczenie maszynowe s─ů postrzegane jako kluczowe obszary dla przysz┼éo┼Ťci komputer├│w, a chocia┼╝ Intel zaj─ů┼é si─Ö tymi dziedzinami za pomoc─ů funkcji takich jak DL Boost w Xeon, buduje r├│wnie┼╝ dedykowane akceleratory dla rynku.

NNP-I 1000 (Spring Hill) i NNP-T (Spring Crest) s─ů przeznaczone dla dw├│ch r├│┼╝nych rynk├│w, wnioskowania i szkolenia. ÔÇ×SzkolenieÔÇŁ polega przede wszystkim na tworzeniu i uczeniu sieci neuronowej przetwarzania danych. Wnioskowanie odnosi si─Ö do zadania faktycznego uruchomienia wyuczonego obecnie modelu sieci neuronowej. Wymaga znacznie wi─Ökszej mocy obliczeniowej do wyszkolenia sieci neuronowej ni┼╝ do zastosowania wynik├│w tego szkolenia do rzeczywistych zada┼ä kategoryzacji lub klasyfikacji.

Spring Crest NNP-T zosta┼é zaprojektowany do skalowania w niespotykanym dot─ůd stopniu, z r├│wnowag─ů mi─Ödzy mo┼╝liwo┼Ťciami przetwarzania tensor├│w, wbudowanym HBM, mo┼╝liwo┼Ťci─ů pracy w sieci i wbudowanymi pami─Öciami SRAM, aby zwi─Ökszy─ç wydajno┼Ť─ç przetwarzania. Podstawowy uk┼éad jest zbudowany przez TSMC – tak, TSMC – na 16 nm, z matryc─ů o wielko┼Ťci 680 mm2 i przek┼éadni─ů 1200 mm2. Ca┼éy zesp├│┼é sk┼éada si─Ö z 27 miliard├│w tranzystor├│w ze stosami 4×8 GB pami─Öci HBM2-2400, 24 klastrami przetwarzania Tensor (TPC) o cz─Östotliwo┼Ťci rdzenia do 1,1 GHz. Sze┼Ť─çdziesi─ůt cztery linie SerDes HSIO zapewniaj─ů ┼é─ůczn─ů przepustowo┼Ť─ç 3,58 TB / s, a karta obs┼éuguje po┼é─ůczenie PCIe 4.0 x16. Oczekuje si─Ö, ┼╝e pob├│r mocy wyniesie 150-250 W. Uk┼éad zosta┼é zbudowany przy u┼╝yciu zaawansowanego opakowania CoWoS firmy TSMC (Chip-on-Wafer-on-Substrate) i przenosi 60 MB pami─Öci podr─Öcznej rozproszonej na r├│┼╝ne rdzenie. CoWoS konkuruje z EMIB Intela, ale Intel postanowi┼é zbudowa─ç ten sprz─Öt w TSMC zamiast korzysta─ç z w┼éasnych odlewni. Wydajno┼Ť─ç szacuje si─Ö na maksymalnie 119 TOPS.

ÔÇ×Nie chcemy marnowa─ç obszaru na rzeczy, kt├│rych nie potrzebujemyÔÇŁ, wiceprezes Intel ds. Sprz─Ötu Carey Kloss powiedzia┼é Next Platform. ÔÇ×Nasz zestaw instrukcji jest prosty; mno┼╝enie macierzy, algebra liniowa, zwoje. Nie mamy rejestr├│w jako takich, wszystko jest tensorem (2D, 3D lub 4D). ÔÇŁW oprogramowaniu jest wiele rzeczy, w tym mo┼╝liwo┼Ť─ç zaprogramowania tego samego przy ┼éamaniu modelu, aby uruchomi─ç lub wy┼é─ůczy─ç matryc─Ö . ÔÇ×Pomy┼Ťl o tym jak o hierarchiiÔÇŁ – powiedzia┼é Kloss w wywiadzie. ÔÇ×Mo┼╝esz u┼╝y─ç tego samego zestawu instrukcji do przenoszenia danych mi─Ödzy dwoma klastrami w jednej grupie obok jednego HBM lub mi─Ödzy grupami, a nawet umrze─ç w sieci. Chcemy, aby oprogramowanie zarz─ůdza┼éo komunikacj─ů w prosty spos├│b. ÔÇŁ

Pokaz slajd├│w poni┼╝ej pokazuje architektur─Ö NNP-T. Wszystkie dane s─ů udost─Öpniane dzi─Öki uprzejmo┼Ťci Intela, a dane dotycz─ůce wydajno┼Ťci udost─Öpnione w firmowych znakach mikrobenchowych nie zosta┼éy oczywi┼Ťcie zweryfikowane przez ExtremeTech.

NNP-T jest zaprojektowany do skutecznego skalowania na zewn─ůtrz bez konieczno┼Ťci stosowania podwozia. Wiele akcelerator├│w NNP-T mo┼╝na ┼é─ůczy─ç ze sob─ů w tej samej obudowie, a karty obs┼éuguj─ů po┼é─ůczenie podwozia z podwoziem, a nawet po┼é─ůczenie mi─Ödzy stela┼╝ami bez u┼╝ycia prze┼é─ůcznika. Z ty┼éu ka┼╝dej karty Mezzanine znajduj─ů si─Ö cztery porty sieciowe QFSP (Quad Small Form Factor Pluggable).

Nie mamy jeszcze danych dotycz─ůcych wydajno┼Ťci, ale jest to wysokiej klasy karta szkoleniowa, z kt├│r─ů Intel wejdzie na rynek, aby konkurowa─ç z takimi graczami jak Nvidia. Nie jest jeszcze jasne, w jaki spos├│b ostateczne rozwi─ůzania, takie jak Xe, kt├│re nie b─Öd─ů dostarczane do centr├│w danych do 2021 r., Zmieszcz─ů si─Ö w przysz┼éym portfolio produkt├│w firmy, gdy na rynku centr├│w danych b─Öd─ů dost─Öpne zar├│wno rdzenie do przetwarzania tensorowego, jak i procesory graficzne.

Spring Hill / NNP-I: Islandia na pokładzie

Spring Hill, nowy akcelerator wnioskowania Intela, to zupe┼énie inna bestia. Tam, gdzie NNP-T jest przeznaczony do kopert mocy 150-250 W, NNP-I jest cz─Ö┼Ťci─ů 10-50 W przeznaczon─ů do pod┼é─ůczenia do gniazda M.2. Zawiera dwa rdzenie procesor├│w Islandii po┼é─ůczone z 12 silnikami obliczeniowymi wnioskowania (ICE).

Intel wyszczeg├│lnia swoje karty AI do wnioskowania i szkolenia Nervana 2

12 silnik├│w ICE i dwa rdzenie procesora s─ů wspierane przez 24 MB sp├│jnego L3 i obs┼éuguj─ů instrukcje AVX-512 i VNNI. Istniej─ů dwa wbudowane kontrolery pami─Öci LPDDR4X pod┼é─ůczone do puli pami─Öci LPDDR4 (brak s┼éowa o pojemno┼Ťci). Przepustowo┼Ť─ç pami─Öci DRAM wynosi do 68 GB / s, ale ca┼ékowita ilo┼Ť─ç pami─Öci DRAM na karcie nie jest znana. Spring Hill mo┼╝na doda─ç do ka┼╝dego nowoczesnego serwera obs┼éuguj─ůcego gniazda M.2 – wed┼éug Intela urz─ůdzenie komunikuje si─Ö przez pion M.2 jak produkt PCIe, a nie przez NVMe.

Celem, w przypadku NNP-I, jest wykonywanie operacji na procesorze AI przy mniejszym obci─ů┼╝eniu podstawowym procesora w systemie. Urz─ůdzenie ┼é─ůczy si─Ö przez PCIe (obs┼éugiwane s─ů zar├│wno PCIe 3.0, jak i 4.0) i obs┼éuguje obci─ů┼╝enie AI, wykorzystuj─ůc wbudowane rdzenie Icelandake do wszelkich niezb─Ödnych operacji. SRAM i DRAM on-die zapewniaj─ů przepustowo┼Ť─ç pami─Öci lokalnej.

Intel wyszczeg├│lnia swoje karty AI do wnioskowania i szkolenia Nervana 3

Inference Compute Engine obsługuje różne formaty instrukcji, od FP16 do INT1, z programowalnym procesorem wektorowym i 4 MB pamięci SRAM dla każdego pojedynczego ICE.

Intel wyszczeg├│lnia swoje karty AI do wnioskowania i szkolenia Nervana 4

Istnieje r├│wnie┼╝ silnik tensorowy, nazwany Deep Learning Compute Grid, oraz Tensilica Vision P6 DSP (u┼╝ywany do przetwarzania obci─ů┼╝e┼ä, kt├│re nie s─ů dostrojone do dzia┼éania w sta┼éej funkcji DL Compute Grid).

Intel wyszczeg├│lnia swoje karty AI do wnioskowania i szkolenia Nervana 5

Og├│lny podsystem pami─Öci NNP-I jest r├│wnie┼╝ zoptymalizowany, z pami─Öci─ů podr─Öczn─ů L3 podzielon─ů na osiem 3 MB segment├│w, wsp├│┼édzielonych mi─Ödzy rdzeniami ICE i CPU. Celem jest, aby dane znajdowa┼éy si─Ö jak najbli┼╝ej potrzebnych element├│w przetwarzania. Intel twierdzi, ┼╝e NNP-I mo┼╝e zapewni─ç wydajno┼Ť─ç ResNet50 wynosz─ůc─ů 3600 wnioskowania na sekund─Ö przy pracy z 10 W TDP. Dzia┼éa to do 4,8 TOPS / wat, co spe┼énia og├│lne cele Intela w zakresie wydajno┼Ťci (firma twierdzi, ┼╝e NNP-I jest najbardziej wydajny przy ni┼╝szych watach).

Intel nie spodziewa si─Ö, ┼╝e NNP-I wejdzie na rynek detaliczny, ale rozwi─ůzania wnioskowania prowadz─ů energiczny biznes w por├│wnaniu z wysokiej klasy rozwi─ůzaniami szkoleniowymi zorientowanymi na centra danych. NNP-I mo┼╝e dostarczy─ç szerok─ů gam─Ö klient├│w w niezbyt odleg┼éej przysz┼éo┼Ťci, w zale┼╝no┼Ťci od og├│lnego wykorzystania.

Oba te rozwi─ůzania maj─ů na celu wyzwanie Nvidii w centrum danych. Chocia┼╝ oba s─ů zupe┼énie r├│┼╝ne od Xeon Phi, mo┼╝esz argumentowa─ç, ┼╝e wsp├│lnie celuj─ů w niekt├│re przestrzenie, na kt├│re Intel chcia┼é sprzeda─ç Xeon Phi, cho─ç na bardzo r├│┼╝ne sposoby. Niekoniecznie jest to jednak z┼éa rzecz – kiedy zbudowano oryginalnego Larrabee, pomys┼é u┼╝ycia uk┼éad├│w GPU do sztucznej inteligencji i pracy w centrum danych by┼é odleg┼é─ů koncepcj─ů. Powr├│t do tematu z now─ů wyspecjalizowan─ů architektur─ů zar├│wno do wnioskowania, jak i szkolenia jest m─ůdrym posuni─Öciem dla Intela, je┼Ťli firma mo┼╝e oderwa─ç si─Ö od Nvidii.

Teraz przeczytaj: