Ta strona może zarabiać prowizje partnerskie z linków na tej stronie. Warunki korzystania.
Teraz, gdy prawie każde możliwe urządzenie mobilne i urządzenie przyjęło lub przynajmniej eksperymentowało ze sterowaniem głosowym, konwersacyjna sztuczna inteligencja szybko staje się nową granicą. Zamiast obsługi jednego zapytania i podania jednej odpowiedzi lub akcji, konwersacyjna sztuczna inteligencja ma na celu zapewnienie interaktywnego systemu w czasie rzeczywistym, który może obejmować wiele pytań, odpowiedzi i komentarzy. Podczas gdy podstawowe elementy konstrukcyjne konwersacyjnej sztucznej inteligencji, takie jak BERT i RoBERTa do modelowania języka, są podobne do tych do rozpoznawania mowy za jednym razem, koncepcja zawiera dodatkowe wymagania dotyczące wydajności w zakresie szkolenia, wnioskowania i wielkości modelu. Dzisiaj Nvidia wypuściła na rynek trzy technologie zaprojektowane w celu rozwiązania tych problemów.
Szybsze szkolenie BERT
Podczas gdy w wielu przypadkach możliwe jest zastosowanie wstępnie wyszkolonego modelu językowego do nowych zadań z niewielkim dostrajaniem, konieczne jest jednak optymalne wykonanie w określonym kontekście. Nvidia wykazała, że może teraz trenować BERT (model języka referencyjnego Google) w niecałą godzinę na DGX SuperPOD składającym się z 1472 procesorów graficznych Tesla V100-SXM3-32GB, 92 serwerów DGX-2H i 10 Mellanox Infiniband na węzeł. Nie, nie chcę nawet próbować oszacować, ile wynosi jeden czynsz za godzinę. Ponieważ jednak takie modele zwykle trenowały nawet na wysokiej klasy klastrach GPU, z pewnością pomoże to w wprowadzeniu produktu na rynek dla firm, które mogą sobie na to pozwolić.
Szybsze wnioskowanie o modelu językowym
W przypadku naturalnych rozmów testem branżowym jest czas reakcji 10 ms. Zrozumienie zapytania i zaproponowanie sugerowanej odpowiedzi to tylko część procesu, więc musi zająć mniej niż 10 ms. Dzięki optymalizacji BERT za pomocą TensorRT 5.1, Nvidia ma wnioskowanie w 2,2 ms na Nvidia T4. Fajne jest to, że T4 jest w zasięgu prawie każdego poważnego projektu. Użyłem ich w Google Compute Cloud do mojego systemu generowania tekstu. Serwer wirtualny 4-vCPU z T4 wynajętym za nieco ponad 1 $ / godzinę, kiedy wykonałem projekt.
Obsługa nawet większych modeli
Jednym z pięter achillesowych sieci neuronowych jest wymóg, aby wszystkie parametry modelu (w tym duża liczba wag) musiały być jednocześnie w pamięci. Ogranicza to złożoność modelu, który można trenować na GPU, do wielkości jego pamięci RAM. W moim przypadku, na przykład, mój komputer stacjonarny Nvidia GTX 1080
może trenować tylko modele pasujące do jego 8 GB. Mogę trenować większe modele na moim procesorze, który ma więcej pamięci RAM, ale zajmuje to znacznie więcej czasu. Pełny model językowy GPT-2 ma na przykład 1,5 miliarda parametrów, a wersja rozszerzona ma 8,3 miliarda.
Nvidia wymyśliła jednak sposób na umożliwienie wielu procesorom graficznym równoległej pracy nad zadaniem modelowania języka. Podobnie jak w przypadku innych dzisiejszych ogłoszeń, udostępnili kod źródłowy, aby tak się stało. Będę naprawdę ciekawy, czy technika ta jest specyficzna dla modeli językowych, czy może być zastosowana, aby umożliwić szkolenie z wykorzystaniem wielu GPU dla innych klas sieci neuronowych.
Wraz z tymi zmianami i wydaniem kodu na GitHub, Nvidia ogłosiła, że będzie współpracować z Microsoftem w celu poprawy wyników wyszukiwania Bing, a także z Clinc na agentach głosowych, Passage AI na chatbotach i RecordSure na temat analityki konwersacyjnej.
Teraz przeczytaj: