Od czasu co najmniej Computex, Intel wzbudza obawy wśród recenzentów dotyczące rodzajów testów, które przeprowadzamy, z których recenzenci aplikacji zwykle korzystają oraz czy testy te przechwytują „rzeczywistość”. W szczególności Intel uważa, że zbyt duży nacisk kładzie się na testy takie jak Cinebench, podczas gdy aplikacje, z których ludzie faktycznie korzystają, są praktycznie ignorowane.
Zróbmy z góry kilka rzeczy.
Każda firma ma benchmarki, które preferuje i których nie lubi. Faktem jest, że niektóre testy działają lepiej na AMD w porównaniu do Intela lub na Nvidii w porównaniu do AMD niesam w sobie dowód na to, że wskaźnik został celowo zaprojektowany tak, aby faworyzować jedną firmę lub drugą. Firmy mają tendencję do zgłaszania obaw o to, których recenzentów testów porównawczych używają, gdy stoją w obliczu zwiększonej presji konkurencyjnej na rynku. Ci z was, którzy myślą, że Intel zadaje pytania na temat testów, które wspólnie sprawdzamy, częściowo dlatego, że przegrywają w wielu z tych testów, nie są w błędzie. Ale fakt, że firma ma interesujący powód do zadawania pytań, nie oznacza automatycznie, że firma też się myli. A ponieważ nie spędzam dziesiątek godzin i od czasu do czasu całonocnych testów sprzętu, aby dać ludziom fałszywe wyobrażenie o tym, jak będzie działać, zawsze chętnie przyjrzę się własnym wnioskom.
Poniżej moje własne przemyślenia na temat tej sytuacji. Nie twierdzę, że wypowiadam się w imieniu innego recenzenta niż ja.
Można się zastanawiać, co Maxon o tym myśli, biorąc pod uwagę, że był to znaczący partner Intela w SIGGRAPH.
Co tak naprawdę oznacza „rzeczywistość”?
Opowiadanie się za rzeczywistymi testami sprzętowymi jest jedną z najmniej kontrowersyjnych opinii, jakie można mieć w branży komputerowej. Spotkałem ludzi, którzy niekoniecznie dbali o różnicę między testami syntetycznymi a rzeczywistymi, ale nigdy nie przypominam sobie spotkania z kimś, kto uważał, że testy w prawdziwym świecie są nieistotne. Fakt, że prawie wszyscy zgadzają się w tej kwestii, nie oznacza, że wszyscy zgadzają się co do tego, gdzie są granice między światem rzeczywistym a syntetycznym wzorcem. Rozważ następujące scenariusze:
- Deweloper tworzy test porównawczy, który testuje wydajność GPU zarówno na sprzęcie AMD, jak i Nvidii. Mierzy wydajność, jaką obie rodziny GPU powinny oferować w CUDA i OpenCL. Porównania pokazują, że jego wyniki dość dobrze odwzorowują się w aplikacjach w terenie. Firma renderująca 3D tworzy niezależną wersję swojej aplikacji, aby porównać wydajność procesorów i / lub procesorów graficznych. Autonomiczny test dokładnie rejestruje podstawową wydajność (bardzo drogiego) pakietu do renderowania 3D w prostym, łatwym w użyciu teście. Firma do renderowania 3D tworzy szereg scen testowych do testowania pełnego zestawu aplikacji. Każda scena koncentruje się na wyróżnieniu określonej techniki lub technologii. Ich celem jest pokazanie wpływu różnych funkcji na wydajność, a nie oferowanie jednego ogólnego renderowania. Gra zawiera wbudowany test porównawczy. Zamiast replikować dokładną scenę z gry, programiści opracowali wersję demonstracyjną, która testuje każdy aspekt wydajności silnika w ciągu kilku minut. Testu można użyć do pomiaru wydajności nowych funkcji w interfejsie API takim jak DX11. Gra zawiera wbudowany test porównawczy. Ten test opiera się na pojedynczej mapie lub wydarzeniu w grze. Dokładnie mierzy wydajność w tej konkretnej mapie lub scenariuszu, ale nie zawiera żadnych danych na innych mapach lub scenariuszach.
Będziesz miał własną opinię na temat tego, który z tych scenariuszy (jeśli istnieje) stanowi punkt odniesienia w świecie rzeczywistym, a który nie. Pozwól, że zadam ci inne pytanie – takie, które według mnie jest ważniejsze niż to, czy test jest „rzeczywisty”, czy nie. Który z tych hipotetycznych testów porównawczych mówi coś użytecznego o wydajności testowanego produktu?
Odpowiedź brzmi: „Potencjalnie wszystkie”. Który test porównawczy, który wybrałem, jest funkcją pytania, które zadaję. Syntetyczny lub samodzielny test, który działa jako dobry model dla innej aplikacji, wciąż dokładnie modeluje wydajność w tej aplikacji. Może to być znacznie lepszy model rzeczywistej wydajności niż testy przeprowadzane w aplikacji, która została mocno zoptymalizowana pod kątem konkretnej architektury. Mimo że wszystkie testy w zoptymalizowanej aplikacji są „rzeczywiste” – odzwierciedlają rzeczywiste obciążenia i zadania – sama aplikacja może być niereprezentatywną wartością odstającą.
Wszystkie opisane powyżej scenariusze mogą być dobrymi punktami odniesienia, w zależności od tego, jak dobrze uogólniają się na inne aplikacje. Generalizacja jest ważny w recenzowaniu. Z mojego doświadczenia wynika, że recenzenci zazwyczaj próbują zrównoważyć aplikacje, o których wiadomo, że faworyzują jedną firmę, z aplikacjami, które działają dobrze na każdym sprzęcie. Często, jeśli funkcja specyficzna dla dostawcy jest włączona w jednym zestawie danych, recenzje zawierają drugi zestaw danych z tą samą funkcją wyłączoną, aby zapewnić bardziej neutralne porównanie. Uruchomienie flag specyficznych dla dostawcy może czasem zaszkodzić zdolności testu do mówienia do szerszej publiczności.
Intel proponuje alternatywne podejście
Do tej pory mówiliśmy ściśle o tym, czy test jest realny w świetle tego, czy wyniki uogólniają się na inne aplikacje. Istnieje jednak inny sposób ujęcia tematu. Intel przeprowadził ankietę wśród użytkowników, aby sprawdzić, z których aplikacji faktycznie korzystali, a następnie przedstawił nam te dane. To wygląda tak:
Oznacza to, że testując najpopularniejsze aplikacje instalowane na sprzęcie ludzkim, możemy uchwycić lepszy, bardziej reprezentatywny przypadek użycia. To czuje się intuicyjnie prawda – ale rzeczywistość jest bardziej skomplikowana.
To, że aplikacja jest często używana, nie czyni jej obiektywnie dobrym punktem odniesienia. Niektóre aplikacje nie są szczególnie wymagające. Chociaż istnieją absolutnie scenariusze, w których pomiar wydajności Chrome może być ważny, np. Miejsce na notebooki z niższej półki, dobre recenzje tych produktów już obejmują tego rodzaju testy. W kontekście entuzjastów wysokiej klasy Chrome raczej nie będzie podatną aplikacją. Czy istnieją scenariusze testowe, które mogą opodatkować? Tak. Ale te scenariusze nie odzwierciedlają sposobu, w jaki aplikacja jest najczęściej używana.
Rzeczywiste wrażenia z używania Chrome na Ryzen 7 3800X jest identyczny z użyciem go na Core i9-9900K.
Nawet gdyby tak nie było, Google utrudnia utrzymanie poprzedniej wersji Chrome dostępnej do dalszego testowania A / B. Wiele osób korzysta z rozszerzeń i blokerów reklam, które mają swój wpływ na wydajność. Czy to oznacza, że recenzenci nie powinni testować Chrome? Oczywiście, że nie. Właśnie dlatego wiele recenzji laptopów jest absolutnie zrobić przetestuj Chrome, szczególnie w kontekście żywotności baterii opartej na przeglądarce, gdzie Chrome, Firefox i Edge mają różne wyniki. Dopasuj punkt odniesienia do sytuacji.
Był czas, kiedy spędziłem znacznie więcej czasu na testowaniu wielu aplikacji z tej listy niż teraz. Kiedy zaczynałem karierę, większość pakietów testowych koncentrowała się na aplikacjach biurowych i podstawowych testach grafiki 2D. Pamiętam, że zamiana czyjejś karty graficznej może znacząco poprawić jakość obrazu 2D i WindowsReaktywność interfejsu użytkownika, nawet bez aktualizacji monitora. Kiedy pisałem dla Ars Technica, pisałem porównania użycia procesora podczas dekodowania treści HD, ponieważ w tym czasie istniały znaczące różnice. Jeśli przypomnisz sobie, jak debiutowały netbooki Atom, wiele recenzji koncentrowało się na takich kwestiach, jak responsywność interfejsu użytkownika z rozwiązaniem GPU Nvidia Ion i porównywało je ze zintegrowaną grafiką Intela. Czemu? Ponieważ Ion zrobił zauważalną różnicę w ogólnej wydajności interfejsu użytkownika. Recenzenci nie ignorują tych problemów. Publikacje zwykle do nich wracają, gdy istnieje znaczące zróżnicowanie.
Nie wybieram testów porównawczych tylko dlatego, że aplikacja jest popularna, choć popularność może wziąć pod uwagę ostateczną decyzję. Celem ogólnej oceny jest wybranie testów, które będą się dobrze uogólniać na inne aplikacje. Fakt, że dana osoba ma zainstalowaną Steam lub Battle.net, nic mi nie mówi. Czy ta osoba gra w Overwatch lub WoW Classic? Czy grają w Minecraft czy No Man's Sky? Czy wybierają MMORPG lub gry typu FPS, czy po prostu utknęły w martwym punkcie w Goat Simulator 2017? Czy w ogóle grają w jakieś gry? Nie mogę wiedzieć bez więcej danych.
Aplikacje z tej listy, które pokazują znaczące różnice w wydajności w typowych zadaniach, są zwykle już testowane. Publikacje takie jak Puget Systems regularnie publikują porównania wydajności w pakiecie Adobe. W niektórych przypadkach powodem, dla którego aplikacje nie są testowane częściej, jest to, że od dawna istnieją obawy dotyczące niezawodności i dokładności pakietu testów, który najczęściej je obejmuje.
Zawsze interesują mnie lepsze metody pomiaru wydajności komputera. Intel absolutnie ma do odegrania rolę w tym procesie – firma była wielokrotnie pomocna, gdy chodzi o znalezienie sposobów wyróżnienia nowych funkcji lub rozwiązania problemów. Ale jedynym sposobem na znalezienie znaczących różnic w sprzęcie jest znalezienie znaczących różnic w testy. Ponownie, ogólnie rzecz biorąc, recenzenci sprawdzają laptopy pod kątem luk w żywotności baterii i zużycia energii, a także wydajności. W procesorach graficznych szukamy różnic w czasie wyświetlania klatek i liczbie klatek na sekundę. Ponieważ nikt z nas nie jest w stanie uruchomić każdego obciążenia, szukamy aplikacji o generalnych wynikach. W ET prowadzę wiele aplikacji do renderowania, aby upewnić się, że nie faworyzujemy żadnego pojedynczego dostawcy ani rozwiązania. Dlatego testuję Cinebench, Blender, Maxwell Render, i Renderowanie Corona. Jeśli chodzi o kodowanie multimediów, Handbrake to praktycznie rozwiązanie dla każdego – ale sprawdzamy zarówno H.264, jak i H.265, aby upewnić się, że przechwytujemy wiele scenariuszy testowych. Kiedy testy okazują się niedokładne lub niewystarczające do przechwycenia potrzebnych mi danych, używam różnych testów.
Fałszywa dychotomia
Powszechnie dyskutowana różnica między wzorcami „syntetycznymi” i „rzeczywistymi” polega na złym ujęciu problemu. W końcu ważne jest to, czy dane z testu porównawczego przedstawione przez recenzenta łącznie zapewniają dokładny obraz oczekiwanej wydajności urządzenia. Jak podaje Rob Williams w Techgage, Intel bardzo chętnie wykorzystuje Cinebench Maxona jako punkt odniesienia w czasach, gdy jego własne rdzenie procesora dominowały. W ostatnim poście na Medium, Ryan Shrout Intela napisał:
Dzisiaj w IFA zorganizowaliśmy wydarzenie z udziałem przedstawicieli mediów i społeczności analityków na temat, który jest bardzo bliski i bliski naszemu sercu – Real World Performance. Organizujemy te wydarzenia od kilku miesięcy, zaczynając od Computex, a następnie od E3, i wiele się nauczyliśmy po drodze. Proces ten wzmocnił naszą opinię na temat syntetycznych testów porównawczych: zapewniają one wartość, jeśli chcesz szybko i wąsko spojrzeć na wydajność. Nadal korzystamy z nich wewnętrznie i wiemy, że wielu z nich również, ale w rzeczywistości są oni coraz bardziej niedokładni w ocenie rzeczywistej wydajności dla użytkownika, niezależnie od danego segmentu produktu.
Brzmi okropnie. Kontynuuje to z tym slajdem:
Aby wykazać, że testy syntetyczne są gorsze, Intel pokazuje 14 osobnych wyników, z których 10 pochodzi z 3DMark i PCMark. Obie te aplikacje są ogólnie uważane za aplikacje syntetyczne. Kiedy firma prezentuje dane na temat swojej własnej wydajności w porównaniu do ARM, ponownie wykonuje tę samą sztuczkę:
Dlaczego Intel powołuje się na syntetyczne aplikacje w tym samym poście na blogu, w którym określa je jako zły wybór w porównaniu z rzekomo lepszymi testami w „prawdziwym świecie”? Być może dzieje się tak dlatego, że Intel dokonuje wyborów porównawczych tak, jak robią to nasi recenzenci – z myślą o reprezentatywnych i odtwarzalnych wynikach, stosując przystępne testy, z dobrymi zestawami funkcji, które nie powodują awarii lub awarii z nieznanych przyczyn po instalacji. Być może Intel ma również problemy z nadążaniem za zalewem oprogramowania wydawanego na bieżąco i wybiera testy, aby przedstawić swoje produkty, od których może polegać. Może chce nadal opracowywać własne syntetyczne testy porównawcze, takie jak WebXPRT, nie rzucając całego wysiłku pod magistralę, nawet jeśli jednocześnie próbuje sugerować, że testy porównawcze, na których opiera się AMD, są niedokładne.
A może dlatego, że cała kadrowanie w świecie syntetycznym kontra świat rzeczywisty jest złe.
Teraz przeczytaj: