Firma Intel jest nagle bardzo zaniepokojona testami por├│wnawczymi w ÔÇ×┼Ťwiecie rzeczywistymÔÇŁ

Firma Intel jest nagle bardzo zaniepokojona testami por├│wnawczymi w ÔÇ×┼Ťwiecie rzeczywistymÔÇŁ 1

Od czasu co najmniej Computex, Intel wzbudza obawy w┼Ťr├│d recenzent├│w dotycz─ůce rodzaj├│w test├│w, kt├│re przeprowadzamy, z kt├│rych recenzenci aplikacji zwykle korzystaj─ů oraz czy testy te przechwytuj─ů ÔÇ×rzeczywisto┼Ť─çÔÇŁ. W szczeg├│lno┼Ťci Intel uwa┼╝a, ┼╝e ÔÇőÔÇőzbyt du┼╝y nacisk k┼éadzie si─Ö na testy takie jak Cinebench, podczas gdy aplikacje, z kt├│rych ludzie faktycznie korzystaj─ů, s─ů praktycznie ignorowane.

Zr├│bmy z g├│ry kilka rzeczy.

Ka┼╝da firma ma benchmarki, kt├│re preferuje i kt├│rych nie lubi. Faktem jest, ┼╝e niekt├│re testy dzia┼éaj─ů lepiej na AMD w por├│wnaniu do Intela lub na Nvidii w por├│wnaniu do AMD niesam w sobie dow├│d na to, ┼╝e wska┼║nik zosta┼é celowo zaprojektowany tak, aby faworyzowa─ç jedn─ů firm─Ö lub drug─ů. Firmy maj─ů tendencj─Ö do zg┼éaszania obaw o to, kt├│rych recenzent├│w test├│w por├│wnawczych u┼╝ywaj─ů, gdy stoj─ů w obliczu zwi─Ökszonej presji konkurencyjnej na rynku. Ci z was, kt├│rzy my┼Ťl─ů, ┼╝e Intel zadaje pytania na temat test├│w, kt├│re wsp├│lnie sprawdzamy, cz─Ö┼Ťciowo dlatego, ┼╝e przegrywaj─ů w wielu z tych test├│w, nie s─ů w b┼é─Ödzie. Ale fakt, ┼╝e firma ma interesuj─ůcy pow├│d do zadawania pyta┼ä, nie oznacza automatycznie, ┼╝e firma te┼╝ si─Ö myli. A poniewa┼╝ nie sp─Ödzam dziesi─ůtek godzin i od czasu do czasu ca┼éonocnych test├│w sprz─Ötu, aby da─ç ludziom fa┼észywe wyobra┼╝enie o tym, jak b─Ödzie dzia┼éa─ç, zawsze ch─Ötnie przyjrz─Ö si─Ö w┼éasnym wnioskom.

Poni┼╝ej moje w┼éasne przemy┼Ťlenia na temat tej sytuacji. Nie twierdz─Ö, ┼╝e wypowiadam si─Ö w imieniu innego recenzenta ni┼╝ ja.

Firma Intel jest nagle bardzo zaniepokojona testami por├│wnawczymi w ÔÇ×┼Ťwiecie rzeczywistymÔÇŁ 2Mo┼╝na si─Ö zastanawia─ç, co Maxon o tym my┼Ťli, bior─ůc pod uwag─Ö, ┼╝e by┼é to znacz─ůcy partner Intela w SIGGRAPH.

Co tak naprawd─Ö oznacza ÔÇ×rzeczywisto┼Ť─çÔÇŁ?

Opowiadanie si─Ö za rzeczywistymi testami sprz─Ötowymi jest jedn─ů z najmniej kontrowersyjnych opinii, jakie mo┼╝na mie─ç w bran┼╝y komputerowej. Spotka┼éem ludzi, kt├│rzy niekoniecznie dbali o r├│┼╝nic─Ö mi─Ödzy testami syntetycznymi a rzeczywistymi, ale nigdy nie przypominam sobie spotkania z kim┼Ť, kto uwa┼╝a┼é, ┼╝e testy w prawdziwym ┼Ťwiecie s─ů nieistotne. Fakt, ┼╝e prawie wszyscy zgadzaj─ů si─Ö w tej kwestii, nie oznacza, ┼╝e ÔÇőÔÇőwszyscy zgadzaj─ů si─Ö co do tego, gdzie s─ů granice mi─Ödzy ┼Ťwiatem rzeczywistym a syntetycznym wzorcem. Rozwa┼╝ nast─Öpuj─ůce scenariusze:

    Deweloper tworzy test por├│wnawczy, kt├│ry testuje wydajno┼Ť─ç GPU zar├│wno na sprz─Öcie AMD, jak i Nvidii. Mierzy wydajno┼Ť─ç, jak─ů obie rodziny GPU powinny oferowa─ç w CUDA i OpenCL. Por├│wnania pokazuj─ů, ┼╝e jego wyniki do┼Ť─ç dobrze odwzorowuj─ů si─Ö w aplikacjach w terenie. Firma renderuj─ůca 3D tworzy niezale┼╝n─ů wersj─Ö swojej aplikacji, aby por├│wna─ç wydajno┼Ť─ç procesor├│w i / lub procesor├│w graficznych. Autonomiczny test dok┼éadnie rejestruje podstawow─ů wydajno┼Ť─ç (bardzo drogiego) pakietu do renderowania 3D w prostym, ┼éatwym w u┼╝yciu te┼Ťcie. Firma do renderowania 3D tworzy szereg scen testowych do testowania pe┼énego zestawu aplikacji. Ka┼╝da scena koncentruje si─Ö na wyr├│┼╝nieniu okre┼Ťlonej techniki lub technologii. Ich celem jest pokazanie wp┼éywu r├│┼╝nych funkcji na wydajno┼Ť─ç, a nie oferowanie jednego og├│lnego renderowania. Gra zawiera wbudowany test por├│wnawczy. Zamiast replikowa─ç dok┼éadn─ů scen─Ö z gry, programi┼Ťci opracowali wersj─Ö demonstracyjn─ů, kt├│ra testuje ka┼╝dy aspekt wydajno┼Ťci silnika w ci─ůgu kilku minut. Testu mo┼╝na u┼╝y─ç do pomiaru wydajno┼Ťci nowych funkcji w interfejsie API takim jak DX11. Gra zawiera wbudowany test por├│wnawczy. Ten test opiera si─Ö na pojedynczej mapie lub wydarzeniu w grze. Dok┼éadnie mierzy wydajno┼Ť─ç w tej konkretnej mapie lub scenariuszu, ale nie zawiera ┼╝adnych danych na innych mapach lub scenariuszach.

B─Ödziesz mia┼é w┼éasn─ů opini─Ö na temat tego, kt├│ry z tych scenariuszy (je┼Ťli istnieje) stanowi punkt odniesienia w ┼Ťwiecie rzeczywistym, a kt├│ry nie. Pozw├│l, ┼╝e zadam ci inne pytanie – takie, kt├│re wed┼éug mnie jest wa┼╝niejsze ni┼╝ to, czy test jest ÔÇ×rzeczywistyÔÇŁ, czy nie. Kt├│ry z tych hipotetycznych test├│w por├│wnawczych m├│wi co┼Ť u┼╝ytecznego o wydajno┼Ťci testowanego produktu?

Odpowied┼║ brzmi: ÔÇ×Potencjalnie wszystkieÔÇŁ. Kt├│ry test por├│wnawczy, kt├│ry wybra┼éem, jest funkcj─ů pytania, kt├│re zadaj─Ö. Syntetyczny lub samodzielny test, kt├│ry dzia┼éa jako dobry model dla innej aplikacji, wci─ů┼╝ dok┼éadnie modeluje wydajno┼Ť─ç w tej aplikacji. Mo┼╝e to by─ç znacznie lepszy model rzeczywistej wydajno┼Ťci ni┼╝ testy przeprowadzane w aplikacji, kt├│ra zosta┼éa mocno zoptymalizowana pod k─ůtem konkretnej architektury. Mimo ┼╝e wszystkie testy w zoptymalizowanej aplikacji s─ů ÔÇ×rzeczywisteÔÇŁ – odzwierciedlaj─ů rzeczywiste obci─ů┼╝enia i zadania – sama aplikacja mo┼╝e by─ç niereprezentatywn─ů warto┼Ťci─ů odstaj─ůc─ů.

Wszystkie opisane powy┼╝ej scenariusze mog─ů by─ç dobrymi punktami odniesienia, w zale┼╝no┼Ťci od tego, jak dobrze uog├│lniaj─ů si─Ö na inne aplikacje. Generalizacja jest wa┼╝ny w recenzowaniu. Z mojego do┼Ťwiadczenia wynika, ┼╝e ÔÇőÔÇőrecenzenci zazwyczaj pr├│buj─ů zr├│wnowa┼╝y─ç aplikacje, o kt├│rych wiadomo, ┼╝e faworyzuj─ů jedn─ů firm─Ö, z aplikacjami, kt├│re dzia┼éaj─ů dobrze na ka┼╝dym sprz─Öcie. Cz─Östo, je┼Ťli funkcja specyficzna dla dostawcy jest w┼é─ůczona w jednym zestawie danych, recenzje zawieraj─ů drugi zestaw danych z t─ů sam─ů funkcj─ů wy┼é─ůczon─ů, aby zapewni─ç bardziej neutralne por├│wnanie. Uruchomienie flag specyficznych dla dostawcy mo┼╝e czasem zaszkodzi─ç zdolno┼Ťci testu do m├│wienia do szerszej publiczno┼Ťci.

Intel proponuje alternatywne podej┼Ťcie

Do tej pory m├│wili┼Ťmy ┼Ťci┼Ťle o tym, czy test jest realny w ┼Ťwietle tego, czy wyniki uog├│lniaj─ů si─Ö na inne aplikacje. Istnieje jednak inny spos├│b uj─Öcia tematu. Intel przeprowadzi┼é ankiet─Ö w┼Ťr├│d u┼╝ytkownik├│w, aby sprawdzi─ç, z kt├│rych aplikacji faktycznie korzystali, a nast─Öpnie przedstawi┼é nam te dane. To wygl─ůda tak:

Firma Intel jest nagle bardzo zaniepokojona testami por├│wnawczymi w ÔÇ×┼Ťwiecie rzeczywistymÔÇŁ 3

Oznacza to, ┼╝e testuj─ůc najpopularniejsze aplikacje instalowane na sprz─Öcie ludzkim, mo┼╝emy uchwyci─ç lepszy, bardziej reprezentatywny przypadek u┼╝ycia. To czuje si─Ö intuicyjnie prawda – ale rzeczywisto┼Ť─ç jest bardziej skomplikowana.

To, ┼╝e aplikacja jest cz─Östo u┼╝ywana, nie czyni jej obiektywnie dobrym punktem odniesienia. Niekt├│re aplikacje nie s─ů szczeg├│lnie wymagaj─ůce. Chocia┼╝ istniej─ů absolutnie scenariusze, w kt├│rych pomiar wydajno┼Ťci Chrome mo┼╝e by─ç wa┼╝ny, np. Miejsce na notebooki z ni┼╝szej p├│┼éki, dobre recenzje tych produkt├│w ju┼╝ obejmuj─ů tego rodzaju testy. W kontek┼Ťcie entuzjast├│w wysokiej klasy Chrome raczej nie b─Ödzie podatn─ů aplikacj─ů. Czy istniej─ů scenariusze testowe, kt├│re mog─ů opodatkowa─ç? Tak. Ale te scenariusze nie odzwierciedlaj─ů sposobu, w jaki aplikacja jest najcz─Ö┼Ťciej u┼╝ywana.

Rzeczywiste wra┼╝enia z u┼╝ywania Chrome na Ryzen 7 3800XSEEAMAZON_ET_135 Zobacz Amazon ET commerce jest identyczny z u┼╝yciem go na Core i9-9900K.SEEAMAZON_ET_135 Zobacz Amazon ET commerce Nawet gdyby tak nie by┼éo, Google utrudnia utrzymanie poprzedniej wersji Chrome dost─Öpnej do dalszego testowania A / B. Wiele os├│b korzysta z rozszerze┼ä i bloker├│w reklam, kt├│re maj─ů sw├│j wp┼éyw na wydajno┼Ť─ç. Czy to oznacza, ┼╝e ÔÇőÔÇőrecenzenci nie powinni testowa─ç Chrome? Oczywi┼Ťcie, ┼╝e nie. W┼éa┼Ťnie dlatego wiele recenzji laptop├│w jest absolutnie zrobi─ç przetestuj Chrome, szczeg├│lnie w kontek┼Ťcie ┼╝ywotno┼Ťci baterii opartej na przegl─ůdarce, gdzie Chrome, Firefox i Edge maj─ů r├│┼╝ne wyniki. Dopasuj punkt odniesienia do sytuacji.

By┼é czas, kiedy sp─Ödzi┼éem znacznie wi─Öcej czasu na testowaniu wielu aplikacji z tej listy ni┼╝ teraz. Kiedy zaczyna┼éem karier─Ö, wi─Ökszo┼Ť─ç pakiet├│w testowych koncentrowa┼éa si─Ö na aplikacjach biurowych i podstawowych testach grafiki 2D. Pami─Ötam, ┼╝e zamiana czyjej┼Ť karty graficznej mo┼╝e znacz─ůco poprawi─ç jako┼Ť─ç obrazu 2D i WindowsReaktywno┼Ť─ç interfejsu u┼╝ytkownika, nawet bez aktualizacji monitora. Kiedy pisa┼éem dla Ars Technica, pisa┼éem por├│wnania u┼╝ycia procesora podczas dekodowania tre┼Ťci HD, poniewa┼╝ w tym czasie istnia┼éy znacz─ůce r├│┼╝nice. Je┼Ťli przypomnisz sobie, jak debiutowa┼éy netbooki Atom, wiele recenzji koncentrowa┼éo si─Ö na takich kwestiach, jak responsywno┼Ť─ç interfejsu u┼╝ytkownika z rozwi─ůzaniem GPU Nvidia Ion i por├│wnywa┼éo je ze zintegrowan─ů grafik─ů Intela. Czemu? Poniewa┼╝ Ion zrobi┼é zauwa┼╝aln─ů r├│┼╝nic─Ö w og├│lnej wydajno┼Ťci interfejsu u┼╝ytkownika. Recenzenci nie ignoruj─ů tych problem├│w. Publikacje zwykle do nich wracaj─ů, gdy istnieje znacz─ůce zr├│┼╝nicowanie.

Nie wybieram test├│w por├│wnawczych tylko dlatego, ┼╝e aplikacja jest popularna, cho─ç popularno┼Ť─ç mo┼╝e wzi─ů─ç pod uwag─Ö ostateczn─ů decyzj─Ö. Celem og├│lnej oceny jest wybranie test├│w, kt├│re b─Öd─ů si─Ö dobrze uog├│lnia─ç na inne aplikacje. Fakt, ┼╝e dana osoba ma zainstalowan─ů Steam lub Battle.net, nic mi nie m├│wi. Czy ta osoba gra w Overwatch lub WoW Classic? Czy graj─ů w Minecraft czy No Man's Sky? Czy wybieraj─ů MMORPG lub gry typu FPS, czy po prostu utkn─Ö┼éy w martwym punkcie w Goat Simulator 2017? Czy w og├│le graj─ů w jakie┼Ť gry? Nie mog─Ö wiedzie─ç bez wi─Öcej danych.

Aplikacje z tej listy, kt├│re pokazuj─ů znacz─ůce r├│┼╝nice w wydajno┼Ťci w typowych zadaniach, s─ů zwykle ju┼╝ testowane. Publikacje takie jak Puget Systems regularnie publikuj─ů por├│wnania wydajno┼Ťci w pakiecie Adobe. W niekt├│rych przypadkach powodem, dla kt├│rego aplikacje nie s─ů testowane cz─Ö┼Ťciej, jest to, ┼╝e od dawna istniej─ů obawy dotycz─ůce niezawodno┼Ťci i dok┼éadno┼Ťci pakietu test├│w, kt├│ry najcz─Ö┼Ťciej je obejmuje.

Zawsze interesuj─ů mnie lepsze metody pomiaru wydajno┼Ťci komputera. Intel absolutnie ma do odegrania rol─Ö w tym procesie – firma by┼éa wielokrotnie pomocna, gdy chodzi o znalezienie sposob├│w wyr├│┼╝nienia nowych funkcji lub rozwi─ůzania problem├│w. Ale jedynym sposobem na znalezienie znacz─ůcych r├│┼╝nic w sprz─Öcie jest znalezienie znacz─ůcych r├│┼╝nic w testy. Ponownie, og├│lnie rzecz bior─ůc, recenzenci sprawdzaj─ů laptopy pod k─ůtem luk w ┼╝ywotno┼Ťci baterii i zu┼╝ycia energii, a tak┼╝e wydajno┼Ťci. W procesorach graficznych szukamy r├│┼╝nic w czasie wy┼Ťwietlania klatek i liczbie klatek na sekund─Ö. Poniewa┼╝ nikt z nas nie jest w stanie uruchomi─ç ka┼╝dego obci─ů┼╝enia, szukamy aplikacji o generalnych wynikach. W ET prowadz─Ö wiele aplikacji do renderowania, aby upewni─ç si─Ö, ┼╝e nie faworyzujemy ┼╝adnego pojedynczego dostawcy ani rozwi─ůzania. Dlatego testuj─Ö Cinebench, Blender, Maxwell Render, i Renderowanie Corona. Je┼Ťli chodzi o kodowanie multimedi├│w, Handbrake to praktycznie rozwi─ůzanie dla ka┼╝dego – ale sprawdzamy zar├│wno H.264, jak i H.265, aby upewni─ç si─Ö, ┼╝e przechwytujemy wiele scenariuszy testowych. Kiedy testy okazuj─ů si─Ö niedok┼éadne lub niewystarczaj─ůce do przechwycenia potrzebnych mi danych, u┼╝ywam r├│┼╝nych test├│w.

Fałszywa dychotomia

Powszechnie dyskutowana r├│┼╝nica mi─Ödzy wzorcami ÔÇ×syntetycznymiÔÇŁ i ÔÇ×rzeczywistymiÔÇŁ polega na z┼éym uj─Öciu problemu. W ko┼äcu wa┼╝ne jest to, czy dane z testu por├│wnawczego przedstawione przez recenzenta ┼é─ůcznie zapewniaj─ů dok┼éadny obraz oczekiwanej wydajno┼Ťci urz─ůdzenia. Jak podaje Rob Williams w Techgage, Intel bardzo ch─Ötnie wykorzystuje Cinebench Maxona jako punkt odniesienia w czasach, gdy jego w┼éasne rdzenie procesora dominowa┼éy. W ostatnim po┼Ťcie na Medium, Ryan Shrout Intela napisa┼é:

Dzisiaj w IFA zorganizowali┼Ťmy wydarzenie z udzia┼éem przedstawicieli medi├│w i spo┼éeczno┼Ťci analityk├│w na temat, kt├│ry jest bardzo bliski i bliski naszemu sercu – Real World Performance. Organizujemy te wydarzenia od kilku miesi─Öcy, zaczynaj─ůc od Computex, a nast─Öpnie od E3, i wiele si─Ö nauczyli┼Ťmy po drodze. Proces ten wzmocni┼é nasz─ů opini─Ö na temat syntetycznych test├│w por├│wnawczych: zapewniaj─ů one warto┼Ť─ç, je┼Ťli chcesz szybko i w─ůsko spojrze─ç na wydajno┼Ť─ç. Nadal korzystamy z nich wewn─Ötrznie i wiemy, ┼╝e wielu z nich r├│wnie┼╝, ale w rzeczywisto┼Ťci s─ů oni coraz bardziej niedok┼éadni w ocenie rzeczywistej wydajno┼Ťci dla u┼╝ytkownika, niezale┼╝nie od danego segmentu produktu.

Brzmi okropnie. Kontynuuje to z tym slajdem:

Firma Intel jest nagle bardzo zaniepokojona testami por├│wnawczymi w ÔÇ×┼Ťwiecie rzeczywistymÔÇŁ 4

Aby wykaza─ç, ┼╝e testy syntetyczne s─ů gorsze, Intel pokazuje 14 osobnych wynik├│w, z kt├│rych 10 pochodzi z 3DMark i PCMark. Obie te aplikacje s─ů og├│lnie uwa┼╝ane za aplikacje syntetyczne. Kiedy firma prezentuje dane na temat swojej w┼éasnej wydajno┼Ťci w por├│wnaniu do ARM, ponownie wykonuje t─Ö sam─ů sztuczk─Ö:

Firma Intel jest nagle bardzo zaniepokojona testami por├│wnawczymi w ÔÇ×┼Ťwiecie rzeczywistymÔÇŁ 5

Dlaczego Intel powo┼éuje si─Ö na syntetyczne aplikacje w tym samym po┼Ťcie na blogu, w kt├│rym okre┼Ťla je jako z┼éy wyb├│r w por├│wnaniu z rzekomo lepszymi testami w ÔÇ×prawdziwym ┼ŤwiecieÔÇŁ? By─ç mo┼╝e dzieje si─Ö tak dlatego, ┼╝e Intel dokonuje wybor├│w por├│wnawczych tak, jak robi─ů to nasi recenzenci – z my┼Ťl─ů o reprezentatywnych i odtwarzalnych wynikach, stosuj─ůc przyst─Öpne testy, z dobrymi zestawami funkcji, kt├│re nie powoduj─ů awarii lub awarii z nieznanych przyczyn po instalacji. By─ç mo┼╝e Intel ma r├│wnie┼╝ problemy z nad─ů┼╝aniem za zalewem oprogramowania wydawanego na bie┼╝─ůco i wybiera testy, aby przedstawi─ç swoje produkty, od kt├│rych mo┼╝e polega─ç. Mo┼╝e chce nadal opracowywa─ç w┼éasne syntetyczne testy por├│wnawcze, takie jak WebXPRT, nie rzucaj─ůc ca┼éego wysi┼éku pod magistral─Ö, nawet je┼Ťli jednocze┼Ťnie pr├│buje sugerowa─ç, ┼╝e testy por├│wnawcze, na kt├│rych opiera si─Ö AMD, s─ů niedok┼éadne.

A mo┼╝e dlatego, ┼╝e ca┼éa kadrowanie w ┼Ťwiecie syntetycznym kontra ┼Ťwiat rzeczywisty jest z┼ée.

Aktualizacja (9.5.2019): Jednej rzeczy, o kt├│rej nie wspomnia┼éem, to fakt, ┼╝e zestaw danych najcz─Ö┼Ťciej u┼╝ywanych aplikacji Intela pochodzi wy┼é─ůcznie z notebook├│w i urz─ůdze┼ä 2 w 1. Ujawnia to na slajdzie powy┼╝ej. Nie zrobiliby┼Ťmy tego oczekiwa─ç tw├│rcy tre┼Ťci pracuj─ůcy w aplikacjach 3D, takich jak Blender, Cinebench lub podobnych aplikacjach klasy stacji roboczej, u┼╝ywaj─ů urz─ůdze┼ä 2 w 1. Implikacje, ┼╝e te aplikacje s─ů mniej wa┼╝ne z powodu niskiej bazy instalacyjnej, podwa┼╝a fakt, ┼╝e konfiguracje sprz─Ötowe mierzone przez Intela nie s─ů reprezentatywne dla system├│w, w kt├│rych spodziewamy si─Ö, ┼╝e te aplikacje b─Öd─ů u┼╝ywane.

Teraz przeczytaj: