A la sortie de chaque nouveau Mac (ou iPhone), c’est la même chose : tout le monde sort le seul benchmark disponible pour les plateformes Apple et compare les « performances » des appareils avec les autres. Et utiliser Geekbench est une mauvaise idée.
Je laisse la page en ligne parce qu’elle a été pas mal lie et liée, mais les remarques concernent essentiellement les vieilles versions de GeekBench. Sur les versions récentes (5.x en 2020), une partie des problèmes est réglé. Ça ne devrait pas empêcher d’essayer de valider les tests théoriques avec des essais pratiques, mais au moins le test est globalement efficace et fiable.
Geekbench n’est pas un test très intéressant ni très représentatif pour plusieurs raisons.
La première, c’est que c’est un test purement CPU, avec des limites sur ce qu’il teste. En gros, il va mesurer les possibilités de calcul du processeur, et c’est à peu près tout. C’est critiquable, parce qu’un ordinateur dépend de son CPU pour certaines tâches, mais aussi de son GPU et de son périphérique de stockage. Le résultat classique annoncé est la performance sur un coeur et la performance sur tous les coeurs, ce qui n’est pas très représentatif : un processeur avec beaucoup de coeurs va avoir un score énorme même si dans l’absolu il n’ira pas plus vite pour ce que fait le grand public vu qu’on dépend essentiellement des performances sur un ou deux coeurs dans un usage grand public.
La seconde, c’est que Geekbench n’est pas fiable dans l’absolu : les résultats varient énormément d’une machine à une autre et même parfois sur la même machine. D’abord parce que c’est un test CPU assez court (environ 1 minute sur ma machine avec Geekbench 2, 2 minutes avec Geekbench 3) et donc qu’un truc qui consomme du temps CPU de façon ponctuelle peut fausser le résultat, comme une pub, une sauvegarde Time Machine ou un accès réseau un peu lourd. Ensuite parce que les CPU Intel ont depuis quelques années un mode « Turbo » qui va jouer sur la fréquence du processeur en fonction de la charge et de la consommation et que le fonctionnement même du truc est rarement compris. Typiquement, les portables ont un mode qui permet d’augmenter la limite de TDP (la consommation en simplifiant) pendant au moins 30 secondes par exemple, et comme le test est cours le résultat peut être artificiellement trop élevé. Le Turbo varie aussi en fonction de l’usage du GPU sur les puces Intel, donc si un soft en arrière plan force sur la carte graphique même sans tourner (un onglet ouvert sur du WebGL est parfait pour ça), la fréquence de l’IGP augmente et le processeur ne peut pas atteindre sa fréquence maximale. Le Turbo est assez pernicieux avec un test court : si on n’effectue qu’un test, il risque d’être faussé par l’augmentation artificielle du TDP dans certains cas, mais si on fait plusieurs tests avec une moyenne, les résultats sont faussés parce que la température peut augmenter un peu trop et limiter le Turbo sur les derniers tests.
Point intéressant, les comparaisons sont parfois faites avec une certaines mauvaise foi ou en tout cas sans le recul nécessaire, deux exemples m’ont fait tiquer récemment.
Le premier explique que l’iMac Retina est plus rapide que le Mac Pro sur les performances sur un seul coeur en prenant en compte Geekbench. En fait, c’est idiot de s’extasier devant ce résultat, vu qu’il est attendu. Le Mac Pro n’est pas fait pour les performances sur un seul coeur (de fait, mieux vaut acheter un iMac) mais surtout c’est normal : le Mac Pro utilise un CPU de la génération précédente avec une fréquence plus faible. Pas besoin de prendre un test pour dire ça, en fait. Et je peux même vous dire qu’un Mac Pro en Haswell-E va avoir un meilleur score, je suis un devin.
Le second compare la dernière tablette de Google avec un Mac Pro 2012 et montre un résultat sur un seul coeur proche. C’est extrêmement fallacieux comme comparaison, pour pleins de raisons. La première, c’est que le Mac Pro 2012 a un CPU de début 2010 et que personne ne le précise, ce qui est pourtant important. La seconde, c’est que comparer les résultats Geekbench entre différents OS et différentes architectures (Android/ARM vs. OS X/Intel) est une mauvaise idée, parce qu’on ne connaît pas les détails exactes des tests et qu’il est très simple de trouver un test qui met en avant une architecture précise sur un point même si le reste est nul (nVidia est spécialiste de la chose).
Enfin, Geekbench a le défaut d’être très utilisé, ce qui incite certains constructeurs à tricher. Je vais être honnête, c’est essentiellement sous Android, mais il est assez facile de jouer sur la fréquence du processeur pour augmenter artificiellement le score.
Globalement (spoiler, c’est quand même en partie mon boulot), tester avec des trucs totalement théoriques et courts comme Geekbench ne donne ni des résultats fiables ni des résultats représentatifs. En fait, vu les problèmes que je montre (et on peut en trouver d’autres), ça ne sert strictement à rien.
Exemple simple avec les tests d’une machine, la mienne. Sur le navigateur de résultats, le MacBook Air 11 pouces 2012 en version Core i7 a un score « single core » qui varie de 2250 à 2976 en version 64 bits et de 574 à 2682 en version 32 bits. Pour la même machine. Sur le même test. En multi core, on passe de 4480 à 6087 et de 1201 à 5481.
Bon, mon problème c’est qu’il n’existe pas beaucoup de benchmarks pour Mac OS X et encore moins de benchs qui font des tests représentatifs de la réalité et qui permettent de vraiment comparer les machines. Mais utiliser Geekbench n’est pas pour autant une bonne idée, et accepter des résultats sans recul encore moins.
Pour un exemple précis, un Mac mini 2014 avec la configuration de base (fréquence de base basse mais fréquence maximale assez élevée) et un SSD (ou un Fusion Drive) sera bien plus efficace qu’un modèle 2012 d’occasion au même prix. Et un modèle 2014 haut de gamme avec une fréquence maximale très élevée et seulement deux coeurs sera plus efficace qu’un modèle 2012 avec quatre coeurs dans la grande majorité des usages classiques.
Je suis pas tout à fait d’accord avec toi, enfin oui il faut comprendre que le test est juste sur la partie CPU. Ce qui pense que ça comprend le sud, GPU.. bah ils ont rien compris…
Les tests ne varie pas tant que ça et la plus part des tests sont executer alors que presque aucuns autre programme ne tourne, même si il y a des gens qui font des tests avec toute leurs applications ouverte.. Mais pour comparer les CPU c’est quand même une façons très simple de s’y retrouver..
On voit bien par exemple que les Mac Mini 2012 on un meilleur CPU (du au 4coeurs) que ceux de 2014. Pour ceux qui recherche juste de la puissance de calcul c’est une façon très simple de s’y retrouver.. Après oui il y a des tests faussés, mais sur Mac je n’ai pas vu..
Le CPU plus puissant sur le Mac mini, c’est justement une interprétation qui peut prêter à caution : sur du calcul pur avec un test court et sur un truc qui gère bien le multicore, c’est le cas. Dans la vraie vie, les trucs qui font du multicore proprement sont généralement des trucs qui calculent longtemps et donc font pêter la limite du Turbo. Sur pleins d’usages, le dual core avec gros Turbo sera plus rapide et descendra moins si le GPU est utilisé.
Et sur les tests faussés, j’ai pas d’exemple sur Mac, mais ça veut pas dire que ça existe pas, si les pilotes sont prévus pour optimiser les rares benchs vidéo, on peut pas vraiment le voir.
Après, si c’est utilisé avec d’autres benchs et des vraies mesures, pourquoi pas, mais voir des « la machine est la plus rapide avec GeekBench », voila quoi…
perso, je reste sur cpubenchmark mais je n’oublie pas pour autant l’opencl dont une bonne démo sur une video de Julien Pons était top dans photoshop
J’utilise mon Mac Mini pour un serveur, donc je recherche juste la puissance de calcul. Donc pour moi juste la puissance du CPU m’importe (et la RAM). Mais sinon oui je suis d’accord dans la vrai vie ces tests ne test pas le SSD…
Ce que je trouve pratique avec Geekbench c’est qu’il y a beaucoup de monde et que leurs site permet de comparer facilement quelle machine à le meilleur CPU pour une utilisation serveur, même si on peut le deviner en regardant juste le nombre de Ghz qu’a le processeur, mais c’est pas vraiment parlant. Car il y a beaucoup de CPU différents avec tant de Mo de cache……
Par exemple, j’attendais les Mac Mini 2014 pour me racheter un nouveau Mac Mini (J’ai un 2011 avec 2,3Ghz en dual core). Mais du coup on peut remarquer que le Mini 2014 1,4Ghz à un score de 4753 et que le Mini 2011 2,3Ghz à un score de 4404.
Du au turbo boost sur les deux coeurs, du coup le Mac Mini 2014 à 500€ est en réalité à 2,4Ghz en turbo boost avec deux coeurs, mais pour voir ça il faut aller voir les spécifications du processeurs en question.
Donc je trouve que justement c’est une manière de savoir ce que le CPU vaut vraiment sans rechercher tout le temps la référence du CPU pour savoir ce qu’il vaut en réalité. Puis Geekbench done la référence du CPU en plus, donc il y a toujours moyen de vérifier, car je crois pas que sur OS X on puisse trouver la référence du CPU sans installer un logiciel à part pour la récupérer..
Pour un véritable test il faudrait un logiciel qui regroupe les tests du SSD, du CPU, du GPU..
NovaBench fais le CPU et GPU, mais pas le SSD. Là on aurait un véritable test de la « puissance » de l’ordi ! ^^
Mais c’est vrai que pas mal de site comparer avec des tests Geekbench ce qui est un peu débile c’est vrai.. /:
Car pour les utilisateurs lambda ils comprennent pas et pense que leurs ordi va être hyper rapide mais si il a un dd en 5400 tr/min ça risque d’être lent q:
Enfin bref c’est pas de la faute de Geekbench si ils sont partout maintenant, c’est plutôt les sites de news qui devrait prendre les résultats différemment car dire que l’iMac Retina est plus puissant que le Mac Pro c’est débile q:
Ben le problème, c’est qu’on n’a pas un truc genre PCMark (même si c’est critiquable aussi) et que y a vraiment pas beaucoup de benchs sous OS X.
Y a le même problème sous Android avec AnTuTu, absolument pas adapté.fiable mais très utilisé… parce que très utilisé.
Après, on peut faire dire ce qu’on veut : sur certains trucs, l’iMac Retina *est* plus rapide que le Mac Pro, mais en général c’est pas les choses pour lesquelles on achète un Mac Pro, donc c’est pas grave.
Merci pour cet article qui explique plutôt bien les différents problèmes du benchmark de manière générale. En fait le plus simple c’est encore de comparer en situation de sa propre utilisation, avec ses propres outils et dans ses conditions habituelles. Plus simplement, il faudrait des tests génériques et admettre que ces tests ne sont pas forcément représentatifs de la puissance brute mais de l’ensemble qui constitue la machine, optimisations logicielles comprises.
Oui et Non,
Non : C’est pas fiable, exemple j’ai un Mac Pro de 2008 avec un score de 9000 (au boulot) et j’ai chez moi un mac mini serveur (i7 2635qm) avec un score de 9000 chez moi (sur geekbench) et je peut dire que mon mini est à la ramasse vis à vis du mac pro (8 coeur 3 Ghz) sur pas mal de boulot (photoshop et Final Cut pro X) les deux ayant un SSD pour le système (sata II pour le mac pro et sata III pour le mac mini).
Oui : c’est une bonne façon de voir les évolutions des nouveautés Apple mais je pense qu’il faut rester sur des machine comparable !!! si on reste sur des comparaison entre deux imac, deux mac mini, deux mac pro … on a une bonne estimation.
Et puis il faut bineuse parler de l’OS utilisé, mon mac mini avec la beta 2 de 10.10 me donnais 6000 contre 8600 avec la version final !!!! Et puis la mémoire (quantité et bande passante) on une importance sur ce genre de test.
ta diff, Vince, est surement dû justement à l’openCL. tu n’as pas les mêmes cartes graphiques et photoshop ou finalcut en profitent
8800 gt sur le mac pro, non ?
Yes, pour sur que le GPU sur les appli pro joue, mais le mac pro de 6 ans reste plus rapide sur des traitements par lot (compression / décompression ), dans la navigation aussi (dans de gros dossiers photos – même si c’est plus subjectif).
A l’heure qu’il est j’ai une ATI Radeon HD 5770 car la HD 2600 XT à rendu l’âme … et ça à mit un bon coup de fouet pour photoshop en FinalCutPro X.
Pour finir, j’ai un iMac 27″ i7 3.4 (fusion drive 3To et 16 Go de ram et qui affiche 13000 dans geekbench) comme deuxième poste au taf et pour travailler des image 16 bit de 3-4 Go les deux (mac pro et iMac) sont très proche (l’imac a pourtant un gros GPU GeForce GTX 680MX 2Go vram) voir mieux pour le mac pro …
C’est la que je rejoint Pierre car le mac mini 2011 et le mac pro 2008 qui on un score – geekbench – proche ne vale pourtant pas … pareil entre le mac pro et liMac 2012 (version gonflé a bloc).
pour conclure je dirais que chaque gamme chez apple est pour une utilisation précise et qu’il ne faut pas mélanger les torchons et les serviettes
et surtout n’acheter pas un imac à 3500 euros pour faire de la vidéo ou de la photo quand pour ce prix vous avez un mac pro (oui l’écran est en plus … mais je bosse encore avec un 30 pouces et un 20 pouces Cinéma Display acheter en 2004 …)
De toutes façons, le seul test crédible qui soit reste l’expérience réelle. Rien de mieux pour ça que les connaissances disposant du dernier jouet, les expositions et les présentations en magasin.
En soi, il est déjà relativement con de comparer différentes machines sur un score lorsqu’elles ont des C.P.U. d’architectures différentes. Même remarque pour les comparaisons entre machines de bureau et machines portables, de même architecture ou non. Sans parler du fait que les G.P.U. soient rarement comparés et que même s’ils l’étaient, comparer une machine avec du A.T.I. et une machine avec du nVidia reste toujours aussi con.
Un Mac Pro de 2008 et un Mac mini de 2012, tous deux de configurations maximales, auront des scores Geekbench identiques. En revanche, les performances dans la vie réelles se traduiront pas un Mac Pro de 2008 éclatant littéralement un Mac mini de 2012.
Ce post est ancien, mais tant pis… Il y a du vrai dedans, mais aussi des idées fausses :
« La seconde, c’est que Geekbench n’est pas fiable dans l’absolu : les résultats varient énormément d’une machine à une autre et même parfois sur la même machine. »
–> Ca c’est parfaitement faux. Bien évidemment il faut faire tourner Geekbench en fermant toutes les autres applis et en désactivant les services susceptibles de fausser le bench, mais cela va sans dire.
« comparer les résultats Geekbench entre différents OS et différentes architectures (Android/ARM vs. OS X/Intel) est une mauvaise idée, parce qu’on ne connaît pas les détails exactes des tests »
–> Il n’y a aucun problème à comparer les résutats entre OS et architectures différentes, car à la fin ce qui compte c’est bien la performance pour réaliser un calcul, pas de savoir si c’est obtenu avec un x86 ou un ARM.
« Globalement (spoiler, c’est quand même en partie mon boulot), tester avec des trucs totalement théoriques et courts comme Geekbench ne donne ni des résultats fiables ni des résultats représentatifs. »
Les calculs faits par Geekbench ne sont pas « théoriques » : pendant l’exécution on voit défiler les noms des tests effectués (AES, LZMA, JPEG, LLVM, PDF rendering…), qui sont parlants. Ces tests couvrent des domaines assez variés et correspondent à des tâches réelles quand on sollicite les capacités de calcul d’une machine. Au contraire, je dirais que Geekbench est assez représentatif des usages réels. Après on est d’accord il teste le CPU (y compris les accès mémoire, quand même) et rien d’autre.
Pour les valeurs qui varient, ce n’est pas faux. C’est bien le problème : même sur un système propre, les résultats varient parce que les tests sont trop courts.
Pour les comparaisons, c’est plus compliqué que ça parce que *justement* c’est important de savoir si c’est obtenu avec un ARM ou un x86 (et quel puce). l’exemple type, c’est les traitements AES dont tu parles. Ils interviennent dans le score final et ils peuvent varier significativement en fonction de la puce et de la présence (ou l’absence) de l’accélération hardware. Et c’est important de savoir qu’un ARM qui est globalement moins rapide pour la majorité des calculs qu’un Pentium (par exemple) peut avoir un score plus élevé parce qu’il gère l’AES matériellement et pas le Pentium. Ca fausse en partie les résultats parce qu’un CPU qui effectue les calculs AES (très) rapidement a pas nécessairement de bonnes performances sur le reste.
Et en pratique, c’est représentatif pour les usages CPU avec de grosses pincettes pour certains trucs, mais une bonne partie des gens (des lecteurs) va considérer que c’est représentatif des performances de la machine. Et ça l’est malheureusement pas.
Ca a un peu changé depuis 2014, mais ça reste perfectible, ne serait-ce que parce que les tests sont trop courts pour prendre en compte correctement le mode Turbo de pas mal de puces. Donc même pour du CPU, ça a des défauts mais le mérite d’exister.
Clair, net et instructif !!!
Merci beaucoup !!