Nehalem-EX vs. AMD 12-Core-Opteron 6100

Intel Xeon X7560 - Neue 8-Core-CPU im Test

Multitask Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Opteron-6174-CPUs 24 Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 (Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen auch hier 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie. Das Xeon-X7560-System mit den zwei 8-Core-CPUs verlangt durch das zusätzliche Hyper-Threading nach 32 Kopien.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen profitiert das Xeon-X7560-Päärchen deutlich von der der zusätzlichen Bandbreite der FlexMem-Technologie. Steht den 8-Core-Xeons nur der eigene Speicher zur Verfügung, bricht die Performance um 31 Prozent ein. Der Speicherdurchsatz ist trotz der vielen Kanäle durch Latenzzeiten der SMBs beschränkt. Stark präsentiert sich das Opteron-6174-Duett. Die AMD-CPUs gewinnen deutlich von ihrer hohen Speicherbandbreite mit vier DDR3-1333-Channels pro CPU. Einen deutlichen Geschwindigkeitsprung machen die zwei Xeon X7650 im Vergleich zu den Vorgängern, die selbst in der 4-Sockel-Konfiguration deutlich langsamer sind.
SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen profitiert das Xeon-X7560-Päärchen deutlich von der der zusätzlichen Bandbreite der FlexMem-Technologie. Steht den 8-Core-Xeons nur der eigene Speicher zur Verfügung, bricht die Performance um 31 Prozent ein. Der Speicherdurchsatz ist trotz der vielen Kanäle durch Latenzzeiten der SMBs beschränkt. Stark präsentiert sich das Opteron-6174-Duett. Die AMD-CPUs gewinnen deutlich von ihrer hohen Speicherbandbreite mit vier DDR3-1333-Channels pro CPU. Einen deutlichen Geschwindigkeitsprung machen die zwei Xeon X7650 im Vergleich zu den Vorgängern, die selbst in der 4-Sockel-Konfiguration deutlich langsamer sind.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon L5520, X5570, X5670, X5680 und X7560 für eine optimale Vergleichbarkeit mit dem Opteron 2435 und 6174 ebenfalls mit -QxO:

SPECfp_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

Xeon X7560 FlexMem

213

207

Xeon X5570

160

154

Xeon X5670

207

171

Xeon X5680

219

176

Opteron 2435

--

108

Opteron 6174

--

196

Die Xeon-5600-Prozessoren (32-nm-Westmere-Architektur) verlieren durch die Einstellung –QxO mit zirka 17 bis 20 Prozent massiv Performance, wenn maximal SSE3 unterstützt wird. Beim Xeon X7560 und den Xeon-5500-Modellen (alle 45-nm-Nehalem-Architektur) beträgt der Einbruch nur drei bis vier Prozent.