Mit Sequoia in neue Regionen - Update 2

IBM hat den Auftrag einen neuen Supercomputer für das Lawrence Livermore National Laboratory zu bauen. Ziel sind 20 Petaflops, wesentlich mehr als alles was im Moment so rechnet.

Erste Einblicke gibt eine Meldung bei onkel heinz.

Nicht nur die 20 Petaflops sind bemerkenswert, auch die Tatsache das IBM diese mit 1,6 Millionen PowerPC Prozessoren erreichen will. Da spielt die Skalierung dann auch weit hinter den Komma eine Rolle. Auch die Packungsdichte wird bei Sequoia drastisch erhöht. Braucht die bisherige Blue-Gene/P Installationen für 1,05 Millionen Kerne noch 256 Racks, soll Sequoia mit nur 96 Racks aus kommen.

Die anvisierte Leistung und die Packungsdichte läßt auf einen neuen PowerPC Multi-Core schließen, der bei Sequoia zum Einsatz kommen wird. Vielleicht gibt es ja bei der ISSCC mehr darüber? Zumindest bei Supercomputern scheint IBM den PowerPC noch nicht abgeschrieben zu haben.

Update
Bei The Register spekuliert man ebenfalls über den neuen Power-Chip der in Sequoia auftauchen wird. Letztendlich ist es nicht ausgeschlossen das IBM einen 64-bit Power Chip verbaut, oder gar ein Cell-Derivate. Am wahrscheinlichsten jedoch ist wohl, das IBM den PowerPC 450 auf eine neue Fertigungstechnologie (45nm) gebracht hat, entsprechend angepaßt, und nun die Ernte einfährt. Mehr Takt und Leistung bei geringerer Stromaufnahme.

Update 2
Die deutsche Pressemeldung von IBM (siehe IBM baut für US Department of Energy neue Supercomputer) spricht von 1,6 Milionen Prozessoren, womit es bei Dual-Core PowerPC Prozessoren doppelt, bei Quad-Core-Prozessoren gar vier mal soviel Kerne zur Leistung bereit stehen.

Zudem ist in der deutschen Pressemeldung nicht von Atomwaffen die Rede, sondern von Wettervorhersagen und Erdbebensimulationen. Wobei anzumerken bleibt, das dies bei der Simulation einer größeren Atombome eh dazu gehört.

Auch in der US-Pressemitteilung steht die Zahl von 1,6 Millionen PowerPC Prozessoren (siehe 20 Petaflop Sequoia Supercomputer). Dort wird als erster Punkt die Sicherheit der US-Atomwaffen als Aufgabe für Sequoia genannt. Wenn noch Zeit ist darf der BlueGene auch noch etwas anderes lösen, IBM nennt in der US-Ausgabe die Bereiche Astronomie, Energie, das menschliche Genom und die Klimaveränderung.

Comments

Comment viewing options

Select your preferred way to display the comments and click "Save settings" to activate your changes.

Welcher Prozessor?

Rein rechnerisch zeigt sich, dass der verwendete Prozessor wohl kaum der PowerPC 440/450 MHz des BlueGene sein wird. Bei einer anvisierten Leistung von 20,13 Petaflops aus 1,6 Mio Prozessoren hätte der einzelne Prozessor die viereinhalbfaache Leistung eines 440-Kerns im BlueGene/L bzw. die dreieinhalbfache Leistung eines 450-Kerns im BlueGene/P.
Wenn also PowerPC 450-Prozessoren eingesetzt werden, dann müsste die Taktfrtequenz von 700 MHz bzw. 850 MHz auf etwa 3,15 GHz angehoben worden sein.
Daher tippe ich auf einen neuen Prozessor. (Von den Werten her könnte es ein PWRficient mit 1,7 GHz sein;-))

-----

Zum nachrechnen:

BlueGene/L: 596380 Mflops / 212992 Prozessoren = 2,8 Mflops/Prozessor
BlueGene/P: 557056 Mflops / 163840 Prozessoren = 3,4 Mflops/Prozessor
Sequoia (anvisiert): 20130000 Mflops / 1600000 Prozessoren = 12,6 Mflops/Prozessor

Sequoia vs. BlueGene/L: 12,6 / 2,8 = 4,5 x
Sequoia vs. BlueGene/P: 12,6 / 3,4 = 3,7 x

Stimmt nicht ganz

Hallo,

0. Ich nehmen an, du beziehst dich auf die BlueGene-Systeme auf den Plätzen 4 und 5 der top500

1. Ersettze MFlops durch GFlops, dann kommt es eher hin.

2. Du arbeitest mit Rpeak. Das ist aber "nur" die Zahl der Flops pro Hertz mal Takt. `Ein 440 hat 2 FPU, die je MUltiplyAdd beherrschen, macht also 4 Flops (Add und Multiply zählen jeweils) prto Takt. Bei 700 Mhz erghält man 2.8 GFlops/CPU. Analog beim 450 mit 850MHz.

Relevanter sind aber die Rmax-Werte, nicht zuletzt weil hier auch die Skalierungsfähigkeit mit eingeht (die bei den BlueGene absolut exzellent ist). Die 20 PFlops dürften sich aber auf Rmax beziehen (jedenfalls galt die PFlop-Grenze erst mit 1PFlop Rmax als gebrochen).
Damit hat man:

BlueGene/L 478200 / 212992 Kerne = 2.25 GFlops/Kern
BlueGene/P 450300 / 163840 Kerne = 2.75 GFlops/Kern

Sequoia ca 20130000 / ca. 1600000 = 12.6 GFlops/Kern

3. Wie kommst du beim PwrFicient auf 12.6 GFlops bei 1.7 GHz? Soweit ich weiss, verfügt der Pwrficient nur über eine FPU und eine AltiVec-Einheit. Letztere ist 128bit breit, kann also - wenn überhaupt - nur zwei doubles gleichzeitig verarbeiten (und für die top500 zählen nur doubles). Macht also 3 MultiplyAdd pro Takt, Mithin 6 Flops/Takt, also 10.2 GFlops/Kern. Für 12.6 GFlops bräuchte man schon 2.1 Ghz (was aber wohl auch nicht unrealistisch ist). Entscheindender dürfte sein, dass AltiVec bis jetzt keine double-Arithmetik beherrscht.

4. Was könnte es also sein?
Zunächst nehmen wir mal optimistich an, das ganze skaliert wieder so gut wie die BlueGenes. Ergo für 12.6 GFlops/Kern Rmax brauchen wir ca 15.75 -16 GFLops Rpeak.

Damit böte sich in der Tat ein PwrFicient II mit einem erweiterten 128bit-AltiVec (mit zwei doubles pro Register) und zwei "normalen" FPUs und triple-Issue: gibt 8 Flop/Takt, in der ASumme 16 Gflops/Kern

Oder eine 256bit Quad-double-VMX-Einheit und die vorhandene FPU bei 1.6 GHz (VMX liefert 8 und die FPU 2 FLop/Takt ---> wieder 16 GFlops/Kern)

Ich denke IBM wird bei den Supercomputer in Zukunft ganz stark die SIMD-Karte spielen (siehe dazu auch den RoadRunner) Daher die Integration einer Double-fähigen SIMD-Einheit in kommenden Supercomputer.

BTW: Vielleicht liegt hier auch das Papermaster-Problem. Bei IBM war er an der Entwicklung der CPU beteiligt über die wird hier spekulieren (und diese ist vom 450 abgeleitet, aber kräftig aufgebohrt) und nun wechslet er zu Apple/P.A.Semi mit einer veritablen Konkurenz-CPUs und wenn man http://www.ppcnux.de/?q=node/7412/13781#comment-13781 glauben darf, kommt da was von Papermaster/Apple.

Bis dann

R"udiger

Eine Weiterentwicklung des 450 mit 1.26 GHz und einer 256bit-double-SIMD-Einheit. Die würde dann 10 Flop/Takt schafften

Rpeak

Natürlich sind es Gflops, nicht Mflops.

Ich bin von den Rpeak-Werten ausgegangen, weil in dem Kontext idR. über diese gesprochen wird. Beim Roadrunner mit einem Rmax von 1,1Pflops hieß es auch: "Avisiert sind 1,6 Petaflop/s". Also gehe ich bei "Anvisiert sind 20Pflops/s" von einem Rpeak von 20Pflops aus und einem Rmax von vielleicht knapp 14 Pflops.

Die Bemerkung mit dem PWRficient war als Scherz gedacht. Dass IBM einen (Apple-) PWRficient einsetzen würde, wäre ziemlich absurd.
Wie ich auf die 1,7GHz komme?
Der PA6T-Core bringt laut Mercury-Computer-Systems eine Fließkomma-Rechenleistung von 14,5 GFlops pro Kern bei 1,8 GHz. Mit 1,6 GHz (nicht 1,7 GHz) würde er also die 12,5 Gflops pro Kern erreichen. Allerdings sind es single floats und (wie Du zurecht angemerkt hast), bei Linpack werden doubles gewertet (jedenfalls wenn der Prozessor double kann, was beim PWRficient ja der Fall ist).

Comment viewing options

Select your preferred way to display the comments and click "Save settings" to activate your changes.