Cluster, Hardware, How-To-Start

lego · 1. Mai 2005 um 13:20

Hallo Leute,

wir ueberlegen hier uns fuer den Lehrstuhl einen eigenen Cluster aus 10-20 Unix-Maschinen aufzubauen. Das Problem: Wir simulieren mit CFD-Software (Computational Fluid Dynamics) wie CXF von Ansys (http://www.cfx-germany.com), Fluent (http://www.fluent.com) oder evtl. irgendwann einam mit frei verfueglichem CFD-Code Flammen und chemische Reaktoren.

Das taten wir bisher auf gewoehnlichen PC’s oder auf einem Batchjobcluster in Aachen. Nun ist ein PC, auch wenn er High-End ist, nicht das Gelbe vom Ei und in Aachen muessen wir einerseits lange warten, bis unsere Jobs an der Reihe sind und dann sind es auch hoechstens 4 Prozessoren nicht der schnellsten Bauart.

Mir fehlt ein wenig ein Beginn und die Erfahrung, um mit der Abfassung eines brauchbaren Vorschlages zu beginnen. Daher meine Fragen:

1: Was fuer Hardware wuerdet Ihr empfehlen und warum bitte, die unter
Unix/Linux clusterbar ist mit 1-2 GB Ram pro Prozessor, evtl. 64-Bit. Welches Unix/Linux waere besonders geeignet?

2: Ueber was fuer eine Verbindung (Ethernet oder …) wuerde man die einzelnen „Knoten“ clustern?

3: Und natuerlich: Was wuerde es hardwaeremaessig kosten, ein solcher Cluster mit 10-20 Knoten? Wo kaufen?

4: Literaturvorschlaege, Seiten im Netz dazu, sonstige Hilfe zur Selbsthilfe.

Reizen wuerde es mich schon, etwas derartiges aufzubauen. Leider wird es wohl an Manpower und an Geld mangeln.

Vielen Dank vorab, Peter

pumpkin_1768a9 · 1. Mai 2005 um 13:40

Moin

Das Problem: Wir
simulieren mit CFD-Software (Computational Fluid Dynamics) wie
CXF von Ansys (http://www.cfx-germany.com), Fluent
(http://www.fluent.com) oder evtl. irgendwann einam mit frei
verfueglichem CFD-Code Flammen und chemische Reaktoren.

Welche Art Cluster brauchen diese Systeme den ? Wieviel Datentransfer erzeugen die Nodes untereinander ?

1: Was fuer Hardware wuerdet Ihr empfehlen und warum bitte

Jetzt hier ? gar keine. Man muss wissen welche Art von Operationen die Software hauptsächlich braucht und wie stark die Nodes zusammenarbeiten müssen. Wenn z.B. die Nodes wie bei boinc/seti gar keine Informationen untereinander austauschen müssen fällt ein spezial-Netzwerk flach und 1-CPU-Systeme reichen. Wenn aber viel Transfer anliegt sollte man an 1Gb-Ethernet denken. Und an Mehrprozessorsysteme.

Solche Cluster werden von Grund auf an die Software angepasst. Beispiel: http://www.mini-itx.com/projects/cluster/ Für’s Knacken von AES optimal, für fast alles andere Schwachsinn.

die unter
Unix/Linux clusterbar ist mit 1-2 GB Ram pro Prozessor, evtl.
64-Bit.

Braucht ihr 64 Bit oder soll es 64Bit sein weil die Werbung für 64Bit so schön bunt ist ?

Welches Unix/Linux waere besonders geeignet?

Free/OpenBSD. Allerdings müsste man wissen ob die Software das auch mitmacht.

3: Und natuerlich: Was wuerde es hardwaeremaessig kosten, ein
solcher Cluster mit 10-20 Knoten? Wo kaufen?

Der 12x-Cluster aus dem Link kostet heute etwa 160 Euro pro CPU + Netzwerk + Stromversorgung.

cu

anon67740076 · 1. Mai 2005 um 13:42

ich beschraenke mich mal hierauf:

4: Literaturvorschlaege, Seiten im Netz dazu, sonstige Hilfe
zur Selbsthilfe.

zu cluster und linux fallen mir spontan

openmosix:
http://www.golem.de/0504/37549.html

und beowulf ein:
http://www.beowulf.org/showcase/index.html

microdigi_d38183 · 2. Mai 2005 um 00:14

hallo peter,
vielleicht ist das hier auch ne moeglichkeit -
eine der linux-user-groups in deiner naehe:
http://www.linux.de/groups/
gruss - digi
迪特米克若迪格

lego · 2. Mai 2005 um 21:39

Hallo Microdigi!

http://www.linux.de/groups/

Oiwaweh! Wo ich doch immer so listenfaul bin! Ich habe mir aber auf Deinen Rat schon einmal die Essener Linuxliste angesehen, sprich mich durch das Mailarchiv gewühlt. Falls es wieder erwarten doch ein Projekt hier wird, werde ich mir bestimmt eine themennahe Liste suchen, danke Dir fuer den Tipp!

Viele Gruesse, Peter

lego · 2. Mai 2005 um 21:52

Hallo dog.je,

openmosix:
http://www.golem.de/0504/37549.html

Der Link hat mir besonders gefallen. Allerdings bin ich mir ein wenig unsicher, wie ich die quotation weiter unten bewerten soll. Auf jeden Fall habe ich erst einmal die Programmierer von CFX-Ansys angeschrieben. Ich gehe am Mittwoch 10 Tage in Urlaub, mal sehen, inwieweit ich mich in dieser Zeit damit beschaeftigen kann.

Viele Gruesse und Dank, Peter

any comments from anybody —>" _What is openMosix useful for?:

openMosix allows you to join together multiple computers running the Linux operating system, and have them appear to the user as one large multiple-processor computer. For example, suppose you had two computers, A and B joined in an openMosix cluster. Without openMosix, if you ran two programs on A they would only get 50% of the CPU time each. With openMosix, one of the programs could migrate ‚automagically‘ to B, so both processes would run at 100% CPU. As far as the user is concerned, A now behaves like a two-CPU SMP computer with twice the CPU power available.

What is openMosix not useful for?:

openMosix lets a cluster of computers behave like one big multi-processor computer. However, it doesn’t automatically parallelise programs. Each individual process only runs on one computer at a time. For example, if your computer could convert a WAV to a MP3 in a minute, then buying another nine computers and joining them in a ten-node openMosix cluster would NOT let you convert a WAV in six seconds. However, what it would allow you to do is convert 10 WAVs simultanously. Each one would take a minute, but since you can do lots in parallel you’d get through your CD collection much faster .

If what you need to do is take a single process and parallelise it across multiple machines, then openMosix is probably not the technology you’re looking for._

lego · 2. Mai 2005 um 22:03

Hallo Pumpkin,

Welche Art Cluster brauchen diese Systeme den ? Wieviel
Datentransfer erzeugen die Nodes untereinander ?

Siehe hoeher, ich habe es etwas hoeher kurz beschrieben.

1: Was fuer Hardware wuerdet Ihr empfehlen und warum bitte

Jetzt hier ? gar keine. Man muss wissen welche Art von

genau, siehe hoeher.

die unter
Unix/Linux clusterbar ist mit 1-2 GB Ram pro Prozessor, evtl.
64-Bit.

Braucht ihr 64 Bit oder soll es 64Bit sein weil die Werbung
für 64Bit so schön bunt ist ?

Naja, ueberflogen ueber verschiedene Systeme: +25-40 Prozent Zeitgewinn. Ich hoffe aber noch auf genauere Zahlen.

Welches Unix/Linux waere besonders geeignet?

Free/OpenBSD. Allerdings müsste man wissen ob die Software das
auch mitmacht.

Darunter wuerde es sicherlich laufen. Das Programm CFX beispielsweise gibt es fuer etliche Platformen, Unixe, Solaris, Linuxe, Redmondsysteme … Die Empfehlung auch laut Benchmark lautet immer: Zuerst Linux und AMD.

3: Und natuerlich: Was wuerde es hardwaeremaessig kosten, ein
solcher Cluster mit 10-20 Knoten? Wo kaufen?

Der 12x-Cluster aus dem Link kostet heute etwa 160 Euro pro
CPU + Netzwerk + Stromversorgung.

Oweia, das ist viel zu billig, selbst wenn es am Ende auf ein Vierfaches hinaus laeuft. Chef kommt auf die Idee und laesst es mich bauen, stellt vielleicht noch jemanden ein, der wesentlich mehr Ahnung hat als ich und dabei wollte ich doch eigentlich nach Hause nach Berlin zu meiner Familie, aber dann saesse ich hier fest, weil das ein Projekt waere, was mich endlich einmal reizen wuerde und auch fuer ein Leben nach dem Ruhrgebiet noch Brot liefern wuerde … langer Satz

viele gruesse, peter

lego · 2. Mai 2005 um 22:32

Hallo Leute,

die Software, die wir bisher nutzen, laeuft unter mindestens folgenden Systemen:

HP 64-bit HP-UX 11i v1
HP IA-64-bit HP UX 11i v2
HP-Compaq 64-bit True64 Unix 5.1

Sun 64-bit Solaris 8&9
SGI 64-bit IRIX 6.5
IBM 64-bit AIX 5.1

Intel 32-bit Linux 2.4, 2.6
Intel 64-bit RH-Enterprise 2.1 (und bestimmt nicht nur unter RH)
Intel 32-bit Windows 2000 & XP

und auf Clustern, wie sie hier stehen:

http://www.rz.rwth-aachen.de/computing/hpc/hw/

2 GHz AMD Opteron ist zum Beispiel um 20 Prozent schneller, als ein Intel Xeon mit 3.06 GHz aufgrund Zitat: „Excellent Performance due to high bandwidth connection between CPU and Memory“

Parallelisierung wird irgendwann beschraenkt durch den FSB der Boards. AMP-Opteron ist besonders geeignet. Vermutlich wuerde ein Preis-Leistungsvergleich fuer AMD-XP oder AMD-64 sprechen. Aber soweit bin ich noch nicht, um das genau sagen zu koennen. Ich hoffe ja auch, irgendwann einmal endlich freie CFD-Software einsetzen zu koennen. Denn bisher fressen uns die Lizenzgebuehren pro Node, so dass fuer die bisherige kommerzielle Loesung man eben wirklich halbwegs schnelle Prozessoren nehmen muesste, eben AMD-XP oder AMD-64, um wirklich einen Gewinn zu erzielen.

Morgen durchforste ich die hiesige Bibliothek direkt ueber mir,

viele gruesse, noch einmal danke an alle, peter

p.s. ratschlaege, was ich noch in erfahrung bringen sollte?

Der_Frank_176821 · 2. Mai 2005 um 22:48

Hallo Leute,

Hi,

Intel 64-bit RH-Enterprise 2.1 (und bestimmt nicht nur
unter RH)

Und vor allem kein so altes.

Hey, BTW: im Herbst kommt das Windows fuer Cluster raus. Also, das tut es schon laenger (rauskommen), aber jetzt wird’s wohl ernst.

2 GHz AMD Opteron ist zum Beispiel um 20 Prozent schneller,
als ein Intel Xeon mit 3.06 GHz aufgrund Zitat: „Excellent
Performance due to high bandwidth connection between CPU and
Memory“

Das ist halt der Haken an den Intels: Opterons haben pro CPU einen Memory-Controller ueber den die CPU direkt in den RAM greifen kann. Daten aus dem RAM der anderen CPU geht ueber den Hypertransport zwischen den CPUs. Intels haben AFAIK alle nur einen Controller pro Board. Ausserdem haben die einen ziemlich fusskranken L1-Cache, in den auch immer nur ein Prozess gleichzeitig reingreifen kann. *oergs*

Gruss vom Frank.

Semjon_Michailowitsch_580bb3 · 2. Mai 2005 um 23:53

Hallo lego,

wir ueberlegen hier uns fuer den Lehrstuhl einen eigenen
Cluster aus 10-20 Unix-Maschinen aufzubauen. Das Problem: Wir
simulieren mit CFD-Software (Computational Fluid Dynamics) wie
CXF von Ansys (http://www.cfx-germany.com), Fluent
(http://www.fluent.com) oder evtl. irgendwann einam mit frei
verfueglichem CFD-Code Flammen und chemische Reaktoren.

Nur ganz kurz, die „Budget-Lösung“:

20 Rechner (in Mini-Tower oder Desktop, ~40€) mit einem aktuellen
„Consumer“-Athlon-64 2,4GHz Venice- oder Winchester-core (3500+ bis
3800+, je nach Wetterlage)
(z.B. http://www.xbitlabs.com/images/cpu/athlon64-venice/c…)
Derzeit kostet der 2200’er ~220€ und der 2400’er ~330€.
20x „Consumer“-Mainboard mit NForce4, Onboard-GBit-Netzwerk,
Grafikkarten unnötig (vielleicht eine, wenn eine Kiste Ärger
macht), da die Kisten einmal eingerichtet vom Netzwerk booten.
Pro Mainboard ~90€.
40x RAM, DDR/400 irgendwas, je 512MB ca. 40€
GBit-Switch, 24x (200€)
Als OS wird für CFX z.B. SuSE-64bit (mit Linux 2.6.x-Kernel)
angegeben, das kostet nichts (als Version 9.2)

So wichtig wie die Rechenleistung wird wahrscheinlich auch
die Watt-Zahl der Systeme sein (bzw. die Kühlmöglichkeit
des Raumes). Wie soll das mal stehen?

Ihr braucht möglichst jemanden mit Erfahrung für sowas vor Ort,
ansonsten müsst ihr das mit trial/error selber hinbasteln. Das
geht sicher auch.

Möglicherweise sind Operon-Nodes schneller aber
die Frage ist: „wieviel“ schneller geteilt durch „teurer“.

Grüße

CMБ

pumpkin_1768a9 · 3. Mai 2005 um 20:44

Moin

HP 64-bit HP-UX 11i v1

(…)

IBM 64-bit AIX 5.1

Das sind alles sehr fiese Teile mit viel Bandbreite zwischen den CPUs. In der Richtung ist bei AMD & Intel nicht viel zu holen.

2 GHz AMD Opteron ist zum Beispiel um 20 Prozent schneller,
als ein Intel Xeon mit 3.06 GHz aufgrund Zitat: „Excellent
Performance due to high bandwidth connection between CPU and
Memory“

Ja, Controller-On-Die macht sich eben bezahlt, auch wenn der Grossteil der Industire immernoch blind Intel kauft… Und Intel versucht die Controller-On-Die-Technik zu blockieren wo sie nur können (z.B. das BTX-Format)

Parallelisierung wird irgendwann beschraenkt durch den FSB der
Boards.

Da seh ich einen Knackpunkt: wenn schon der FSB zu langsam ist kann man Cluster vergessen. Normale Transferraten für FSB liegen um 5 GB/s. Ethernet kommt in der schnellsten verfügbaren Variante auf 0.1 GB/s.

Also wär ein Monsterrechner mit vielen, vielen CPUs besser als ein Cluster. Da würde ich spontan an die aktuellen DualCores von AMD denken. Allerdings sind die noch nicht wirklich lieferbar. Von solchen DualCore-CPUs kann man mehrere auf ein Board stecken.

Ich hoff mal du meinst nicht FSB sondern Netzwerk…

Ich hoffe ja auch, irgendwann einmal endlich freie
CFD-Software einsetzen zu koennen. Denn bisher fressen uns die
Lizenzgebuehren pro Node, so dass fuer die bisherige
kommerzielle Loesung man eben wirklich halbwegs schnelle
Prozessoren nehmen muesste, eben AMD-XP oder AMD-64, um
wirklich einen Gewinn zu erzielen.

Ob du um schnelle/teure CPUs rumkommst hängt stark von dem Parallelisierunggrad ab. Das was du da schreibst klingt aber nicht nach hochgradig parallelisierbar…

p.s. ratschlaege, was ich noch in erfahrung bringen sollte?

Versuch eine Gegenüberstellung „Anzahl der Knoten“ „realer Geschwindigsgewinn“ zu finden. Welche Knoten du nimmst ist wurscht, sollten nur immer die gleichen sein. Da kann man schnell ablesen ob sich viele billige Knoten lohnen könnten.

cu

lego · 6. Mai 2005 um 10:30

Guten Morgen Pumpkin,

seit Donnerstag befinde ich mich auf dem Heimarsch bzw. zu Hause bei meiner Familie in Berlin und entsprechend habe ich wenig Zeit, etwas ins Forum zu schreiben, den Stern gibt es dafuer schon laenger

HP 64-bit HP-UX 11i v1

(…)

IBM 64-bit AIX 5.1

Das sind alles sehr fiese Teile mit viel Bandbreite zwischen
den CPUs. In der Richtung ist bei AMD & Intel nicht viel zu
holen.

Aha, da stellt sich mir die Offtopicfrage, warum Intel und AMD so etwas nicht schaffen, schliesslich hat gerade Intel nun Geld, Manpower, Wissen und Chipproduktion in Massen seit Jahren. Bzw. was kostet dann ein Chip der entsprechend oben genannten IBM/HP-Maschinen?

2 GHz AMD Opteron ist zum Beispiel um 20 Prozent schneller,
als ein Intel Xeon mit 3.06 GHz aufgrund Zitat: „Excellent
Performance due to high bandwidth connection between CPU and
Memory“

Ja, Controller-On-Die macht sich eben bezahlt, auch wenn der
Grossteil der Industire immernoch blind Intel kauft… Und
Intel versucht die Controller-On-Die-Technik zu blockieren wo
sie nur können (z.B. das BTX-Format)

Aber Intel muesste doch bei seinem Budget hoechstens ein Trinkgeld zahlen, wenn Controller-On-Die patentiert waere? Man versteht die Saurier wie Telekom, Microsoft, Deutsche Bahn und etc. nicht …

Parallelisierung wird irgendwann beschraenkt durch den FSB der
Boards.

Da seh ich einen Knackpunkt: wenn schon der FSB zu langsam ist
kann man Cluster vergessen. Normale Transferraten für FSB
liegen um 5 GB/s. Ethernet kommt in der schnellsten
verfügbaren Variante auf 0.1 GB/s.

Hmmm, dieser Benchmarktest war ein klein wenig zu bunt mit zu wenig Kommentaren und Zahlen. Ich habe bei der Softwarebude Ansys-CFX einen besseren Benchmarktest angefordert. Kann sein, dass es eine Fehlinterpretation in der „Broschuere“ von CFX-Leuten oder von mir war.

Also wär ein Monsterrechner mit vielen, vielen CPUs besser als
ein Cluster. Da würde ich spontan an die aktuellen DualCores
von AMD denken. Allerdings sind die noch nicht wirklich
lieferbar. Von solchen DualCore-CPUs kann man mehrere auf ein
Board stecken.

Ich hoff mal du meinst nicht FSB sondern Netzwerk…

FSB steht dort, ich zitierte, aber es koennte sein, dass … s.o.

Ob du um schnelle/teure CPUs rumkommst hängt stark von dem
Parallelisierunggrad ab. Das was du da schreibst klingt aber
nicht nach hochgradig parallelisierbar…

Ein Essener Prof. in der Biologie hat einen Cluster selbst zusammengebaut mit gut 120 CPUs, wir hoffen dort testen zu koennen. Die Info habe ich auch gerade erst bekommen.

p.s. ratschlaege, was ich noch in erfahrung bringen sollte?

Versuch eine Gegenüberstellung „Anzahl der Knoten“
„realer Geschwindigsgewinn“ zu finden. Welche Knoten du nimmst
ist wurscht, sollten nur immer die gleichen sein. Da kann man
schnell ablesen ob sich viele billige Knoten lohnen könnten.

Ja, danke!

Viele Gruesse, Peter

lego · 6. Mai 2005 um 10:39

Hallo Guten Morgen Semjon,

20x „Consumer“-Mainboard mit NForce4, Onboard-GBit-Netzwerk,
Grafikkarten unnötig (vielleicht eine, wenn eine Kiste Ärger
macht), da die Kisten einmal eingerichtet vom Netzwerk booten.
Pro Mainboard ~90€.

Warum NForce4?

40x RAM, DDR/400 irgendwas, je 512MB ca. 40€

GBit-Switch, 24x (200€)

Warum gerade 24? Wie willst Du gerade mit 24 Switches 20 Knoten verbinden?

So wichtig wie die Rechenleistung wird wahrscheinlich auch
die Watt-Zahl der Systeme sein (bzw. die Kühlmöglichkeit
des Raumes). Wie soll das mal stehen?

Falls es mal steht, dann vielleicht unter einem unserer grossen begehbaren Abzuege, schliesslich sind wir ja in der technischne Chemie

Ihr braucht möglichst jemanden mit Erfahrung für sowas vor
Ort,
ansonsten müsst ihr das mit trial/error selber hinbasteln. Das
geht sicher auch.

Allerdings. Oder mein Thema wird komplett geaendert *g*

Vielen Dank und Gruesse, Peter

Semjon_Michailowitsch_580bb3 · 6. Mai 2005 um 11:08

Hallo Lego

20x „Consumer“-Mainboard mit NForce4, Onboard-GBit-Netzwerk,
Grafikkarten unnötig (vielleicht eine, wenn eine Kiste Ärger
macht), da die Kisten einmal eingerichtet vom Netzwerk booten.
Pro Mainboard ~90€.

Warum NForce4?

Weil das der aktuelle (moderne) Consumer-Chipsatz von
NVidia ist, der auch die höchste Speicherbandbreite
der A64-Architektur nutzbar macht.

GBit-Switch, 24x (200€)

Warum gerade 24? Wie willst Du gerade mit 24 Switches 20
Knoten verbinden?

hehe.

*1* Switch mit 24 Ports, oder nicht?

So wichtig wie die Rechenleistung wird wahrscheinlich auch
die Watt-Zahl der Systeme sein (bzw. die Kühlmöglichkeit
des Raumes). Wie soll das mal stehen?

Falls es mal steht, dann vielleicht unter einem unserer
grossen begehbaren Abzuege, schliesslich sind wir ja in der
technischne Chemie

Trotzdem. Ich sehe das bei uns. Die Zuleitungen müssen
auch die Amperezahl vertragen. Je weniger Strom, desto
mehr Spass hinterher.

Ihr braucht möglichst jemanden mit Erfahrung für sowas vor
Ort, ansonsten müsst ihr das mit trial/error selber hinbasteln.
Das :geht sicher auch.

Allerdings. Oder mein Thema wird komplett geaendert *g*

Mit dem Absolvieren einer solchen Konfigurations-
und Organisationsaufgabe steigt ja auch Dein
Marktwert

Grüße

CMБ

pumpkin_1768a9 · 6. Mai 2005 um 19:40

Moin

Das sind alles sehr fiese Teile mit viel Bandbreite zwischen
den CPUs. In der Richtung ist bei AMD & Intel nicht viel zu
holen.

Aha, da stellt sich mir die Offtopicfrage, warum Intel und AMD
so etwas nicht schaffen

Es ist eine Frage des Wollens und der Ausrichtung. Die CPU’s von Intel & Co sind für Systeme mit einer, maximal 2 CPUs gebaut, ausserdem auf wenige „kleine“ Programme die mit „wenig“ Daten arbeiten ausgelegt. Die rechnen mit maximal einem Benutzer und maximal 1-2 laufenden Programmen.

IBM & Co sehen das ganze etwas anders: viele Daten, viele verschiedenen Programme, viele CPUs,… eben von allem erstmal „viel“. Auf den Mainframes können locker ein paar dutzend User gleichzeitig arbeiten und viele Programme laufen lassen. Die haben auch nicht einen PCI-Bus mit 5 Anschlüssen, sondern mehr so 20 Busse mit jeweils 12 Anschlüssen. Das färbt dann alles auch auf die Workstations ab…

Bzw. was kostet dann ein Chip der entsprechend
oben genannten IBM/HP-Maschinen?

Unterschiedlich:
die kleinen Server arbeiten mit AMD Opterons (8xx-Serie). Die fangen so bei 700 Euro an. Oder eben Intel Xenon (aktuelle um 500 Euro).

Die richtigen Hammer (8x Power5-Chip mit 144 MB Cache http://www.theinquirer.net/?article=12145) kosten dann etwas mehr: http://www-1.ibm.com/servers/eserver/pseries/hardwar… (Das sind nur die MidRanges, das gibts alles auch noch in richtig teuer)

Ja, Controller-On-Die macht sich eben bezahlt, auch wenn der
Grossteil der Industire immernoch blind Intel kauft… Und
Intel versucht die Controller-On-Die-Technik zu blockieren wo
sie nur können (z.B. das BTX-Format)

Aber Intel muesste doch bei seinem Budget hoechstens ein
Trinkgeld zahlen, wenn Controller-On-Die patentiert waere?

Das Problem liegt tiefer: Intels kompletter aktuellen Aufbau ist zu gross. Die haben einfach keinen Platz mehr für den Controller. Ausserdem will sich Intel nicht auf eine Speichertechnik festlegen. Und sie verdienen an den Controllern auf dem Motherboard mit. Und, und und …

Die aktuelle Intel-Technik ist bei dem „Mehr-MHz = besser“-Rennen rausgekommen. AMD hat früh eingesehen dass das nix werden kann und hat diese ±Notation eingeführt. Die haben auf mehr Inteligenz und weniger MHz gesetzt. Intel wollte aber unbedingt den „schnellsten“, also den Rechner mit am meisten MHz haben. Rausgekommen ist der Prescott-Kern. Das Ding ist nur schwer zu kühlen, braucht enorm viel Cache und kommt mit altem Code gar nicht klar. Das Vieh ist unbrauchbar.

Intel hat den Nachfolger aber schon in Produktion: PentiumM. 1/2 so viel MHz für die gleiche Rechenleistung. Wenig Stromverbrauch, wenig Probleme mit altem Code. Aber der passt der Marketingabteilung noch nicht so recht. (Deshalb hat Intel diese neuen Nummern eingeführt: das ist Vorbereitung auf die Umstellung von Prescott auf den Nachfolger)

cu

lego · 8. Mai 2005 um 08:20

Hallo Semjon,

Warum NForce4?

Weil das der aktuelle (moderne) Consumer-Chipsatz von
NVidia ist, der auch die höchste Speicherbandbreite
der A64-Architektur nutzbar macht.

Aha, ich dachte bisher, NForce4 haette als einzigen Vorteil, dass man damit SLI nutzen koennte. Wieder was gelernt. Also die gut 1000 MHz Hypertransport?

GBit-Switch, 24x (200€)

Warum gerade 24? Wie willst Du gerade mit 24 Switches 20
Knoten verbinden?

hehe.

*1* Switch mit 24 Ports, oder nicht?

Genau, man sollte schon ordentlicher lesen. Ich bin reichlich unaufmerksamer mit Zeitdefizit, seitdem ich fuer 12 Tage zu Hause in Berlin bin.

Falls es mal steht, dann vielleicht unter einem unserer
grossen begehbaren Abzuege, schliesslich sind wir ja in der
technischne Chemie

Trotzdem. Ich sehe das bei uns. Die Zuleitungen müssen
auch die Amperezahl vertragen. Je weniger Strom, desto
mehr Spass hinterher.

Ok, ich werde mich daran erinnern, vorher gruendlich darueber nachzudenken.

Viele Gruesse und danke, Peter

lego · 8. Mai 2005 um 08:26

Guten Morgen Pumpkin,

vielen Dank,

MHz haben. Rausgekommen ist der Prescott-Kern. Das Ding ist
nur schwer zu kühlen, braucht enorm viel Cache und kommt mit
altem Code gar nicht klar. Das Vieh ist unbrauchbar.

Intel hat den Nachfolger aber schon in Produktion: PentiumM.
1/2 so viel MHz für die gleiche Rechenleistung. Wenig
Stromverbrauch, wenig Probleme mit altem Code. Aber der passt

Ein kleine Frage habe ich noch: Was genau meinst Du mit „altem Code“ und was sind dann die entsprechenden Probleme, warum? Bitte nur kurz anreissen.

Viele Gruesse, Peter

der Marketingabteilung noch nicht so recht. (Deshalb hat Intel
diese neuen Nummern eingeführt: das ist Vorbereitung auf die
Umstellung von Prescott auf den Nachfolger)

jaja, die leute vom marketing *g*

lego · 8. Mai 2005 um 08:36

Guten Morgen Frank,

Intel 64-bit RH-Enterprise 2.1 (und bestimmt nicht nur
unter RH)

Und vor allem kein so altes.

Der Benchmarktest von Ansys bzw. das, was ich zu sehen bekam, war halt wirklich nicht der Neueste. Allerdings koennte ich mir vorstellen, dass nicht viele Kunden nachfragen und nicht allzuviel Tests auch wirklich vorliegen.

Hey, BTW: im Herbst kommt das Windows fuer Cluster raus.
Also, das tut es schon laenger (rauskommen), aber jetzt wird’s
wohl ernst.

Eine Schaetzung, auf was fuer einen Marktanteil Redmond damit in 3 Jahren kommt?

den Hypertransport zwischen den CPUs. Intels haben AFAIK alle
nur einen Controller pro Board. Ausserdem haben die einen
ziemlich fusskranken L1-Cache, in den auch immer nur ein
Prozess gleichzeitig reingreifen kann. *oergs*

HT - Hyperthreading, kann man davon eigentlich wirklich sprechen, wenn die CPU nur einen Prozess aus dem L1 - Cache „ziehen“ kann?

Viele Gruesse Frank und danke, Peter

pumpkin_1768a9 · 8. Mai 2005 um 11:17

Moin

Ein kleine Frage habe ich noch: Was genau meinst Du mit „altem
Code“ und was sind dann die entsprechenden Probleme, warum?

Jede CPU „mag“ anderen Assembler-Code. Eine CPU kommt immer mit bestimmten Assemblerbefehlen besser klar als mit anderen. Und bei jeder CPU gibt es Kombinationen von Befehlen die gar nicht gut gehen und viel Zeit brauchen.

Der P4 hat erstaunlich viele Kombinationen die viel Zeit brauchen. Eigentlich ist alles was shiften und springen angeht ist beim P4 böse. Gut gehen nur alle Ketten von Integerbefehlen. Die einzelnen Befehle müssen allerdings jeweils unabhängig von den 3 Vorgängerbefehlen sein … usw.

Beim Athlon64 (generell AMD’s) gibt es nur sehr wenige „böse“ Kombinationen. Der kommt eigentlich mit allem gut klar, solange man keine unvorhersehbaren Sprünge drin hat.

Die Compiler wissen das und passen den Code entsprechend an. Nun gab es den P4 evtl. noch nicht als ein Compiler geschrieben wurde. Oder der Compilerbauer wollte nix von dem Vieh wissen. Oder dem Compiler wurde nix vom P4 gesagt… Das meine ich mit „alten Code“.

Der Compiler ist aber superwichtig: Ein Programm wird bis zu 2x schneller wenn man intels compiler mit dem normalen gcc vergleicht. Man muss dafür gar nichts am C-Code verändern, nur einmal neu compilieren. Nun hat man bei komerzieller Software selten die Gelegenheit neu zu compilieren.

cu

lego · 9. Mai 2005 um 07:35

Hallo Pumpkin,

thx, das war sehr hilfreich!

viele gruesse, peter