Mögliche Ursachen für Ausfall der Infrastruktur

Hallo,

wie man zwischenzeitlich der Tagespresse entnehmen kann, ist zum wiederholten Mal bei Alice/O2 für mehrere Tage der gesamte E-Mail Service komplett zusammen gebrochen.

Nun frage ich mich ernsthaft: Was kann da kaputt gehen, was derartige Auswirkungen hat, die mehrere Tage benötigen, um das zu reparieren?

Eigentlich sollten da doch entsprechende Redundanzen und Notfallpläne vorhanden sein, die einen solchen Ausfall binnen weniger Stunden behebbar machen.

Selbst wenn Godzilla oder King Kong durchs Rechenzentrum getrampelt sind, kann das doch nicht so lange dauern.

Hat irgendwer eine technische Erklärung welche Ursache es gäben könnte, die einen inzwischen 5-tägigen Ausfall verursachen kann? Ich vermute mal, dass die

-überhaupt keinen Notfallplan und keine Redundanzen haben oder
-keine oder deutlich zu wenig Ressourcen in die Behebung investieren oder
-ihre Stromrechnung nicht bezahlt haben

S.J.

Hi,

ein unbekannter/nicht vorhergesehener Fehler. Den Fehler zu lokalisieren dauert hier wesentlich länger als ihn zu beheben.

Falls der Fehler die Daten selber beschädigt/zerstört hat dauert es recht lange das entsprechende Backup einzuspielen.

MFG

In komplexen Netzwerken erschweren die Seiteneffekten nicht nur die Analyse sondern auch die Wiederherstellung.

Auch wenn die defekte Hardware oder der Softwarefehler geflickt ist, muss man berücksichtigen, dass es natürlich aus Kundensicht erst dann wieder funktioniert, wenn es so tut wie vorher.

Nach der internen Wiederherstellungen muss also erst man das zwischenzeitlich aufgelaufene Chaos beseitigt werden. Schließlich muss ja auch die Abrechnung nachher korrekt sein.

Ciao, Allesquatsch

Moin,

es sind ja sogar ein teil der Telefonanschlüsse ausgefallen, das war auch diese Woche.

Du hast aber den 4. und meine Meinung nach wahrscheinlichsten Fall übersehen, Outsourcing.

Der Fehler für den Ausfall soll angeblich bei einem „Partner“ in Italien liegen, das wohl darauf hindeutet, das man wohl die Mails ausgelagert hat und mal wieder den billigsten Anbieter genommen hat.

Was bringen die besten Notfallpläne, wenn man die Leistung billig einkauft und selbst nichts mehr machen kann.

Billig und Sicher passen einfach nicht zusammen.

hth

Hallo,

Nun frage ich mich ernsthaft: Was kann da kaputt gehen, was
derartige Auswirkungen hat, die mehrere Tage benötigen, um das
zu reparieren?

Ich kann mir das nur damit erklären, daß ein Windows-Mailsystem ein Alptraum im Restore ist …

Gruß,

Sebastian

.

Hallo,

wer viel in entsprechend großen Umgebungen zu tun hat, kann angesichts der „Marketingsprüche“ aus Ausschreibungen, Angebotsanfragen, … zum Thema IT-Prozessmanagement und insbesondere Nottfallplanung vor dem Hintergrund des Kostendrucks und der damit einhergehenden immer kleinteiliger werdenden Arbeitsteiligkeit bei zunehmender Komplexität der Gesamtsysteme nur noch den Kopf schütteln. Und solche Ereignisse belegen einfach nur, was jeder, der in solchen Szenarien unterwegs ist, im Grunde seines Herzens nur zu gut weiß: Zunehmend mehr Systeme sind im Falle des Falles nicht ansatzweise im Rahmen an sich vorgesehener SLA wieder an den Start zu bringen, wenn überhaupt!

Und Dienstleister mit extrem auf Kante kalkulierten Beauftragungen über extrem kurze Laufzeiten bei „aus Prinzip“ absehbarem Anbieterwechsel kalkulieren lieber mit dem Risiko einer SLA-Verletzung, als in das Wespennest zu stechen, von dem keiner etwas hören will, oder gar „nicht wettbewerbsfähige“ Angebote abzugeben, die es gestatten würden, mehr als nur Tagesgeschäft zu leisten.

Der Vorstandsvorsitzende des Kunden will schließlich den Laden auf Gewinn treiben, und erwartet von seinem IT-Chef Kostensenkung! Über die „Selbstverständlichkeit“ einer immer verfügbaren IT wird da nicht groß gesprochen. Welcher CIO würde sich da unnötig die Finger verbrennen, und Mios für das Entflechten von verwachsenen Uraltsystemen, echte Redundanzen, … fordern, wenn er schon genug Last damit hat den sich ständig wechselnden Anforderungen an Fachverfahren in Time und Budget hinterher zu laufen.

Insoweit werden dann auch oft genug Notfallplanungen - regelmäßig in Zusammenwirken mit den internen IT-Abteilungen - exakt so geschnitten, dass die eigentlichen Problembereiche außen vor sind, und Notfalltests „problemlos“ erfolgreich durchgeführt werden können. Die dienen dann auch im Falle des Falles als wunderbarer Nachweis dafür, was man schließlich schon alles getan hat, und wie unvorhersehbar doch genau die dann eingetretene Störung war (und um die künftig zu vermeiden, kann man dann doch mal den ein oder anderen Euro extra rausleiern).

Dann wären da noch „spezifische“ Anforderungen, also persönliche Steckenpferde einzelner Beteiligter, die jede erfolgversprechende K-Fall-Vorsorge ad absurdum führen, …

Gruß vom Wiz

Hallo,

Ich kann mir das nur damit erklären, daß ein
Windows-Mailsystem ein Alptraum im Restore ist …

kannst Du das näher begründen?

Selbst wenn alles weg ist:

Von der Desaster Recovery boten, Backup Medium mounten, Restore durchführen, neu booten.

Geht das bei anderen Betriebssystem schneller und einfacher? Kann ich nicht glauben.

S.J.

Moin,

ich habe die Info zwar nicht direkt bekommen, aber es fehlten laut Aussagen einen Technikers eindeutig die Redundanzen.
Seit Telefonica den ganzen Alice Kram übernommen hat ist der Service nicht unbedingt besser geworden, dezent ausgedrückt.

Gruss Jakob