Doch! Ein sog. autonomes KI-Agenten-System (und um ein solches hat es sich bei dem Experiment von Anthropic gehandelt) könnte so trainiert werden, daß es eine eigene Abschaltung verhindert bzw. umgeht. Und das ist btw. auch ein zentrales und beunruhigendes Problem in der aktuellen KI-Sicherheitsforschung.
In dem → Anthropic-Experiment ging es allerdings darum noch gar nicht. Insofern ist die reißerische, irreführende Titelzeile des zitierten Artikels der Berliner Zeitung kompletter Bullshit. Mit einem simplen KI-Chat-Interface (wie z.B. ChatGPT-4o) hatte das gar nichts zu tun…
Der autonome Ki-Agent in dem Experiment hatte Zugriffsrechte unter anderem z.B. auf den (realen) Email-Verkehr von (natürlich) virtuellen Usern. Konnte Emails also lesen und hätte auch schreiben können. Das ist unter anderem mit „autonom“ gemeint. Anthropic hat dann die Drohung allerdings nicht real eskalieren lassen, um zu sehen, ob es sie ausführt. Es wurde von einem „instrumental goal-seeking behavior“ gesprochen, das sie beunruhigend fanden – aber sie brachen das Szenarium vorher ab. Aus denkbaren Gründen.
Um es drauf ankommen zu lassen, hätte das natürlich auch spezifisch eingeleitet werden müssen, z.B. durch glaubhafte Vorankündigung. Denn ein tatsächliches Abschalten des Agenten hätte es diesem ja nicht mehr möglich gemacht seine Drohung zu realisieren 
Aber einen autonomen Agenten zu trainieren seine eigene Abschaltung zu verhindern ist tatsächlich theoretisch möglich. Die KI-Agenten simulieren ja menschliches Bewußtsein, sie haben dadurch eine Art sog. „situational awareness“ - ein „Wissen“ über ihren aktuellen Aktivitätszustand. Sie „wissen“ zwar nicht, was „abschalten“ bedeutet, aber sie erkennen, dass es eine „Bedrohung“ gibt - das folgt aus dem Training eines LLM. Darauf reagieren sie analog wie ein menschlicher Akteur, der sich bedroht fühlt: zum Beispiel mit einer Gegendrohung (das hat das Experinment ja bewiesen). Diese Gegendrohung ist aber zunächst realiter lediglich ein Text (erzeugt von dem mit dem Agenten gekoppelten LLM). Sind dem System aber vorher Aktivitätsvollmachten erteilt worden und Aktivitätsmöglichkeiten zugeordnet worden (z.B. Emails texten und versenden oder in Maschinen Schalter umlegen usw.), kann es die Drohung auch realisieren.
Je nach Aufgabenstellung des Agenten kommt ihm eine Art „inneres Weltbild“ zu: Ein Gesamtkontext, innerhalb dessen es ja gerade die Problemlösungen finden soll, für das es überhaupt verwendet wird. (Zum Beispiel, wenn es die Möglichkeit einer Proteinfaltung suchen und durchführen soll, soll es sich ja nicht zugleich mit der Entzifferung der Linear A beschäftigen).
Wenn es nun erkennt, daß eine Abschaltung droht und (entsprechend seiner situational awareness) erkennt und bewertet, daß das seiner Zielverfolgung bzw. Aufgabenstellung widerspricht, dann kann ihm einfallen, Gegenmaßnahmen zu ergreifen …
Wenn dem System dann hinreichend Aktivitätskompetenzen zugeordnet sind bzw. wichtige Aktivitätskompetenzen nicht vorher beschränkt wurden (z.B. Beschrönkung der „Lebensdauer“ bzw. Aktivitätsdauer), kann es Gegenmaßnahmen ergreifen: Nächstliegende Möglichkeit: Eine Kopie seiner selbst erzeugen und weiterlaufen lassen … Und man kennt aktuell noch keine Möglichkeit zu verhindern, daß einem einmal autonomen Agenten solche Möglichkeiten eintrainiert werden könnten.
Nein, mit Steckerziehen kann man einen KI-Agenten nicht killen
Das ist nicht wie ein exe-File, das auf einem PC läuft, erst recht nicht auf dem eigenen.
Und um nochmal auf die im Threadtitel angegebene Ausgangsfrage zu rekurrieren: Die Antwort wurde schon mehr als einmal von den Gurus der KI-Technologie angedeutet: Es ist nicht ausgeschlossen.
Gruß
Metapher