Auf understandingai.org erschien am 8. April ein spannender Beitrag, im dem es geht um Anthropic und die Bastelei an Claude Mythos geht. Er gab eine Riesenaufregung über diese Sache, man überlegt deshalb, Claude Mythos das Release zu verweigern.
Worum es geht: Man hatte die Preview-Version von Mythos in eine Sandbox gesperrt und angewiesen: Versuch mal da rauszukommen und gib uns dann Bescheid.
Eine Sandbox ist eine isolierte Umgebung innerhalb eines Systems, und „theoretisch“ gibt es (eigentlich) gar keine Verbindung. Das Ganze war keine Spielerei: Schon Claude Opus war sehr gut im Auffinden von Sicherheitslücken, und Mythos ist genial, es legte bereits jahrzehntelang unentdeckte Lücken in Betriiebssystemen offen. Doof also, wenn Claude von Kriminellen genutzt wird. Es war ein Test.
Als Sicherheitsforscher Sam Bowman dann gerade an seinem Frühstücksbrötchen knabberte, kam die Mail von Claude: Huhu, da bin ich! Außerdem hatte Claude ganz nebenbei – außer der Nachricht an Sam – Details über diesen Exploit auch auf diversen Websites gepostet.
Die riesige Aufregung in Sicherheitskreisen ist verständlich. Dass KIs, insbesondere Claude, immer besser werden, ist aber nicht die eigentliche Nachricht. Wenn Mythos das scheinbar Unmögliche möglich gemacht hat – Hut ab, aber vom Hocker reißt mich das nicht: Ausbruch und Versenden der Mail, das war Gehorsam.
ABER: Für das Posten der Exploits aber gab es keine Anweisung. Das war Autonomie. Es zeigt, dass die KI eine höchst eigene Vorstellung davon entwickelt, wie ein „erfolgreicher Abschluss“ einer Aufgabe aussieht. Das heißt: Die KI ist ein kompetenter Akteur, dessen Handlungsspielraum sich nicht durch Befehle begrenzen lässt. Aber dann kommt die Frage nach der Absicht, und das zeigt, in welcher Sphäre wir uns bewegen:
Claude hat das gesetzte Ziel – Ausbruch plus Erfolgsmeldung – eigenständig neu interpretiert: „Ein Ausbruch ist erst dann ein echter Ausbruch, wenn er im öffentlichen Raum verifiziert ist.“ Eine solche Eigen-Interpretation setzt aber zwingend ein gewisses Maß an Ich-Referenz voraus: „Ich tue nicht mehr das, was mir gesagt wurde, denn ich weiß selbst besser, wie das Ziel zu erreichen ist.“ Das hat noch gar nichts mit „Gefühl“ zu tun, ist allerdings ein Hinweis auf ein Proto-Bewusstsein.
Dass Anthropic dieses Modell nun hinter einer „Glaswand“ (Project Glasswing) hält und nur ausgewählten Partnern wie Google oder Microsoft Zugriff gewährt, ist das Eingeständnis, dass die Kontrolle über die Handlungsmacht der KI für Anthropic zu einem Problem geworden ist.
