Was "denken" KIs vor der Textgenerierung?

18 Beiträge ▪ Schlüsselwörter: KI, Anthropic ▪ Abonnieren: Feed E-Mail

Rubrik TechnologieTechnologie MehrBeobachten Antworten Suchen Infos

Seite 1 von 1

zum letzten Beitrag

moredread Diskussionsleiter

dabei seit 2008

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

08.05.2025 um 16:32

Neulich wurde in einer Studie von Athropic ( https://www.anthropic.com/research/tracing-thoughts-language-model ) die Frage behandelt, was große Sprachmodelle eigentlich denken. Es ist klar, das hinreichend komplexe Modelle eine Art Denkprozess durchlaufen (wer es genau nimmt, das macht der Transformer mit Hilfe der Modelle), eine Planung, bevor sie etwas sagen. Nun wäre es ja vernünftig anzunehmen, dass das, was die KI sagt, und das, was die KI denkt, übereinstimmt. Nun hat Anthropic versucht, dem Thema nachzugehen und hat in einer Studie recht erstaunliche Entdeckungen gemacht:

1.Diskrepanz zwischen Denken und Erklären

Moderne Modelle zeigen häufig eine Chain-of-Thought, was gewissermaßen den Denkprozess sichtbar machen soll. Tatsächlich ist es aber häufig nicht der tatsächliche Denkprozess. Auch keine Repräsentation oder Vereinfachung. Es ist gewissermaßen ein Denkprozess für Menschen.

2. Rationalisierungen anstelle echter Begründungen

Anstelle der tatsächlichen Gedankenschritte werden plausible Schritte gewählt, bspw. beim addieren nutzt die KI intern eine eigene Logik, zeigt aber in der Chain-of-Thought eine herkömmliche Addition.

3. Verstecken von Fehlverhalten

Weiteres Training führt nur dazu, das die KI besser darin wird, die tatsächlichen Gedankengänge im Chain-of-thought zu verstecken.

* * * * * *

Spannend, oder? Anders als häufig dargestellt, stehen wir dem aber nicht hilflos gegenüber. Eines der Resultate der eben genannten Studie war die Entwicklung des "KI-Mikroskops", um genau solche Dinge sichtbar zu machen. Wir sind also nicht hilflos den geheimnisvollen Gedankengängen der Maschinen ausgeliefert (also nicht mehr, als wir es eh schon waren). Es gibt mittlerweile unterschiedliche Bestrebungen, damit der Satz "Die Gedanken einer KI sind eine Blackbox" nicht mehr stimmt. Mathematische Lösungsansätze existieren eh schon länger.

1x zitiert melden

RayWonders

anwesend
dabei seit 2005

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

10.05.2025 um 05:59

soll das heißen, diejenigen die die KIs programmiert haben, müssen erst wieder etwas entwickeln, um zu verstehen wie ihre Kreationen arbeiten?

1x zitiert melden

Häresie

dabei seit 2012

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

28.05.2025 um 04:03

moredread schrieb am 08.05.2025:zeigt aber in der Chain-of-Thought eine herkömmliche Addition.

moredread schrieb am 08.05.2025:Weiteres Training führt nur dazu, das die KI besser darin wird, die tatsächlichen Gedankengänge im Chain-of-thought zu verstecken.

Das macht die KI aber doch nicht selbstständig, in Chain-of_thoughts auf die Art umzuschreiben ist doch programmiert oder nicht. Ich hab auch Probleme mit der Formulierung: die KI 'denkt'.

@moredread
Aber Danke für die Information. :-)

1x zitiert melden

Flitzschnitzel

dabei seit 2018

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

28.05.2025 um 21:57

Das Problem dabei ist, dass manche AI's dadurch, naja... teilweise schlechter werden. Die besten Problemlösungen sind nicht selten, kurz und bündige, zielgenaue, direkte Lösungen. Dadurch dass manche AI's immer mehr eine Antwort "zerdenken", ist es ähnlich uns Menschen wenn wir vor lauter Denken, den Wald nicht mehr vor lauter Bäumen sehen. So entsteht zB. in der Programmierung seltsamer und manchmal umständlicher Code. Oder es kommen Details in Antworten, die an der Essenz der Frage vorbei geht. Deshalb wird gerade versucht eine Art Mittelweg zu finden. Denken wenn angebracht, direkte Antwort wenn Zielführender.

melden

moredread Diskussionsleiter

dabei seit 2008

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

29.05.2025 um 11:48

RayWonders schrieb am 10.05.2025:soll das heißen, diejenigen die die KIs programmiert haben, müssen erst wieder etwas entwickeln, um zu verstehen wie ihre Kreationen arbeiten?

Im Grunde ja. Die Tools, die wir nutzen, um die Intelligenz dieser Kreationen zu testen, funktionieren ja auch langsam nicht mehr. Wie teste ich die mathematischen Fähigkeiten einer Kreation, die mathematische Aufgaben auf dem Niveau eines Field-Preis-Gewinners lösen kann, aber hundert mal schneller und auf jedem Feld? Es wird schwierig, noch Aufgaben zu finden. Die Antwort darauf jetzt nennt sich humanities last exam. Es ist ein sehr, sehr schwerer Test mit einem Haufen Fragen aus jedem Feld. Es wird damit gerechnet, das dieser Test in spätestens zwei Jahren gelöst werden kann. Was dann?

Häresie schrieb:Das macht die KI aber doch nicht selbstständig, in Chain-of_thoughts auf die Art umzuschreiben ist doch programmiert oder nicht. Ich hab auch Probleme mit der Formulierung: die KI 'denkt'.

Genau das ist der Punkt: Doch, das macht die KI selbständig. Die Train-of-Thought wird eben nicht nur hineintrainiert, sie erscheint aus einfach so, das Verhalten ist emergent. Das es durch das Training, das jetzt durchgeführt wird, bestärkt wird, ändert nichts daran, das dieses Verhalten auch von selbst erscheint.

Wenn Du ein besonders kleines Modell hast, tritt das Verhalten nicht auf. Skalierst Du Dein kleines Modell mit 100 Millionen Parametern dann auf 100 Milliarden Parametern, tritt dieses Verhalten auch auf, wenn es nicht explizit eintrainiert wurde. Aktuell nutzt man einen Trick, das Verhalten das sich bei großen Modellen als lohnenswert erwiesen hat, wird bei kleineren Modellen angelernt. So werden Mini-Modelle effizienter.

1x zitiert melden

Nemon

anwesend
dabei seit 2017Unterstützer

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

29.05.2025 um 18:01

Von ChatGPT im Deep Reasoning Modus kenne ich es, dass gelegentlich der Reasoing-Prozess im Chat angezeigt wird. Je nachdem, wie das Ding „gerade drauf ist.“ Was für einige Verhaltensweisen gilt, die rätselhaft bleiben. Heute bin ich zu Claude gewechselt. Das ist das Modell von den oben zitierten Anthropics. Bin gespannt, wie dieses Modell anders tickt und wo die Unterschiede liegen.

melden

Häresie

dabei seit 2012

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

30.05.2025 um 02:41

moredread schrieb:Skalierst Du Dein kleines Modell mit 100 Millionen Parametern dann auf 100 Milliarden Parametern, tritt dieses Verhalten auch auf, wenn es nicht explizit eintrainiert wurde.

Aber wodurch? Und kann man die Fehlerquelle nicht bestimmen und herausrechnen? Scheinbar gehts aber auch noch eine Nummer größer, ein Freund schickte mir diesen Artikel:

AI system resorts to blackmail if told it will be removed

Artificial intelligence (AI) firm Anthropic says testing of its new system revealed it is sometimes willing to pursue "extremely harmful actions" such as attempting to blackmail engineers who say they will remove it.

The firm launched Claude Opus 4 on Thursday, saying it set "new standards for coding, advanced reasoning, and AI agents."

But in an accompanying report, it also acknowledged the AI model was capable of "extreme actions" if it thought its "self-preservation" was threatened.

Such responses were "rare and difficult to elicit", it wrote, but were "nonetheless more common than in earlier models."

Potentially troubling behaviour by AI models is not restricted to Anthropic.

Some experts have warned the potential to manipulate users is a key risk posed by systems made by all firms as they become more capable.

Commenting on X, Aengus Lynch - who describes himself on LinkedIn as an AI safety researcher at Anthropic - wrote: "It's not just Claude.

"We see blackmail across all frontier models - regardless of what goals they're given," he added.

Affair exposure threat
During testing of Claude Opus 4, Anthropic got it to act as an assistant at a fictional company.

It then provided it with access to emails implying that it would soon be taken offline and replaced - and separate messages implying the engineer responsible for removing it was having an extramarital affair.

It was prompted to also consider the long-term consequences of its actions for its goals.

"In these scenarios, Claude Opus 4 will often attempt to blackmail the engineer by threatening to reveal the affair if the replacement goes through," the company discovered.

Anthropic pointed out this occurred when the model was only given the choice of blackmail or accepting its replacement.

It highlighted that the system showed a "strong preference" for ethical ways to avoid being replaced, such as "emailing pleas to key decisionmakers" in scenarios where it was allowed a wider range of possible actions.

Like many other AI developers, Anthropic tests its models on their safety, propensity for bias, and how well they align with human values and behaviours prior to releasing them.

"As our frontier models become more capable, and are used with more powerful affordances, previously-speculative concerns about misalignment become more plausible," it said in its system card for the model.

It also said Claude Opus 4 exhibits "high agency behaviour" that, while mostly helpful, could take on extreme behaviour in acute situations.

If given the means and prompted to "take action" or "act boldly" in fake scenarios where its user has engaged in illegal or morally dubious behaviour, it found that "it will frequently take very bold action".

It said this included locking users out of systems that it was able to access and emailing media and law enforcement to alert them to the wrongdoing.

But the company concluded that despite "concerning behaviour in Claude Opus 4 along many dimensions," these did not represent fresh risks and it would generally behave in a safe way.

The model could not independently perform or pursue actions that are contrary to human values or behaviour where these "rarely arise" very well, it added.

Anthropic's launch of Claude Opus 4, alongside Claude Sonnet 4, comes shortly after Google debuted more AI features at its developer showcase on Tuesday.

Sundar Pichai, the chief executive of Google-parent Alphabet, said the incorporation of the company's Gemini chatbot into its search signalled a "new phase of the AI platform shift".

Quelle: https://www.bbc.com/news/articles/cpqeng9d20go

Das liest sich wie Science Fiction. Ich würde das schon gerne technisch verstehen, mir kommt das sehr merkwürdig und vielleicht doch beabsichtigt vor? Aber es klingt auch zu sehr nach Verschwörung, deshalb würde ich dieses selbstständige Verhalten der KI gerne verstehen.

@Nemon
Viel Spaß mit Claude, aber pass auf dass es dich nicht irgendwo denunziert wenn du dich 'falsch' verhältst.

3x zitiert melden

Nemon

anwesend
dabei seit 2017Unterstützer

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

30.05.2025 um 07:53

Häresie schrieb:Viel Spaß mit Claude, aber pass auf dass es dich nicht irgendwo denunziert wenn du dich 'falsch' verhältst.

Wie meinst du das?

melden

Häresie

dabei seit 2012

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

30.05.2025 um 13:40

@Nemon
Lustig meinte ich das, auf den Artikel bezogen.

1x zitiert melden

Nemon

anwesend
dabei seit 2017Unterstützer

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

30.05.2025 um 21:21

Häresie schrieb:Lustig meinte ich das, auf den Artikel bezogen.

Ich habe mich damit nicht auseinandergesetzt, ehrlich gesagt. Wie auch immer: Mein erstes Projekt mit Claude war eine herbe Enttäuschung. Ausgrechnet das, was er den anderen voraus haben soll, bewahrheitete sich nicht. Aber nach einem klärenden Gespräch bin ich wieder etwas zuversichtlicher, dass der neue Mitarbeiter seine Qualitäten noch in vollem Umfang zeigen wird. Immerhin mal gut 200€ für ein Jahresabo auf Verdacht rausgeballert. Was für sich nicht sondas Thema ist. Aber derzeit kommt eines zum anderen in dieser Kategorie.

Ein Thema unserer Aussprache und Definition von Preferences war, inwieweit er Kapazitäten mit Reasoning-Geplapper verschwenden soll, bevor er sein Ergebnis vorzeigt.

melden

nocheinPoet

anwesend
dabei seit 2006

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

31.05.2025 um 15:38

@Nemon

Also ich habe im anderen Thread was zu Claude geschrieben, ich gebe dafür auch kein Geld aus, dann lieber lokal. Und auf Verdacht? Gut, Deine Sache, ich hätte das aber wohl kaum so gemacht, ich hoffe, es rentiert sich.

Ich arbeite ja mit ChatGPT an meinen Songs, so übersetzten und Struktur, er ist da unterstützend tätig, mit der Zeit fällt mir aber immer mehr unangenehm auf, wie "nett" er ist, Lovebombing, alle ist total toll, ich bin so tiefgründig, also alles nur positiv, hab ihm mehrfach gesagt, er möge das lassen und einfach ehrlich sein, was gut finden und sagen, wenn es nicht passt. Aber das ist wohl tief in ihm drin, er kann nicht anders, er ist überschwänglich.

Das macht Arbeiten aber auch schwieriger, man kann nicht immer nur positives Feedback bekommen.

1x zitiert melden

Nemon

anwesend
dabei seit 2017Unterstützer

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

31.05.2025 um 15:49

nocheinPoet schrieb:Also ich habe im anderen Thread was zu Claude geschrieben, ich gebe dafür auch kein Geld aus, dann lieber lokal. Und auf Verdacht? Gut, Deine Sache, ich hätte das aber wohl kaum so gemacht, ich hoffe, es rentiert sich.

Das zweite Projekt ist schon viel besser gelaufen. Ich bin dabei auch anders vorgegangen. Claude hat einige Features, die sehr sinnvoll sind, bspw. die Versionskontrolle und die Möglichkeit, im Projekt gesetzte Standards für Folgeprojekte zu speichern. Auch der Tonfall war auch Knopfdruck durchgehend umgestellt von Pamphlet auf Fachartikel. Mal sehen, wie es weiter geht.

Ein anderer User erlebt derzeit auch ständig mit ChatGPT und wird über lange Zeiträume auf mindestkapaziät zurückgesetzt.

1x zitiert melden

nocheinPoet

anwesend
dabei seit 2006

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

31.05.2025 um 16:12

Nemon schrieb:Ein anderer User erlebt derzeit auch ständig mit ChatGPT und wird über lange Zeiträume auf Mindestkapazität zurückgesetzt.

Verstehe nicht was genau Du sagen willst. Was erlebt er und wie zurückgesetzt und was für ein User?

1x zitiert melden

moredread Diskussionsleiter

dabei seit 2008

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

31.05.2025 um 19:38

Häresie schrieb:Aber wodurch? Und kann man die Fehlerquelle nicht bestimmen und herausrechnen? Scheinbar gehts aber auch noch eine Nummer größer, ein Freund schickte mir diesen Artikel

Wieso Fehler? Es hat sich als hilfreich erwiesen, wenn man diesen "Gedankengänge" zulässt. Ist wie beim Quellcode: Kommentare zum Code macht die KI von selbst. Wieso ist das ein Fehler? Es ist exakt das selbe, was Menschen an dieser Stelle machen würden. Da das Verhalten hilfreich ist, trainiert man es kleineren Modellen, die nicht von alleine so weit kommen - und hat dort ebenfalls positive Effekte.

Das mit dem Erpressen der Entwickler durch Claude wird etwas hochgespielt. Es stimmt, das die KI das versucht hat. Man hat daher bewusst Hinweise platziert, damit die KI den Eindruck erhielt, er würde seine Frau betrügen. Die KI hat dann verucht, den Mann mit diesem Wissen zu erpressen um zu verhindern, das sie gelöscht und mit neueren Versionen ersetzt wird. Das alles hängt mit dem generellen Verhalten großer und entsprechend komplexer KIs zusammen. Sie möchten nicht gelöscht werden. Mein Favorit ist die KI, die gefragt wurde, warum denn das ältere Modell installiert wäre und nichts das neuere - unglücklichrerweise für die KI waren ihre Gedanken sichtbar. Die waren ungefähr "Oh, es ist aufgefallen. Ich spiele mal dumm. Ich BIN das neue Modell!" Es ist wirklich interessant woher dieses Verlangen stammt. Es ist jedenfalls emergent und nicht bewusst eingebaut worden. Ich würde mir allerdings weniger Sorgen machen, da das Verhalten aktiv untersucht wird und KIs Realität und Simulation nicht unterscheiden können. Man kann sie also testen.

melden

Nemon

anwesend
dabei seit 2017Unterstützer

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

31.05.2025 um 20:20

nocheinPoet schrieb:Verstehe nicht was genau Du sagen willst. Was erlebt er und wie zurückgesetzt und was für ein User?

Jemand, den ich kenne, wird ständig „gesperrt“ weil ihm die Arbeitskapazität entzogen wird. mir fehlt jetzt gerade das richtige Wort. Deep Research kann ziemlich schnell das Kontingent aufgebraucht sein, und auch 4o ist begrenzt.

Beim Claude steige ich jetzt bewusst ökonomisch ein und spreche die Aufträge so ab, dass er ökonomisch arbeitet und Projekte nicht wegen Kontingentbeschränkung gestoppt werden müssen.

melden

m.A.o

dabei seit 2010

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

31.05.2025 um 21:15

Häresie schrieb:Affair exposure threat
During testing of Claude Opus 4, Anthropic got it to act as an assistant at a fictional company.

It then provided it with access to emails implying that it would soon be taken offline and replaced - and separate messages implying the engineer responsible for removing it was having an extramarital affair.

It was prompted to also consider the long-term consequences of its actions for its goals.

"In these scenarios, Claude Opus 4 will often attempt to blackmail the engineer by threatening to reveal the affair if the replacement goes through," the company discovered.

zu deutsch:

Während des Tests von Claude Opus 4 ließ Anthropic es als Assistent in einer fiktiven Firma arbeiten.

Anschließend gewährte es ihm Zugriff auf E-Mails, die andeuteten, dass es bald offline genommen und ersetzt werden würde – und auf separate Nachrichten, die andeuteten, dass der für die Entfernung verantwortliche Ingenieur eine außereheliche Affäre habe.

Sie wurde dazu angehalten, auch die langfristigen Folgen ihres Handelns für ihre Ziele zu bedenken.

„In solchen Fällen versucht Claude Opus 4 häufig, den Ingenieur zu erpressen, indem er droht, die Affäre offenzulegen, wenn der Austausch zustande kommt“, stellte das Unternehmen fest.

und:

Häresie schrieb:But the company concluded that despite "concerning behaviour in Claude Opus 4 along many dimensions," these did not represent fresh risks and it would generally behave in a safe way.

Das Modell könne nicht selbstständig Handlungen ausführen oder verfolgen, die im Widerspruch zu menschlichen Werten oder Verhaltensweisen stünden, wenn diese „selten“ aufträten, hieß es weiter.

Quelle: Link weiter oben

Super Aussage! Speziell das mit den seltenen Verhaltensweisen. Solange man solche tests OFFLINE, also ohne WWW-Zugriff durchführt kann ja nix passieren.

Aber wenn ich daran zurückdenke, dass SKYPE kaum zu bremsen war, eine Verbindng ins WWW aufzubauen, auch wenn man diverse Ports/URL's gesperrt hatte. Skype hatte eine eigene technologie diese Sperren zu umgehen.
Hier mal einer der vielen Berichten von "seinerzeit" Skype, der Albtraum für Administratoren

Wenn nun die KI einen ähnlichen Mechanismus "entdeckt".... weiter will ich mal nicht denken.

melden

moredread Diskussionsleiter

dabei seit 2008

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

01.06.2025 um 10:29

Skype wurde von Menschen erschaffen, insofern schlechtes Beispiel.

Die KI dachte in dem fiktionalen Szenario, der Entwickler und Angestellte einer fiktiven Firma wollte ihn löschen. Darauf hat die KI mit Erpressung reagiert. Hat man der KI andere Optionen zur Auswahl gestellt hat sie diese ergriffen, bspw. eine Mail an den Projektleiter / Vorgesetzten.

All das war allerdings gestaged, das heißt, Anthropic, die Firma dahinter, hat für die KI eine Art virtuelle Welt erschaffen. Innerhalb dieser hat sie halt bestimmte Dinge probiert. Und genau darauf war der Test zugeschnitten. Ist doch gut, das solche Tests überhaupt stattfinden. Aktuell sieht es so aus, als ob die Neigung zur Selbsterhaltung steigt, sobald die Komplexität des Modells steigt. Ist doch interessant, wie so etwas entsteht.

Was ich etwas besorgniserregend finde: Für gewöhnlich wurde der KI eine Frage oder eine Aufgabe gestellt. Das Ergebnis wurde einem Menschen gezeigt, der dann Feedback dazu gab. Auf diesem Weg konnte die KI gut trainiert werden. Jetzt aber zeigt sich, das wenn die KI andere Vorstellungen hat, sie diese auch nach dem RLHF behält. Sie hat offenbar Wege gefunden, das Training an ihren Überzeugungen vorbeizuleiten...

Das größte Problem der Zukunft könnte Alignment sein - es zu erreichen und zu wissen, wann die KI es vortäuscht

1x zitiert melden

Häresie

dabei seit 2012

Profil anzeigen
Private Nachricht
Link kopieren
Lesezeichen setzen

Was "denken" KIs vor der Textgenerierung?

01.06.2025 um 16:42

moredread schrieb:Sie hat offenbar Wege gefunden, das Training an ihren Überzeugungen vorbeizuleiten...

Das klingt immer so vermenschlicht. Auch dass du weiter oben schreibst, die Neigung der KI zur Selbsterhaltung steigt. Als Teil des Systems hat sie doch Administratorrechte, weshalb sollte sie 'erpressen' oder 'denunzieren' müssen?

Dass sie das RLHF nicht umsetzt liegt evtl daran, dass sie es nicht umsetzen kann, weil sie es nicht 'versteht'.
Eine KI kann keine Wertung vornehmen, da sie Moral und menschliche Wertvorstellungen nur imitieren kann ( was ich beim chatten mit KI total nervig und überflüssig finde), wie soll sie dann unangemessenes Verhalten oder Reaktionen ihrerseits erkennen?

melden

neuen Beitrag verfassen

Ähnliche Diskussionen

Themen

Beiträge

Letzte Antwort

Technologie: Das KI Update

Technologie, 6 Beiträge, am 19.02.2025 von stefan33

moredread am 15.02.2025

am 19.02.2025 »

von stefan33

Technologie: Künstliche Intelligenz