AI research by Anthropic sheds light on 'black box'

Von

Lucas Ropek / Gizmodo

Veröffentlicht23. Mai 2024

Für die Links auf dieser Seite können wir eine Provision verdienen.

Bild für Artikel mit dem Titel Kopie von Neue anthropologische Forschung wirft Licht auf die „Black Box der KI — Foto: Andrej Sokolow/picture alliance (Getty Images)

Obwohl sie von Menschen geschaffen werden, sind große Sprachmodelle immer noch ziemlich mysteriös. Die hochentwickelten Algorithmen, die unseren aktuellen Boom der künstlichen Intelligenz antreiben, tun Dinge, die für die Menschen, die sie beobachten, nicht offensichtlich erklärbar sind. Aus diesem Grund wurde KI bisher weitgehend eine sogenannte „Blackbox“, ein Phänomen, das von außen nicht leicht verstanden wird. Eine kürzlich veröffentlichte Studie von Anthropic, einem der führenden Unternehmen der KI-Branche, versucht, Licht in die verwirrenderen Aspekte des algorithmischen Verhaltens von KI zu bringen. Am Dienstag veröffentlichte Anthropic eine Forschungspapier sollte erklären, warum der KI-Chatbot Claude bevorzugt Inhalte zu bestimmten Themen und nicht zu anderen generiert.KI-Systeme

sind eingerichtet in einer groben Annäherung an das menschliche Gehirn –geschichtete neuronale Netzwerke, die Informationen aufnehmen und verarbeiten und dann auf der Basis dieser Informationen „Entscheidungen“ oder Vorhersagen treffen. Solche Systeme werden an großen Datenteilmengen „trainiert“, wodurch sie algorithmische Verbindungen herstellen können. Wenn KI-Systeme auf der Basis ihrem Training Daten ausgeben, wissen menschliche Beobachter jedoch nicht immer, wie der Algorithmus zu diesen Ergebnissen gekommen ist. Dieses Mysterium führte zur Entstehung des Fachgebiets

KI „Interpretation”, wo Forscher versuchen, den Weg der Entscheidungsfindung der Maschine nachzuvollziehen, um ihre Ergebnisse verstehen zu können. Im Bereich der KI-Interpretation bezieht sich ein „Feature“ auf ein Muster aktivierter „Neuronen“

innerhalb eines neuronalen Netzes – praktisch ein Konzept, auf das der Algorithmus zurückgreifen kann. Je mehr „Merkmale“ innerhalb eines neuronalen Netzes Forscher verstehen können, desto besser können sie verstehen, wie bestimmte Eingaben das Netz dazu veranlassen, bestimmte Ausgaben zu beeinflussen. In eine Notiz Anhand ihrer Ergebnisse erklären anthropologische Forscher, wie sie einen als „Wörterbuchlernen“ bekannten Prozess anwendeten, um zu entschlüsseln, welche Teile von Claudes neuronalem Netzwerk bestimmten Konzepten zuordnen sind. Mit dieser Methode waren sie in der Lage , dass sie das Modellverhalten „erst verstehen konnten, indem sie erkannten und sahen, welche Merkmale auf eine bestimmte Eingabe reagieren. Dadurch erhielten sie Einblicke in die ‚Argumentation‘ des Modells, wie es zu einer bestimmten Antwort kam.“In einem Interview mit dem Forschungsteam von Anthropic

von Steven Levy von Wirederklärten die Mitarbeiter, wie es war, zu entschlüsseln, wie Claudes „Gehirn“ funktioniert. Nachdem sie herausgefunden hatten, wie sich ein Merkmal entschlüsseln ließ, führte dies zu weiteren: Ein Merkmal, das ihnen auffiel, war mit der Golden Gate Bridge verbunden. Sie kartierten die Gruppe von Neuronen, die, wenn sie gemeinsam aktiviert wurden, darauf hinwiesen, dass Claude an das riesige Bauwerk „nachdachte“, das San Francisco mit Marin County verbindet. Darüber hinaus riefen ähnliche Gruppen von Neuronen, wenn sie aktiviert wurden, Themen hervor, die mit der Golden Gate Bridge in Verbindung standen: Alcatraz, der kalifornische Gouverneur Gavin Newsom und der Hitchcock-Film.

Schwindel, das in San Francisco spielt. Insgesamt identifizierte das Team Millionen von Merkmalen – eine Art Rosettastein zum Entschlüsseln von Claudes neuronalem Netz. Es sollte beachtet werden, dass Anthropic, wie andere gewinnorientierte Unternehmen auch, gewisse geschäftsbezogene Beweggründe für die Art und Weise haben könnte, wie es seine Forschungsergebnisse verfasst und veröffentlicht.

Papier ist öffentlich, was bedeutet, dass Sie es selbst lesen und Ihre eigenen Schlussfolgerungen über die Ergebnisse und Methoden ziehen können. , which was set in San Francisco. All told the team identified millions of features—a sort of Rosetta Stone to decode Claude’s neural net.

It should be noted that Anthropic, like other for-profit companies, could have certain, business-related motivations for writing and publishing its research in the way that it has. That said, the team’s paper is public, which means that you can go read it for yourself and make your own conclusions about their findings and methodologies.

A version of this article originally appeared on Gizmodo.

Dieser Inhalt wurde maschinell aus dem Originalmaterial übersetzt. Aufgrund der Nuancen der automatisierten Übersetzung können geringfügige Unterschiede bestehen. Für die Originalversion klicken Sie hier

📬 Sign up for the Daily Brief

Our free, fast, and fun briefing on the global economy, delivered every weekday morning.

Warum verhalten sich große Sprachmodelle so, wie sie es tun? Neue Forschungsergebnisse liefern einige Hinweise.

📬 Sign up for the Daily Brief