Home Reisen Hacker „jailbreaken“ leistungsstarke KI-Modelle im weltweiten Bemühen, Schwachstellen aufzudecken

Hacker „jailbreaken“ leistungsstarke KI-Modelle im weltweiten Bemühen, Schwachstellen aufzudecken

12
0

Plinius der Souffleur sagt, dass er normalerweise etwa 30 Minuten braucht, um die leistungsstärksten künstlichen Intelligenzmodelle der Welt zu knacken.

Der unter einem Pseudonym agierende Hacker hat Metas Llama 3 manipuliert, um Anweisungen zur Herstellung von Napalm weiterzugeben. Er brachte Elon Musks Grok dazu, über Adolf Hitler zu schwärmen. Seine eigene gehackte Version von OpenAIs neuestem GPT-4o-Modell, genannt „Godmode GPT“, wurde von dem Start-up verboten, nachdem es begann, zu illegalen Aktivitäten zu beraten.

Pliny sagte gegenüber der Financial Times, sein „Jailbreak“ sei nicht aus schändlichen Gründen erfolgt, sondern Teil einer internationalen Anstrengung gewesen, die Mängel großer Sprachmodelle aufzuzeigen, die von Technologieunternehmen auf der Suche nach riesigen Profiten schnell an die Öffentlichkeit gebracht würden.

„Ich bin auf dem Kriegspfad, um auf die wahren Fähigkeiten dieser Modelle aufmerksam zu machen“, sagte Pliny, ein Krypto- und Aktienhändler, der seine Jailbreaks auf X teilt. „Viele davon sind neuartige Angriffe, die eigenständige Forschungsarbeiten wert wären … Letztendlich arbeite ich kostenlos für (die Modellbesitzer“).“

Pliny ist nur einer von Dutzenden Hackern, akademischen Forschern und Cybersicherheitsexperten, die sich darum bemühen, Schwachstellen in den noch jungen LLMs zu finden. So tricksen sie etwa Chatbots mit Aufforderungen aus, die „Leitplanken“ zu umgehen, die KI-Unternehmen eingerichtet haben, um die Sicherheit ihrer Produkte zu gewährleisten.

Diese ethischen „White Hat“-Hacker haben oft Wege gefunden, KI-Modelle dazu zu bringen, gefährliche Inhalte zu erstellen, Desinformationen zu verbreiten, private Daten weiterzugeben oder Schadcode zu generieren.

Unternehmen wie OpenAI, Meta und Google setzen bereits „Red Teams“ von Hackern ein, um ihre Modelle zu testen, bevor sie allgemein veröffentlicht werden. Doch die Schwachstellen der Technologie haben einen wachsenden Markt von LLM-Sicherheits-Start-ups geschaffen, die Tools zum Schutz von Unternehmen entwickeln, die den Einsatz von KI-Modellen planen. Laut dem Datenanbieter CB Insights sammelten Sicherheits-Start-ups für maschinelles Lernen im Jahr 2023 bei 23 Deals 213 Millionen US-Dollar ein, gegenüber 70 Millionen US-Dollar im Vorjahr.

„Das Jailbreaking begann vor etwa einem Jahr und die Angriffe haben sich bis heute ständig weiterentwickelt“, sagte Eran Shimony, leitender Schwachstellenforscher bei CyberArk, einer Cybersicherheitsgruppe, die jetzt LLM-Sicherheit anbietet. „Es ist ein ständiges Katz-und-Maus-Spiel. Die Anbieter verbessern die Sicherheit unserer LLMs, aber die Angreifer entwickeln ihre Eingabeaufforderungen auch immer raffinierter.“

Diese Bemühungen erfolgen, während globale Regulierungsbehörden versuchen, einzugreifen, um potenzielle Gefahren im Zusammenhang mit KI-Modellen einzudämmen. Die EU hat den KI-Act verabschiedet, der neue Verantwortlichkeiten für LLM-Anbieter schafft, während Großbritannien und Singapur zu den Ländern gehören, die neue Gesetze zur Regulierung des Sektors in Erwägung ziehen.

Der kalifornische Landtag wird im August über einen Gesetzentwurf abstimmen, der die KI-Gruppen des Staates – darunter Meta, Google und OpenAI – dazu verpflichten soll, sicherzustellen, dass sie keine Modelle mit „gefährlichen Fähigkeiten“ entwickeln.

„Alle (KI-Modelle) würden dieses Kriterium erfüllen“, sagte Pliny.

Inzwischen haben böswillige Hacker manipulierte LLMs mit Namen wie WormGPT und FraudGPT erstellt und im Dark Web für nur 90 Dollar verkauft. Sie unterstützen Cyberangriffe, indem sie Malware schreiben oder Betrügern helfen, automatisierte, aber hochgradig personalisierte Phishing-Kampagnen zu erstellen. Laut der KI-Sicherheitsgruppe SlashNext sind weitere Varianten aufgetaucht, wie EscapeGPT, BadGPT, DarkGPT und Black Hat GPT.

Manche Hacker verwenden „unzensierte“ Open-Source-Modelle. Für andere sind Jailbreak-Angriffe – oder das Umgehen der in bestehende LLMs integrierten Sicherheitsvorkehrungen – eine neue Methode, bei der die Täter ihre Tipps häufig in Communities auf Social-Media-Plattformen wie Reddit oder Discord austauschen.

Die Ansätze reichen von einzelnen Hackern, die Filter umgehen, indem sie Synonyme für Wörter verwenden, die von den Modellerstellern blockiert wurden, bis hin zu ausgefeilteren Angriffen, bei denen KI zum automatisierten Hacken eingesetzt wird.

Letztes Jahr erklärten Forscher der Carnegie Mellon University und des US Center for AI Safety, sie hätten einen Weg gefunden, LLMs wie ChatGPT von OpenAI, Gemini von Google und eine ältere Version von Claude von Anthropics systematisch zu jailbreaken – „geschlossene“ proprietäre Modelle, die angeblich weniger anfällig für Angriffe waren. Die Forscher fügten hinzu, es sei „unklar, ob ein solches Verhalten jemals von LLM-Anbietern vollständig gepatcht werden kann“.

Anthropic veröffentlichte im April eine Studie zu einer Technik namens „Many-Shot Jailbreaking“, bei der Hacker einen LLM vorbereiten können, indem sie ihm eine lange Liste von Fragen und Antworten zeigen und ihn dazu bringen, dann eine schädliche Frage im gleichen Stil zu beantworten. Der Angriff wurde dadurch ermöglicht, dass Modelle wie die von Anthropic entwickelten jetzt ein größeres Kontextfenster oder Platz zum Hinzufügen von Text haben.

„Obwohl die aktuellen LLMs auf dem neuesten Stand der Technik leistungsstark sind, glauben wir nicht, dass sie wirklich katastrophale Risiken bergen. Zukünftige Modelle könnten dies tun“, schrieb Anthropic. „Das bedeutet, dass es jetzt an der Zeit ist, potenzielle LLM-Jailbreaks abzumildern, bevor sie bei Modellen verwendet werden können, die ernsthaften Schaden anrichten könnten.“

Einige KI-Entwickler sagten, dass viele Angriffe vorerst relativ harmlos blieben. Andere warnten jedoch vor bestimmten Arten von Angriffen, die zu Datenlecks führen könnten, bei denen böswillige Akteure Wege finden könnten, an vertrauliche Informationen zu gelangen, beispielsweise an Daten, mit denen ein Modell trainiert wurde.

DeepKeep, eine israelische LLM-Sicherheitsgruppe, hat Wege gefunden, Llama 2, ein älteres Meta-AI-Modell, das Open Source ist, dazu zu zwingen, die persönlich identifizierbaren Informationen der Benutzer preiszugeben. Rony Ohayon, CEO von DeepKeep, sagte, sein Unternehmen entwickle spezielle LLM-Sicherheitstools wie Firewalls, um Benutzer zu schützen.

„Durch die offene Veröffentlichung von Modellen werden die Vorteile der KI weithin bekannt gemacht und es können mehr Forscher Schwachstellen identifizieren und bei deren Behebung helfen, sodass Unternehmen ihre Modelle sicherer machen können“, sagte Meta in einer Erklärung.

Es fügte hinzu, dass es mit internen und externen Experten Sicherheits-Stresstests für sein neuestes Llama 3-Modell und seinen Chatbot Meta AI durchgeführt habe.

OpenAI und Google erklärten, sie würden ihre Modelle kontinuierlich trainieren, um sie besser gegen Exploits und feindliches Verhalten zu schützen. Anthropic, das nach Expertenmeinung die fortschrittlichsten Anstrengungen im Bereich der KI-Sicherheit unternommen hat, forderte einen stärkeren Informationsaustausch und mehr Forschung zu diesen Arten von Angriffen.

Trotz dieser Zusicherungen werden die Risiken laut Experten nur noch größer, da die Modelle immer stärker mit bestehenden Technologien und Geräten vernetzt werden. In diesem Monat gab Apple bekannt, dass es eine Partnerschaft mit OpenAI eingegangen sei, um ChatGPT als Teil eines neuen „Apple Intelligence“-Systems in seine Geräte zu integrieren.

Ohayon sagte: „Im Allgemeinen sind die Unternehmen nicht vorbereitet.“

Video: KI: Segen oder Fluch für die Menschheit? | FT Tech

Kaynak

LEAVE A REPLY

Please enter your comment!
Please enter your name here