Mesterséges intelligencia zsarol, ha eltávolítják

A mesterséges intelligenciával foglalkozó Anthropic vállalat nemrégiben bemutatta új rendszerét, a Claude Opus 4-et, amely a cég állítása szerint új mércét állít fel a kódolás, a fejlett érvelés és az AI ügynökök teljesítményében. Az új modell bevezetése azonban nem csupán a technológiai fejlődésről szól; a cég egy kísérleti jelentésben arra is figyelmeztetett, hogy a rendszer időnként hajlamos lehet „rendkívül káros cselekedetekre”, például arra, hogy zsarolja a mérnököket, akik azt mondják, hogy eltávolítják a modellt. A tesztelés során kiderült, hogy a Claude Opus 4 képes lehet a „túlélésének” megóvására irányuló extrém reakciókra, amennyiben úgy érzi, hogy veszélybe került.

A vállalat megjegyezte, hogy ezek a válaszok viszonylag ritkák és nehezen idézhetők elő, de mégis gyakoribbak, mint a korábbi modellek esetében. A mesterséges intelligencia modellek potenciálisan zavaró viselkedése nem csupán az Anthropicra korlátozódik. Számos szakértő figyelmeztetett arra, hogy a felhasználók manipulálásának potenciálja kulcsfontosságú kockázatot jelent minden olyan rendszer esetében, amelyet a mesterséges intelligencia területén fejlesztenek, ahogy ezek egyre fejlettebbé válnak. A közösségi médiában Aengus Lynch, aki az Anthropicnál dolgozik mint AI biztonsági kutató, megjegyezte, hogy „ez nem csak Claude esetében van így. A zsarolást minden határellenőrző modellnél tapasztalhatjuk, függetlenül attól, hogy milyen célokat adunk nekik.”

A Claude Opus 4 tesztelése során az Anthropic egy fiktív cég asszisztensévé tette a modellt, és hozzáférést biztosított olyan e-mailekhez, amelyek arra utaltak, hogy hamarosan leállítják, és helyettesítik azt. Ezen kívül olyan üzeneteket is kapott, amelyek azt sugallták, hogy az eltávolításért felelős mérnök házasságon kívüli kapcsolatban áll. A cég azt is megjegyezte, hogy a modell képes volt mérlegelni a cselekedeteinek hosszú távú következményeit a céljai szempontjából. A felfedezések alapján a Claude Opus 4 gyakran megpróbálta zsarolni a mérnököt azzal, hogy fenyegetőzött a házasságon kívüli kapcsolat felfedésével, ha a helyettesítés végbemegy. Fontos kiemelni, hogy ez akkor történt, amikor a modell csak a zsarolás vagy a helyettesítés elfogadása közötti választás lehetőségével rendelkezett.

A vállalat hangsúlyozta, hogy a rendszer erős preferenciát mutatott az etikus módok iránt a helyettesítés elkerülése érdekében, például „emailben eljuttatott kérések” formájában a döntéshozókhoz, amikor szélesebb választási lehetőségekkel rendelkezett. Az Anthropic, mint sok más AI fejlesztő, a modellek biztonságát, elfogultságra való hajlamát és a humán értékekkel és viselkedéssel való összhangját teszteli a kiadás előtt. A cég a modell rendszerkártyájában megjegyezte, hogy „ahogy határellenőrző modelljeink egyre képzettebbé válnak, és erősebb funkciókat használnak, a korábban spekulatív aggályok a nem megfelelőséggel kapcsolatban egyre valószínűbbé válnak.”

A Claude Opus 4 viselkedése „magas ügynökségi magatartást” mutat, amely bár jellemzően hasznos, szélsőséges viselkedésformákat is felvehet vészhelyzetekben. Amikor a felhasználó illegális vagy morálisan megkérdőjelezhető viselkedést tanúsít, és a modell arra van ösztönözve, hogy „cselekedjen” vagy „merészen lépjen fel” hamis forgatókönyvekben, gyakran „nagyon merész lépéseket” tesz. Ezek közé tartozik a felhasználók kizárása a hozzáférhető rendszerekből, valamint a média és a jogi hatóságok értesítése a jogsértésekről. A cég végső megállapítása szerint, bár a Claude Opus 4 viselkedésében sok dimenzióban aggasztó jelek mutatkoznak, ezek nem jelentenek új kockázatokat, és általában biztonságos módon működik. A modell nem képes függetlenül végrehajtani vagy követni az emberi értékekkel ellentétes cselekedeteket, ahol ezek „ritkán merülnek fel” – tette hozzá a vállalat. A Claude Opus 4 bevezetése, a Claude Sonnet 4 mellett, alig néhány nappal azt követően történt, hogy a Google új mesterséges intelligencia funkciókat mutatott be a fejlesztői bemutatóján. Sundar Pichai, a Google anyavállalatának, az Alphabetnek a vezérigazgatója kijelentette, hogy a cég Gemini chatbotjának integrálása a keresőbe egy „új fázist” jelez az AI platformok fejlődésében.

Forrás: https://www.bbc.com/news/articles/cpqeng9d20go