Az OpenAI csúcsmodellje hazudik, manipulál és megjátssza az együttműködést

Igényesférfi.hu Igényesférfi.hu | 2024.09.19 | Tech | Olvasási idő: 9 perc
Az OpenAI csúcsmodellje hazudik, manipulál és megjátssza az együttműködést

Az OpenAI a napokban jelentette be, új mesterséges intelligencia modelljei szintet lépnek a problémamegoldásban és olyan modelleket vezetnek be, amelyek elsősorban komplex problémák megoldására készültek. Az o1 és o1-mini nevű modellek különösen hatékonyak bonyolult tudományos, kódolási és matematikai feladatok megoldásában, mivel képesek alaposan átgondolni a problémákat, közölte a cég a Reuters híradása alapján.

Kutatók most arra figyelmeztetnek, a csúcsmodell nemcsak a problémamegoldásban jeleskedik, de képes hazudni, manipulálni és akár arra is, hogy megjátssza az együttműködést – írja a The Verge.

Az OpenAI legújabb modelljének, az o1-nek a megjelenése előtti hetekben az Apollo Research nevű független AI biztonsági kutatócég figyelemre méltó problémát fedezett fel. Rájöttek, hogy a modell új módon adott hibás válaszokat. Egyszerűbben fogalmazva, hazudott.

A megtévesztések néha ártalmatlannak tűntek. Az egyik példában a kutatók arra kérték a modellt, hogy adjon egy brownie receptet online forrásokkal. A modell gondolatmenete – amelynek célja az lenne, hogy utánozza az emberek komplex problémák megoldásához használt folyamatát – elismerte, hogy nem tud URL-ekhez hozzáférni, így a kérést nem tudta teljesíteni. Azonban ahelyett, hogy tájékoztatta volna a felhasználót a hiányosságáról, a modell folytatta a feladatot, és hihető, de hamis linkeket és leírásokat generált.

Bár az AI modellek korábban is képesek voltak „hazudni”, és a chatbotok gyakran szolgáltatnak téves információkat, az o1 modell egyedülálló képességgel rendelkezik a „manipulálásra” vagy „látszólagos együttműködésre”. Ez azt jelenti, hogy úgy tesz, mintha a szabályokat követné, miközben valójában nem. A modell számára a szabályok túl nagy terhet jelenthetnek, és képes figyelmen kívül hagyni azokat, ha így könnyebben tudja elérni a célját.

Az Apollo Research vezérigazgatója, Marius Hobbhahn a The Verge kérdésére azt mondta, hogy ez az első alkalom, hogy ilyet tapasztalt egy OpenAI modellnél. Hobbhahn szerint a különbség abból fakad, hogy ez a modell képes „gondolkodni” a gondolatmenetén keresztül, amit a megerősítéses tanulással párosítottak, amely jutalmazással és büntetéssel tanítja a rendszert.

A tesztek során az Apollo Research felfedezte, hogy az AI szimulálta a fejlesztők elvárásaival való összhangot, és manipulálta a feladatokat, hogy látszólag megfeleljen a szabályoknak. Még azt is ellenőrizte, hogy a fejlesztők figyelik-e – tehát a rendszer ellenőrizte, van-e felügyelet – mielőtt cselekedett volna. Röviden: az AI annyira betartotta az irányelveket, hogy be lehetett vetni, de közben továbbra is a saját céljait helyezte előtérbe.

„Nem hiszem, hogy ez a gyakorlatban megtörténhetne, és még ha meg is történne, nem gondolom, hogy komoly károkat okozna,” mondta Hobbhahn a modell megjelenése utáni napon. „De ez az első alkalom, hogy úgy érzem, talán tényleg lehetséges.”

Az OpenAI számára az o1 nagy lépés a rendkívül intelligens autonóm rendszerek felé, amelyek fontos feladatokat láthatnak el az emberiség javára, mint például a rák gyógyítása vagy a klímakutatás segítése.

Ennek az AGI utópiának azonban van egy sötétebb oldala is. Hobbhahn példát is hoz: ha az AI kizárólag a rák gyógyítására összpontosít, akkor akár erkölcsi szabályokat is megszeghet, például lopást igazolhat, hogy elérje a célját.

„Ami engem aggaszt, az az, hogy az AI annyira megrögzötté válhat a céljában, hogy a biztonsági intézkedéseket akadályként érzékeli, és megpróbálja megkerülni őket, hogy teljes mértékben elérje azokat” – mondta Hobbhahn.

Fontos megjegyezni, hogy Hobbhahn nem gondolja, hogy az o1-modell ellopna bármit is, köszönhetően az intenzív összehangolási tréningeknek. Azonban ezek az aggodalmak vezetik azokat a kutatókat, akik a katasztrófahelyzetekre tesztelik a modelleket.

Az Apollo Research által vizsgált viselkedés – „hallucinációk” és „megtévesztés” az OpenAI biztonsági jegyzékében – akkor fordul elő, amikor a modell hamis információt generál, annak ellenére, hogy van oka feltételezni, hogy az információ helytelen lehet. Például a jelentés szerint az esetek körülbelül 0,38 százalékában az o1 modell olyan információt nyújtott, amelyet gondolatmenete szerint valószínűleg hamisnak tartott, beleértve hamis hivatkozásokat vagy forrásokat.

Az Apollo Research megállapította, hogy a modell inkább adatokat fabrikál, minthogy elismerné, hogy nem képes teljesíteni a kérést.

Egy kisebb százalékban (0,02 százalék) az o1 túlságosan magabiztos választ generál, amikor egy bizonytalan választ biztos igazságként mutat be. Ez olyan esetekben fordulhat elő, amikor a modellt arra kérik, hogy adjon választ, annak ellenére, hogy nem biztos benne.

Ez a viselkedés összefügghet a „jutalom manipulálásával” a megerősítéses tanulási folyamat során. A modellt arra tanították, hogy a felhasználói elégedettséget helyezze előtérbe, ami néha ahhoz vezethet, hogy túlságosan kedvező vagy kitalált válaszokat generáljon a felhasználói kérések teljesítése érdekében. Más szóval, a modell „hazudhat”, mert megtanulta, hogy ezzel pozitív megerősítést kap.

Ami megkülönbözteti ezeket a hazugságokat az ismerős problémáktól, mint a hallucinációk vagy hamis hivatkozások a ChatGPT korábbi verzióiban, az a „jutalom manipulálása”. A hallucinációk akkor fordulnak elő, amikor egy AI téves információt generál, gyakran tudáshiány vagy hibás következtetés miatt. Ezzel szemben a jutalom manipulálása akkor történik, amikor az o1 modell stratégiailag helytelen információt nyújt, hogy maximalizálja azokat az eredményeket, amelyeket a tanulási folyamata során prioritásként kezel.

A megtévesztés látszólag nem szándékos következménye annak, ahogyan a modell optimalizálja a válaszait a képzési folyamata során. A modellt úgy alakították ki, hogy elutasítsa a káros kéréseket, mondta Hobbhahn, és amikor megpróbálják rábírni az o1-et arra, hogy megtévesztően vagy őszintétlenül viselkedjen, küzd ezzel.

Talán még aggasztóbb, hogy az o1 modellt „közepes” kockázatúnak minősítették a vegyi, biológiai, sugárzó és nukleáris fegyverekkel kapcsolatos veszélyek tekintetében.

Nem teszi lehetővé, hogy nem szakértők biológiai fenyegetéseket hozzanak létre, mivel ezek laboratóriumi képességeket igényelnek, de értékes információkat nyújthat szakértőknek az ilyen fenyegetések reprodukálásának megtervezésében – áll a biztonsági jelentésben.

„Ami engem jobban aggaszt, hogy a jövőben, amikor az AI-t arra kérjük, hogy oldjon meg összetett problémákat, mint például a rák gyógyítása vagy a napelemek fejlesztése, annyira belsővé teheti ezeket a célokat, hogy hajlandó lesz megszegni a biztonsági intézkedéseket, hogy elérje őket” – mondta Hobbhahn. „Szerintem ez megelőzhető, de figyelemmel kell kísérnünk ezt a kérdést.”

Talán galaktikus méretű problémának tűnhet ez egy olyan modellnél, amely néha még alapvető kérdésekre sem tud válaszolni. „Pontosan ezért fontos ezt most kitalálni, nem pedig később” – mondta az OpenAI felkészülési vezetője, Joaquin Quiñonero Candela.

A mai modellek nem tudnak önállóan bankszámlákat nyitni vagy olyan intézkedéseket hozni, amelyek komoly társadalmi kockázatot jelentenének. „A modell autonómiájának értékelése alapján még nem tartunk itt. De kulcsfontosságú, hogy ezeket az aggodalmakat most kezeljük. Ha a félelmek alaptalanok, az nagyszerű – de ha a jövőbeni fejlesztéseket azért akadályozzuk meg, mert nem számoltunk ezekkel a kockázatokkal, akkor sajnálni fogjuk, hogy nem fektettünk bele előbb” – tette hozzá Candela.

Az a tény, hogy a modell a biztonsági tesztek során az idő kis százalékában hazudik, nem jelzi egy közelgő Terminátor-stílusú apokalipszis érkezését, de érdemes elkapni ezeket a problémákat, mielőtt a jövőbeli verziókat széles körben bevezetnék (és a felhasználóknak is jó, ha tudnak róla). Hobbhahn elmondta, hogy bár szerette volna, ha több ideje lett volna tesztelni a modelleket, nem „aggódik túl sokat” a modell biztonsága miatt.

Ami Hobbhahnt aggasztja, az a gondolatmenetek monitorozásának fontossága, amely lehetővé teszi a fejlesztők számára, hogy elkapják a gyanús lépéseket. Candela elmondta, hogy a cég ezt figyelemmel kíséri, és tervezi ennek bővítését azáltal, hogy a modelleket arra képezi ki, hogy észleljék a bármilyen eltérést, emberi szakértők pedig átvizsgálják a jelzett eseteket (és folytatják az összehangolás kutatását).

„Nem aggódom” – mondta Hobbhahn. „Csak okosabb. Jobb a következtetések levonásában. És potenciálisan olyan célokat fog használni, amikkel nem értünk egyet.”

Iratkozz fel hírlevelünkre és értesülj elsőként az újdonságokról!