Milyen jövő vár ránk, ha már a mesterséges intelligencia is képes hazudni?
A közelmúltban két új tanulmány is napvilágot látott arról, hogyan lehet szándékos és etikátlan manipulációra ösztönözni a legkorszerűbb nyelvi modelleket. Nem sok jót vetít előre, ha már a mesterséges intelligencia is képes megtéveszteni az embereket.
Nem alkotnak bizalomgerjesztő képet a mesterséges intelligencia jövőjéről azok a friss tanulmányok, melyek a PNAS és a Patterns című folyóiratok hasábjain jelentek meg: mindkét friss szöveg arra világít rá, hogy a legmodernebb nyelvi modellek immár képesek tudatosan hazudni az embereknek. Thilo Hagendorff, a Stuttgarti Egyetem kutatója a PNAS folyóiratban arról értekezett, hogy a GPT-4-hez hasonló szoftverek „machiavellisztikus” működésmódra hangolhatók, ami szándékos és amorális manipulációhoz, és így megtévesztő viselkedéshez vezet. Hagendorff felhívta rá a figyelmet, hogy a GPT-4 az egyszerű tesztfeladatok során túlnyomórészt (az esetek 99,16 százalékában) megtévesztő reakciókat mutatott.
Vizsgálatai során a német tudós tíz különböző MI nyelvi modellben vizsgálta meg a „maladaptív” vonásokat. A górcső alá vett termékek többsége az OpenAI nevével fémjelzett GPT-családba tartozott.
Hasonlóan érdekes konklúzióra jutott a Massachusetts Institute of Technology munkatársa, Peter Park is, aki kollégáival együtt a Patterns című folyóiratban összegezte a témával kapcsolatos eredményeit. A szakemberek megállapították, hogy a Meta Cicero nevű MI-modellje nem pusztán a megtévesztésben jeleskedik, de olykor a szándékos hazugság sem áll távol tőle. Ez az állapot pedig sokkal szorosabban kapcsolódik az „explicit manipulációhoz”, mint a más modelleknél megfigyelhető véletlen tévedés.
Hagendorff leszögezte: a mesterséges intelligencia problematikus viselkedésének kérdését bonyolítja, hogy az MI-modellek tetteit nem tudatos elhatározások és szándékok motiválják. A Patternsben közölt tanulmány ugyanakkor arra a konklúzióra jutott, hogy a Cicero megszegi a programozói által tett korábbi ígéretet, miszerint a modell „sosem fogja szándékosan hátba támadni” szövetségeseit a Diplomacy nevű stratégiai társasjátékban, melyen keresztül a kutatók megfigyelték és elemezték a szoftver viselkedését.
A tudósok szerint a Cicero „az előre megfontolt megtévesztés eszközével él, megszegi a játékszabályokat, melyeket korábban elfogadott, és nyíltan közöl valótlanságokat”. Park egy sajtótájékoztató alkalmával így summázta a kutatócsoport tapasztalatait: „Azt találtuk, hogy a Meta mesterséges intelligenciája rájött, hogyan válhat a megtévesztés mesterévé.”
Fontos ugyanakkor hozzátenni: egyik tanulmány sem bizonyította hitelt érdemlően, hogy a legmodernebb MI-modellek szándékosan becsapnák az emberi megfigyelőket. A szoftverek „machiavellisztikus” működésmódja inkább belső hibáiknak köszönhető, illetve annak, hogy olykor kifejezetten a megtévesztésre programozzák őket. Mindez pedig megnyugtathatja azokat, akiket a mesterséges intelligencia „öntudatra ébredése” vagy esetleges „szándékos rosszindulata” miatt tölt el aggodalom.