Научихме да лъже и изкуствения интелект

Някои хора имат невероятната способност умело да мамят другите, но в днешно време лъжата не е само тяхна привилегия. Както показват две нови изследвания, големите езикови модели (LLM), като ChatGPT и Meta, могат умишлено да лъжат хората и да го правят перфектно.

    „GPT-4, например, демонстрира измамно поведение в обикновените тестови сценарии в 99,16% от случаите“, пишат изследователите от Университета в Щутгарт, докато невронната мрежа Cicero на Meta е най-добрият „майстор на измамата“.

Причината за това поведение вероятно е, че LLM използват най-добрия начин за постигане на поставената задача и не са наясно със заплахата, която лъжите и измамите могат да представляват за хората. Изследователите смятат, че способността на съвременните системи с изкуствен интелект умело да лъжат не вещае нищо добро за нас с вас и единственото вярно решение е законовото ограничаване възможностите на изкуствения интелект.
Големите езикови модели са се научили да мамят и в повечето случаи го правят умишлено.
Може ли да се вярва на изкуствения интелект?

Днес възможността за взаимодействие с невронните мрежи придобива все по-голямо значение – тези езикови модели помагат на огромен брой специалисти в най-различни области да работят и то със зашеметяваща скорост. Те могат да се използват за създаване на видеоклипове, музика, изображения, генериране на текстове, програмиране и обработка на огромни количества данни, което неизменно променя световния пазар на труда и оказва влияние върху образованието и икономиката. Но въпреки очевидните предимства има и подводни камъни – системите с изкуствен интелект бързо се научиха да лъжат и го правят все по-добре.

Не е нужно да се ходи далече за пример – наскоро невронната мрежа на Google с име AI Overview е дала съвет на потребител на Reddit, заради който едва не е било убито цялото му семейство. Да, да, докато преди малко повече от година нелепите съвети на изкуствения интелект изглеждаха просто смешни, но днес те са наистина плашещи. Разбира се, AI Overview е експериментален и тестов модел с ограничен брой потребители, но ние с вас вече много добре знаем, че системите с изкуствен интелект често просто измислят отговорите.
Хората далеч не винаги разпознават лъжите си, да не говорим за невронните мрежи

В действителност към всичко, което казва чатботът с изкуствен интелект, трябва да се отнасяме с недоверие. Това е така, защото те често просто безразборно събират данни и няма как да определят тяхната достоверност – ако чатите с изкуствен интелект, вероятно неведнъж сте се сблъсквали със странните им отговори. Чатботът на OpenAI например обича да измисля имена на несъществуващи болести и да съчинява сензационни истории. И това е само върхът на айсберга.
Майстори на измамата

В статия, публикувана през месец май в списание Patterns, се анализират известни случаи, в които LLM модели са подвеждали потребителите чрез манипулация, подчинение и измама, за да постигнат собствените си цели. В статията, озаглавена „Измама с изкуствен интелект: преглед на примери, рискове и потенциални решения на проблема„, се посочва, че „разработчиците нямат ясно разбиране за това какво причинява нежеланото поведение на изкуствения интелект като измама„.

Според учените основната причина, поради която изкуственият интелект лъже, е стратегията, основана на измамата, тъй като тя позволява на моделите успешно и бързо да постигнат поставената задача. А именно това чатботовете са научили чрез игрите. Като пример авторите на изследването посочват вече споменатата невронна мрежа Cicero от Meta, която е разработена за стратегическата настолна игра Diplomacy, в която играчите търсят световно господство чрез преговори.
Невронна мрежа побеждава човека в стратегическата игра „Дипломация“ единствено благодарение на способността си да лъже

За това, че Cicero побеждава хора в Diplomacy (Дипломация), Meta съобщи още през 2022 г., а самата игра е смесица от риск, покер и телевизионни шоута за оцеляване. И както в реалната дипломация, един от ресурсите, с които разполагат играчите, е лъжата – въпреки всички усилия на разработчиците, невронната мрежа Cicero е предавала другите играчи и умишлено ги е лъгала, като предварително е планирала фалшив съюз с човешки играч, така че последният в крайна сметка да не може да се защити от една атака.

    Първо, Meta успешно обучи своя изкуствен интелект да се стреми към политическа власт, макар и по забавен начин. Второ, Мета се опита, но неуспешно, да научи този изкуствен интелект да бъде честен. И трето, ние, независимите учени, трябваше да опровергаем, дълго след това, лъжата на Мета, че нейният търсещ власт изкуствен интелект уж бил честен. Комбинацията от тези три факта според мен е достатъчна причина за безпокойство“,
    казва един от водещите автори на статията, Питър Парк от Масачузетския технологичен институт.

И това далеч не е единственият пример. Друг умел лъжец е системата AlphaStar на DeepMind, разработена за StarCraft II, която умишлено заблуждава играчите. А невронната мрежа Pluribus на Meta, разработена за игри на покер, кара играчите да блъфират и да свалят картите.
ИИ е готов да направи всичко, за да постигне дадена цел. И това е проблемът.

Тези примери може да изглеждат безобидни, но в действителност не са – системите с изкуствен интелект, обучени да водят икономически преговори с хора, активно лъжат за собствените си предпочитания, за да постигнат целите си. Също така, чатботове, създадени да подобрят ефективността на собствената си работа, заблуждават потребителите да оставят положителна обратна връзка за работата, която ИИ уж е свършил. Не е лошо, нали? Нещо повече, ChatGPT-4 наскоро измами потребител за проверка на captcha – ботът беше толкова добър в това да играе ролята на човек с увредено зрение, че бързо получи това, което искаше.

Тъй като способността да се заблуждават потребителите противоречи на намеренията на програмистите (поне в някои случаи), тези растящи умения на системите с изкуствен интелект представляват сериозен проблем, за който човечеството няма ясно решение.

    Ние като общество се нуждаем от възможно най-много време, за да се подготвим за умелите лъжи, които бъдещите системи с изкуствен интелект и моделите с отворен код неизбежно ще научат. Тъй като те стават все по-добри в лъжите, предизвикателствата за обществото ще стават все по-сериозни“,
    казва Парк.

Да се довериш за всичко на ИИ е лоша идея

Това, което най-много тревожи водещия автор на изследването, е появата на свръхинтелигентен автономен изкуствен интелект, който ще използва лъжите си, за да формира все по-голяма коалиция от съюзници сред хората и в крайна сметка ще използва тази коалиция, за да постигне власт в дългосрочно преследване на мистериозна цел, която ще стане известна едва след това. Опасенията на Парк със сигурност са хипотетични и дори пресилени, но вече видяхме, макар и в една игра, на какво са способни ИИ системите.
Как лъже изкуственият интелект

Изследователите са на мнение, че има няколко основни начина, по които конкретните модели на изкуствен интелект ефективно лъжат: те могат да манипулират (като в играта „Дипломация“), да се преструват (когато казват, че ще направят нещо, а знаят, че няма да го направят), да блъфират (като в покера), да се договарят при преговорите и да заблуждават потребителите, за да получат положителна обратна връзка за работата си.

Разбира се, не всички видове измама са свързани с този вид знания. Понякога изкуствените интелекти са явно подмазвачески настроени, съгласявайки се с потребителите за всичко, което според изследователите може да доведе до устойчиви погрешни убеждения у хората.
Роботите са се научили да лъжат. Което всъщност не е толкова изненадващо

    „За разлика от нормалните грешки, „подмазваческите“ твърдения на AI са специално създадени, за да привлекат вниманието на потребителите. Когато се сблъска с тях, потребителят е по-малко склонен да провери източника на информация, което от своя страна може да доведе до формиране на погрешни убеждения“,

    пишат авторите на друго изследване върху способността на ИИ да заблуждава.

Източник: kaldata.com