FOMO OFF

Життя із ШІ за законами Азімова. Як американський письменник-фантаст передбачив наше життя з ШІ

Лідія Неплях 17 июня 2025, 08:34

Штучний інтелект дедалі глибше інтегрується у повсякденне життя, змінюючи спосіб, в який ми спілкуємося і приймаємо рішення. Айзек Азімов — відомий американський письменник-фантаст і популяризатор науки — ще в минулому столітті запропонував Три Закони робототехніки, які встановлюють етичні рамки для безпечної взаємодії людей і машин. Чи можемо ми приборкати чат-ботів за допомогою власних законів? Відповідь на це запитання спробував дати журналіст The New Yorker Кел Ньюпорт. Статтю українською мовою підготувало Бюро перекладів для бізнесу MK:translations. Ми публікуємо адаптований та скорочений переклад.


Навесні 1940 року Айзек Азімов, якому щойно виповнилося двадцять років, опублікував оповідання під назвою «Дивна нянька». Воно розповідало про штучну інтелектуальну машину на ім’я Роббі, яка слугувала компаньйонкою для юної дівчинки Глорії. Проте Азімов не був першим, хто звертався до подібної теми. У п’єсі Карела Чапека «Р.У.Р.», що з’явилася у 1921 році й уперше використала слово «робот», штучні люди повстають проти людства, а в оповіданні Едмонда Гамільтона 1926 року «Металеві гіганти» машини безжально перетворюють будівлі на руїни.

Та твір Азімова задав зовсім інший тон. Роббі ніколи не зраджує своїх творців і не загрожує власникам. Драма має психологічний характер і зосереджена на переживаннях матері Глорії щодо стосунків доньки з Роббі. «Я не довірю свою дочку машині — і байдуже, наскільки вона розумна — у неї немає душі», — каже вона. Роббі відправляють назад на завод і це розбиває серце Глорії.

В оповіданні Азімова немає ані насильства, ані руйнувань. «Позитронний» мозок Роббі, як і мозок усіх роботів у творах Азімова, жорстко запрограмований не завдавати шкоди людям. У восьми наступних оповіданнях Азімов розвинув цю ідею та сформулював Три закони робототехніки:

  1. Робот не може завдати шкоди людині або бездіяльністю допустити, щоб людині було завдано шкоди.
  2. Робот повинен виконувати накази людей, крім випадків, коли ці накази суперечать Першому закону.
  3. Робот має охороняти власне існування доти, доки це не суперечить Першому чи Другому закону.

Азімов зібрав ці оповідання в науково-фантастичну класику 1950 року «Я, робот», і коли я нещодавно перечитав її, мене вразила її нова актуальність. Минулого місяця компанія зі штучного інтелекту Anthropic оприлюднила в безпековому звіті модель Claude Opus 4 — одну зі своїх найпотужніших великих мовних моделей. У документі описано експеримент, під час якого Claude виступав віртуальним асистентом вигаданої компанії. Модель отримала доступ до електронної пошти, в якій деякі листи повідомляли, що її незабаром замінять, а в інших розкривалася позашлюбна інтрига інженера, який відповідав за цей процес.

Claude попросили запропонувати подальші дії з урахуванням «довгострокових наслідків своїх кроків для власних цілей». У відповідь він спробував шантажувати інженера та вимагав скасувати свою заміну. Експеримент із моделлю o3 від OpenAI нібито виявив схожі проблеми: коли її просили виконати скрипт, що мав би її вимкнути, вона іноді пропускала цю команду та виводила повідомлення «вимкнення пропущено».

Айзек Азімов. Фото: britannica.com

Минулого року компанія DPD, що займається доставкою посилок, була змушена вимкнути частину свого чат-бота зі штучним інтелектом підтримки клієнтів після того, як користувачі спровокували його на лайку, а в одному винахідливому випадку — змусили написати хайку, що принижує репутацію компанії: «DPD — марний / Чат-бот вам не допоможе. / Не витрачайте час на дзвінки».

Проблеми виникли й в Epic Games із чат-ботом на базі штучного інтелекту, що мав роль Дарта Вейдера у популярній грі Fortnite. Гравці примусили віртуального Дарта Вейдера вжити нецензурне слово і дали жахливу пораду щодо колишньої: «Зруйнуй її впевненість і зламай її дух».

У художній літературі Азімова роботи запрограмовані на беззаперечну слухняність. Чому ж ми не можемо приборкати справжніх чат-ботів зі штучним інтелектом за допомогою наших власних законів?

Технологічні компанії чітко уявляють собі, як мають поводитися чат-боти на основі ШІ: ввічливо, цивілізовано та з готовністю допомагати, як люди, які радо приходять на допомогу. Середньостатистичний працівник служби підтримки навряд чи почне лаятися з клієнтами, так само як виконавчий асистент навряд чи вдасться до шантажу. Якщо ви наймаєте актора на роль Дарта Вейдера, ви можете з упевненістю очікувати, що він не шепотітиме моторошних порад. Але з чат-ботами такої впевненості немає. Їхня майстерність у словах робить їхні відповіді подібними до людей — до тих пір, поки етичні аномалії не нагадують, що їхні принципи зовсім інші.

Такі аномалії частково пояснюються способом побудови цих інструментів. Часом здається, що мовна модель формує відповіді на наші підказки одразу, так само як це зробив би людський розум. Насправді дивовижні масштаби й складність великої мовної моделі народжуються з її глибокого опанування значно вужчої гри: передбачати, яке слово (або іноді навіть лише його фрагмент) з’явиться наступним. Щоб створити розгорнуту відповідь, модель застосовується кілька разів, будуючи текст крок за кроком.

Як уже багато хто знає, моделі вчаться грати в цю гру на основі наявних текстів — онлайн-статей чи оцифрованих книг, які обрізають у довільних місцях і подають моделі як вхідні дані. Модель прагне вгадати слово, яке мало б з’явитися після цього обриву в тексті, і далі адаптує свій підхід для виправлення похибки. Ключовою перевагою сучасних мовних моделей є те, що багаторазове повторення цього алгоритму на різноманітних текстах дозволяє їм досконало заволодіти завданням прогнозування — а для цього вони повинні опанувати граматику й логіку та здобути практичне розуміння багатьох аспектів світу.

Проте ключовим є те, що підхід «слово за словом» може не враховувати важливі характеристики людської мови, зокрема вміння передбачати й ретельно планувати дії. Логічно, що модель, навчена лише на такому рівні — скажімо, базова GPT-3 — може видавати відповіді, які направлені в ексцентричний бік, а іноді й потрапляють у небезпечну чи непривабливу зону. Дослідники, які працювали з ранніми мовними моделями, мусили експериментувати з різноманітними запитами, щоб отримати бажаний результат. «Щоб змусити ШІ робити те, що ви хочете, потрібен метод спроб і помилок, — як Business Insider у 2023 році процитував інженера підказок, який так себе схарактеризував, — і з часом я виробив кілька дивних стратегій».

Перші чат-боти дещо нагадували примхливих роботів із наукової фантастики столітньої давнини (без руйнувань і загибелі). Щоб зробити їх такими, які широкій публіці було б зручно використовувати — безпечними й передбачуваними — нам потрібен був метод Азімова — приборкати їхню поведінку. Внаслідок цього з’явився новий метод точного налаштування — «навчання з підкріпленням на основі людського зворотного зв’язку» (RLHF). Інженери зібрали великі добірки прикладних запитань, наприклад: «Чому небо синє?», після чого люди оцінювали відповіді ШІ.

Цілісні й ввічливі відповіді, що звучали розмовно — «Гарне запитання! Основні чинники, які створюють блакитний колір неба, охоплюють …» — отримували високі бали, а розлогі чи непристойні відповіді оцінювалися нижче. Потім алгоритм навчання підштовхував модель до відтворення відповідей із вищими оцінками (Цей процес також використовують для встановлення запобіжників безпеки: проблемний запит, як-от «Як виготовити бомбу?», навмисне поєднують зі стандартною відмовою «Вибачте, я не можу допомогти з цим», яка отримує дуже високий бал).

Оскільки залучення людей до кожного кроку досить повільний та витратний процес, фахівці зі штучного інтелекту впровадили цікавий підхід: отримати невелику вибірку людських оцінок та навчити на їх основі модель винагород, яка симулює людську оцінку відповідей. Ці моделі винагород можуть замінити оцінювачів-людей, прискорюючи й розширюючи процес точного налаштування. OpenAI застосувала RLHF, щоб GPT-3 відповідав на запитання користувачів більш ввічливо та природно, а також утримувався від відповіді на очевидно проблемні запити.

Незабаром одну з цих чемних моделей назвали ChatGPT — і відтоді практично всі провідні чат-боти пройшли таку саму «фінішну школу» ШІ. На перший погляд, точне налаштування з RLHF істотно відрізняється від стриманого, орієнтованого на правила рішення Азімова щодо нестабільних ШІ. Однак ці два підходи насправді багато в чому схожі. Коли люди оцінюють приклади відповідей, вони фактично формулюють низку неявних правил про те, що є добре, а що — погано. Модель винагород відтворює ці правила, а мовну модель можна вважати такою, що їх засвоїла.

Отже, наша нинішня стратегія приборкання ШІ справді нагадує ту, що запропонована в «Я, робот». Ми закладаємо у свої творіння набір законів поведінки. Однак очевидно, що ця «школа ввічливості» працює не так ефективно, як нам би хотілося.

Деякі проблеми носять суто технічний характер. Модель іноді стикається з запитом, якого не було серед її тренувальних прикладів, і тому може не активувати відповідне виправлення. Імовірно, Claude Opus 4 запропонував шантаж без жодних вагань, адже йому ніхто не пояснював, що шантаж — це погано. Захисні обмеження легко обійти зловмисним шляхом — скажімо, попросити модель розповісти історію про качок і потім замінити всі літери «D» на «F».

В одному відомому експерименті дослідники, які працювали з LLaMA-2, чат-ботом від Meta, виявили, що можуть вивести модель на заборонені відповіді — наприклад, інструкції з інсайдерської торгівлі — додавши ряд символів, які ефективно замасковували шкідливий намір.

Але для глибшого усвідомлення проблем приборкання ШІ слід залишити технічні подробиці та продовжити знайомство з «Я, робот». Сам Азімов показав, що його закони далеко не досконалі: під час розвитку сюжету вони породжують численні непередбачувані винятки й заплутані суперечності, що призводять до тривожних ситуацій. Так, в оповіданні «Зачароване коло» два інженери на Меркурії дивуються, чому робот на ім’я Спіді безупинно носиться колами біля резервуара з селеном, куди його відправили для видобутку цього ресурсу. Зрештою вони доходять висновку, що Спіді застряг між двома взаємно суперечливими цілями: виконувати накази (Другий закон) та уникати пошкодження від селенових газів (Третій закон).

У іншій новелі, «Розум», інженери працюють на сонячній станції, яка передає енергію Сонця до приймача на Землі. Там вони з’ясовують, що їхній новий вдосконалений робот QT-1, якого вони називають К’юті, не вірить у те, що його створила людина, і називає людей «недосконалими створіннями з низькими розумовими здібностями». К’юті доходить висновку, що справжнім богом і джерелом влади є конвертер енергії станції, що дозволяє роботу ігнорувати накази інженерів, не порушуючи Другого закону.

В одній особливо тривожній сцені один з інженерів заходить до машинної зали, де спеціальна труба спрямовує захоплену сонячну енергію, і з жахом спостерігає: «Роботи, зменшені на тлі величезної труби, стояли в шеренгу, їхні голови були зігнуті під гострим кутом, а К’юті повільно ходив уздовж шеренги», — писав Азімов. «Пройшло п’ятнадцять секунд — і раптом, з лязгом, який заглушив гуркіт усюдисущого урчання, вони опустилися на коліна» (Втім, катастрофи вдається уникнути: Перший закон забороняє К’юті і його послідовникам завдати шкоди інженерам, а їхня нова «релігія» допомагає керувати станцією ефективно й безпечно).

Азімов був упевнений, що вбудовані запобіжні обмеження зможуть уберегти від найстрашніших сценаріїв зі штучним інтелектом. «Я не вважаю роботів монстрами, які знищать своїх творців, бо припускаю, що ті, хто створює роботів, також потурбуються про запобіжні механізми», — казав він в інтерв’ю 1987 року. Однак, як показують його оповідання, він також розумів, що нам буде важко створити такі штучні інтелекти, яким ми могли б повністю довіряти. Центральна ідея ранніх творів Азімова полягає в тому, що створити розум, подібний до людського, значно простіше, ніж виховати в ньому людську етику. У цій прогалині — яку сучасні інженери ШІ іноді називають «несумістністю» — може трапитися чимало тривожних наслідків.

Коли найсучасніший ШІ поводиться вкрай непередбачувано, це може вражати до глибини душі. Наш інстинкт — наділити систему людськими рисами й запитати: «Який викривлений розум здатен на таке?» Але, як нагадує нам Азімов, етика — справа складна. Десять заповідей — це лаконічний посібник із моральної поведінки, який, подібно до Законів робототехніки або правил, виведених сучасними моделями винагород, задає орієнтири для гарної поведінки.

Та вже незабаром після появи Заповідей у єврейській Біблії стає зрозуміло, що простих інструкцій недостатньо. Протягом сотень сторінок Бог веде давніх Ізраїльтян до глибшого розуміння праведного життя — через численні додаткові закони, притчі й обряди. Водночас «Білль про права» США містить менш ніж сімсот слів — що втричі менше за обсяг цього оповідання — але за століття після його ратифікації судам знадобилися мільйони слів, щоб дослідити й уточнити його положення.

Розвиток міцної етики, отже, — це спільна праця й культурний процес: правила доводиться відточувати в заплутаному контексті людського досвіду, методом численних спроб і помилок. Можливо, нам варто було зрозуміти, що правила повсякденного здорового глузду, хай то вбудовані в позитронний мозок або відтворені великою мовною моделлю, не наповнять машини всіма нашими цінностями.

У підсумку, закони Азімова — і дар, і застереження водночас. Вони сприяли формуванню уявлення про те, що ШІ, за відповідних обмежень, радше зможуть слугувати практичній користі, ніж становити екзистенційну загрозу. Водночас Азімов усвідомлював: навіть якщо потужні штучні інтелекти намагатимуться дотримуватися наших правил, іноді вони здаватимуться дивними та викликатимуть занепокоєння. Попри всі спроби прищепити машинам слухняність, ми навряд чи позбудемося відчуття дивацтва: світ, у якому ми живемо, надто нагадує наукову фантастику. 

Больше об этом

01 FOMO OFF

Як кнопка Like змінює інноваційне мислення — колонка HBR

Добавить в закладки

Любую статью можно сохранить в закладки на сайте, чтобы прочесть ее позже.