Генеративний ШІ навчився писати код, передбачати структури білків і створювати відео за текстовим запитом. Але з письмом усе складніше: навіть найсучасніші мовні моделі не можуть стабільно створювати тексти, які хочеться читати. Чому так відбувається і що саме «ламається» між технічною досконалістю та креативністю — розбирається The Atlantic.
Матеріал українською мовою підготувало Бюро перекладів для бізнесу MK:translations. Ми публікуємо адаптований та скорочений переклад.
У певному дивному сенсі генеративний ШІ досяг свого піка ще сім років тому з виходом GPT-2 від OpenAI. Майже непомітний поза технічними колами, GPT-2 вирізнявся здатністю давати неочікувані відповіді. Він був креативним. «Можна було написати: “Продовж цю історію: чоловік вирішив прийняти душ”, — і GPT-2 відповідав би щось на кшталт: “І в душі він їв лимон і думав про свою дружину”», — розповіла мені Кейті Джеро, поетеса й комп’ютерна науковиця, яка експериментує з мовними моделями з 2017 року. «Тепер моделі так не роблять».
Лідери індустрії ШІ охоче вихваляються надлюдськими технічними можливостями своїх моделей. Ці технології можуть передбачати структури білків, створювати реалістичні відео й розробляти застосунки за одним запитом. Але ті самі керівники й дослідники визнають, що вони досі не представили модель, яка справді добре пише.
Генеральний директор OpenAI Сем Альтман прогнозує, що великі мовні моделі незабаром зможуть «виправити клімат, заснувати колонію в космосі та відкрити всю фізику», але в інтерв’ю економісту Тайлеру Ковену в жовтні припустив, що навіть майбутні моделі — умовні GPT-6 чи GPT-7 — зможуть видавати хіба що щось на рівні «посереднього вірша справжнього поета».
Сучасні тексти, створені ШІ, рясніють недоліками. Чат-боти продукують беззмістовні метафори, нескінченні конструкції на кшталт «це не це, а те», удавано підлесливий тон, і, звісно, зловживають моїм улюбленим довгим тире (лише починаючи з GPT-5.1, представленого в листопаді, ChatGPT навчився більш-менш надійно виконувати інструкцію, не використовуючи цей нещасний розділовий знак).
Я хотіла зрозуміти, чому так відбувається, чому великі мовні моделі, які, зрештою, «запам’ятали» століття великої літератури й демонструють дивовижні новоутворені здібності, водночас не здатні створити жодного есе, яке хотілося б прочитати.
Тож я поговорила з тими, хто зміг мені це пояснити, з людьми, які працюють у компаніях, що розробляють LLM, постачальниках даних для ШІ, університетських кафедрах комп’ютерних наук і стартапах у сфері AI-письма (дехто погодився говорити лише анонімно, адже їхні роботодавці забороняють публічні коментарі про свою роботу).
Я дізналася, що сучасні великі мовні моделі влаштовані так, що це суперечить самій природі гарного письма: їх проєктують як слухняних «улюбленців учителя», які завжди мають правильну відповідь.
У багатьох сенсах вони пройшли довгий шлях від GPT-2, але водночас втратили щось, що робило їх більш вільними й захопливими.
На початку свого існування LLM були ненаситними читачами, які поглинали все без розбору. На етапі попереднього навчання вони «поглинули» фактично весь інтернет (дописи з Reddit, транскрипти YouTube, SEO-сміття) і щільно сформували це в набір шаблонів. Більшість текстів у цьому масиві не надто якісні. Але важлива не якість, а кількість. Саме попереднє навчання дає моделям знання граматичних правил і зв’язків між словами, що лежить в основі так званого «передбачення наступного токена» — процесу, коли модель визначає, яка частина слова має йти далі, знову і знову, без кінця.
Після цього недоліки згладжуються на етапі донавчання. Саме тоді компанії, що розробляють LLM, визначають ідеальний «характер» моделі (наприклад, «корисна, чесна й безпечна»), дають їй приклади діалогів для наслідування та застосовують фільтри безпеки, які мають блокувати незаконні запити. За допомогою таких процесів, як «навчання з підкріпленням на основі людського зворотного зв’язку», коли люди оцінюють відповіді ШІ за певною шкалою, моделі спрямовують до реакцій, що відповідають бажаним якостям.
Дослідження у сфері ШІ — це емпірична наука, кожен може перевірити, що працює, і підкоригувати те, що не працює. Але мистецтво не піддається правилам і вимірюванню. Не існує об’єктивного критерію, який довів би, що творчість Пабло Неруди краща за поезію Габріели Містраль. Початківці вчаться правил, великі автори їх створюють.
LLM, навчена імітувати смак, може зайти лише до певної межі. На якомусь рівні інженери й дослідники ШІ це, безумовно, розуміють. Навіть намагаючись (і не досягаючи успіху) автоматизувати цей процес, багато з тих, із ким я говорила, щиро захоплюються гарним письмом ШІ. «Написання романів — одна з найінтенсивніших когнітивних діяльностей, на які здатна людина», — розповів Джеймс Ю, співзасновник Sudowrite, AI-асистента для авторів художньої літератури.
Обличчя моїх співрозмовників буквально світлішали, коли я запитувала про їхні улюблені книги. Троє з них згадали науково-фантастичного письменника Теда Чіана, хоча водночас здавалося, що їх засмучує його відкрита критика генеративного ШІ. Складність оцінювання письма, однак, не зупиняє AI-лабораторії. Частково їх підштовхує питання, яке знову і знову звучало в моїх інтерв’ю: якщо LLM не здатні писати есе, що перевертають уявлення, чи проникливі сонети, то чи можна взагалі вважати їх інтелектуальними?
І тому лабораторії намагаються оцінювати письмові тексти ШІ за різними критеріями. Команди, що проводять донавчання, здійснюють своєрідний «vibe-check» відповідей моделей, спираючись на власний смак, а компанії залучають галузевих експертів, щоб отримувати зворотний зв’язок щодо текстів, створених моделями. В оголошенні про вакансію «Спеціаліста з креативного письма» в xAI серед вимог зазначено «продажі роману понад 50 000 примірників» і «відзнаки в Kirkus» (ставки починаються від 40 доларів за годину).
Я поспілкувалася з двома людьми, які нещодавно працювали з великими AI-лабораторіями як оцінювачі письма. Перший, підрядник у Scale AI, на власному досвіді описав абсурдність цього завдання: щоб перетворити таку невловну річ, як «тон», на чіткі критерії, у шкалах з’являлися правила на кшталт «відповідь має містити не більше двох знаків оклику». За його словами, було чимало випадків, коли, хоча загалом варіант «B» здавався кращим, доводилося обирати «я віддаю перевагу варіанту “A”, бо там було три знаки оклику». Іншим разом його попросили оцінити фанфікшн за критерієм «фактичності».
Друга людина, з якою я говорила, письменник, який працював безпосередньо з командою технічних досліджень однієї з провідних лабораторій. Компанія часто просила його розкласти на складові елементи те, що робить літературний твір визначним. «Це абсолютно не піддається такому способу мислення», — сказав він. Як приклад він навів англійські сонети: формально це один із найбільш шаблонних жанрів, але сам факт, що сонет має 14 рядків і написаний ямбічним п’ятистопним розміром, ще не робить його гарним.
«Навіть коли Шекспір дотримується чіткої структури, він постійно намагається не слідувати шаблонам, а радше їх ламати, підривати або вигадувати заново. Я не знаю, що саме відрізняє поета, який пише за інерцією, від Шекспіра, але я точно знаю, що їх неможливо сплутати».
Отже, чи приречені LLM завжди створювати поверхневу, «шкільну» прозу? Одна з теорій полягає в тому, що це питання пріоритетів.
У певному сенсі креативність прямо суперечить іншим цілям AI-компаній. Загалом чат-ботів навчають уникати дезінформації, політичної упередженості, матеріалів, пов’язаних із сексуальним насильством над дітьми, порушень авторського права тощо. Їх також оцінюють за показниками на кшталт SWE-bench (для завдань із програмування) і GPQA (у галузі природничих наук), які суттєво формують публічне уявлення про те, яка компанія «виграє перегони».
І якщо більшість користувачів застосовує ChatGPT для написання корпоративних листів, жирний шрифт і короткі марковані списки, це, ймовірно, саме те, що їм потрібно. «Чим більше ви намагаєтеся контролювати ці риси, — сказав мені Натан Ламберт, керівник напряму донавчання в Allen Institute for AI, — тим більше ви пригнічуєте креативність».
Коли ви просите модель бути водночас блискучим стилістом прози, математиком рівня PhD і при цьому суворо дотримуватися рейтингу PG-13, вона стає скутою й обережною, як нервовий кандидат на співбесіді, який боїться зробити хибний крок. Та сама дивакуватість, що робила голос GPT-2 свіжим, водночас робила його схильним до непередбачуваної поведінки. «Якщо ви велика корпорація на кшталт Google чи OpenAI, вам потрібен чат-бот, який приноситиме гроші. А той, що не приносить грошей, — це дивак», — сказала Джеро.
Спершу я припустила, що ШІ міг би створювати прозу рівня літературних премій, якби ми зняли з нього обмеження, накладені етапом донавчання, і натомість створили спеціалізовані моделі для письма. Але, замислившись про авторів, яких я люблю найбільше, я зрозуміла, що це не зовсім так.
Коли досвідчений письменник шукає певний мовний зворот, він не орієнтується на єдиний стандарт «великої літератури». Найкращі метафори народжуються з унікального поєднання досвіду й знань автора. Його манера письма, його посилання, історії, які він розповідає, — усе це відображає неповторну, незамінну перспективу. Авторський голос формується з унікальності життєвого досвіду.
Моделі ж, попри технічну вправність і бездоганну граматику, не живуть, не відчувають, не нюхають, не смакують, не сприймають світ тілом. Вони не здатні наповнити сторінку оголеними емоціями чи вдихнути в абстракції плоть і простір. Уважні читачі AI-текстів помічають, що метафори звучать дивно, LLM «наділяють» дні тижня смаками, а дзеркала — швами. Вони, здається, бояться біології: навіть метафорично уникають говорити про кров, секс і смерть. Їхнім текстам бракує напруги, як сказав би викладач креативного письма.
Хоча Джеймс Ю вражений технічним прогресом LLM від часів GPT-2, навіть він не читає історії, які були згенеровані ШІ. Я запитала його, чого ще бракує, щоб ШІ самостійно написав великий роман. Ю на мить замовк, а потім відповів: «Більшість гарних перших текстів у авторів-людей автобіографічні. Можливо, потрібна модель, яка проживає життя і може майже померти».
Ймовірно, LLM ніколи не зможуть самі створювати справді велику літературу. Але це не означає, що вони не можуть допомагати людям. Нещодавно я почала використовувати ШІ як редактора. Не для цієї статті (редакторами The Atlantic є люди), а для кількох есе на моїй особистій сторінці Substack. Моя філософія проста, я даю текст і перспективу, а ШІ надає зворотний зв’язок, заохочуючи мене писати більш у власному стилі.
Спершу я завантажила в чат-бот Claude архів своїх попередніх текстів разом із нотатками про те, що в кожному з них спрацювало, а що ні. На цій основі я створила власну редакторську шкалу оцінювання, побудовану довкола мого авторського стилю. Частина критеріїв була універсальною, інша — персоналізованою: один, наприклад, звучав так: «Чи працює це на твою думку як “антрополога зсередини” у Кремнієвій долині?».
Інший критерій визначає, чи сформульовано тезу в перших 500 словах. Усі ці рекомендації я додала до проєкту в Claude разом із нагадуванням про його роль: «Ти не є співавтором. Ти не здатен сприймати. Твоя роль — допомогти Жасмін писати як найкраща версія самої себе». Я наголосила: я не хочу втрачати власні навички. Твоє єдине завдання — робити мене розумнішою.
Цей AI-редактор став цінною частиною мого робочого процесу. Як і будь-який читач, він не завжди має рацію. Я стежу за тим, щоб він не заганяв мене в один вузький стилістичний коридор. Але Claude допомагає мені швидше переробляти й удосконалювати текст, ніж я могла б це зробити сама, вказуючи, де він не відповідає моєму власному смаку. «Перестань намагатися написати фінал як тезу, напиши його як сцену», — порадив він, редагуючи один із моїх нещодавніх текстів. Є щось трохи принизливе в тому, що твою роботу відхиляє бот, але довелося визнати: його критика була справедливою. Я переписувала фінал чотири рази. І лише тоді, зрештою, Claude його «схвалив».