Нова функція

Слухай статті з Respeecher

Нова функція дозволяє слухати статті в зручному форматі завдяки технології від Respeecher. Насолоджуйтесь контентом у будь-який час – у дорозі, під час тренувань або відпочинку.

00:00 00:00

Наступні статті

Завантажується ⟳

Голос

Вибір голосу

Вибір голосу

Наступні статті

Завантажується ⟳

00:00 00:00

Як це зробити

Як креативникам ефективно використовувати ШІ — гайд

22 Серпня 2024, 09:00

15 хв читання

Додати в закладки

Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

Далі

Завершити

Vector

Режим читання увімкнено

Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

Режим читання

Завершити

Якщо штучний інтелект у вас досі асоціюється лише з ChatGPT, то ми погляньте на ці цифри: у світі вже існує щонайменше 14 000 ШІ-інструментів, які можуть виконувати понад 14 000 задач. Маючи таке різноманіття у своєму розпорядженні, гріх користуватися лише одним — але як розібратися та знайти інструмент, який справиться з задачею найкраще?

Леонід Павловський, Associate R&D Product Owner в SoftServe, протестував понад 100 різних інструментів та підсумував результати своїх досліджень у двох курсах, які пройшло більше 15 000 студентів на Udemy. Спеціально для Vector фахівець підготував текстовий гід ШІ-інструментами, який допоможе вам розібратися в їхніх особливостях, зекономити час на пошуці та легко обирати нові застосунки в майбутньому.

Леонід Павловський Associate R&D Product Owner в SoftServe

Від чат-ботів до генерації музики: розбираємося у модальностях

Отже, ШІ, про який ми переважно говоримо, — це генеративний штучний інтелект (Generative AI). Він генерує нову інформацію на основі тих даних, які використовували для навчання моделей, та інформації яку вводить користувач. ГенШІ має певні модальності, зокрема, текст, зображення, аудіо, відео та код. У цій статті ми зосередимося на тих чотирьох, які найбільш актуальні для креативних професій. Далі поговоримо про особливості цих модальностей та розглянемо найкращі інструменти і їхнє застосування.

Генерація тексту

Моделі текстового ШІ, такі як ChatGPT, навчаються на величезних обсягах даних, щоб розуміти і генерувати контент. Їхня цінність полягає в тому, що вони можуть розуміти наданий контекст, робити висновки, створювати зрозумілий і схожий на людський текст.

Однак ці моделі мають свої обмеження. Вони можуть «галюцинувати», тобто видавати некоректну або хибну інформацію за правдоподібну. При чому, робити це дуже переконливо. Тому їх потрібно контролювати та правильно задавати умови.

В топі найкращих моделей за версією користувачів сайту Leadersboard, який дозволяє порівняти випадкові моделі та обрати кращу, залишається GPT-4o від OpenAI. Порівняно з минулою версією, вона має покращені можливості у тексті, голосі та зображеннях, обіцяє кращу та швидшу роботу з 50 мовами, включно з українською. Особливо важливо, що кастомні GPT i GPT Store також стали безкоштовними.

Можливість персоналізації через кастомні GPT, які генеруватимуть контент під ваші унікальні вимоги, або ж через готові GPT з переліку — це величезна перевага.

Платна версія ChatGPT також розширила функціональність. Користувачі з підпискою тепер можуть користуватися новим застосунком для macOS, що інтегрує ChatGPT у щоденні завдання, пропонуючи спрощений, більш розмовний інтерфейс. Ця модель також стала швидше, вона відповідає в реальному часі.

Крім того, платну версію можна прокачати з допомогою сторонніх сервісів, як от Zapier, Make.com тощо. Ще одна перевага — це покращений Code Interpreter, потужна функціональність для роботи з кодом та аналізом даних. Наприклад, у вас є опитування на 1 000 респондентів. Ви можете завантажити файл, і ChatGPT згрупує і проаналізує результати та на їхній основі зробить припущення.

До виходу GPT-4o, Claude від Anthropic був однозначно більш виграшним варіантом в плані аргументації та природності мови в порівнянні з GPT 3.5. Але хоч новітня модель GPT і перевершує його функції, Claude залишається досить непоганим ШІ-інструментом. Крім текстових відповідей, він має гарне оптичне розпізнавання символів, тобто зрозуміє написаний від руки текст, логотипи на фотографії і так далі. До речі, якщо ви працюєте у Notion та з його генерацією тексту — ви вже використовуєте Claude.

Цього літа Claude оновилась до моделі Sonnet 3.5. Її головною відмінністю є функція Artifacts. Вона дозволяє генерувати інтерактивні вебзастосунки з тексту, PDF-документів або навіть скріншотів. Наприклад, можна дати скріншот калькулятора відсотків та попросити ШІ згенерувати робочу версію додатку — він згенерує код і запустить його.

Також розгляньте Google Gemini, перевагою якого є інтеграція в Google-сервіси. З його допомогою можна легко шукати інформацію в документах, навігувати в пошті, аналізувати текст та відео тощо. Крім того, він має перевірку на «галюцинації», під час якої звіряє видачу результатів з допомогою гугл-пошуку. А ще — видає кілька варіантів, які можна порівняти. Нещодавно Google представив оновлену модель Gemini. Проте наразі ніякої конкретики на презентації від них я не почув, лише обіцянки про майбутні фічі, а саме контекстне вікно у 2 млн токенів та мультимодальність.

У липні 2024 вирвалась у лідери модель від Meta — Llama 3.1. Вона вийшла одразу у трьох розмірах: 8B, 70.6B, та 405B. Остання є найбільшою моделлю на даний момент. Модель є опенсорсною і стане в нагоді розробникам додатків та AI сервісів. В Україні Meta AI ще недоступна, але ось тут можна потестувати, як вона справляється із задачами аналогічними до Claude Artifacts.

Робота з зображеннями

Наразі ми говоримо про генерацію зображень з тексту, зображень із зображень, зображень із скетчу.

У більшості інструментів вже також є функції inpainting та outpainting:

Inpainting дозволяє змінювати певну зону на картинці з допомогою текстових команд.
Outpainting генерує контент навколо картинки, наприклад, якщо вам потрібно зробити постер з вертикального у горизонтальний, ШІ домалює відповідний фон для більшого формату. Також популярним використанням є заміна фону.

Всі інструменти мають подібну функціональність і відрізняються якістю результату та різними ліцензіями. Зі спільного — на жаль, наразі з малюванням тексту у всіх моделей проблеми, і замість тексту вони видають незрозумілі символи. Це звужує можливості для маркетингу та креативу, але поки широкодоступних рішень для цього немає. Ми в R&D команді зараз розробляємо продукт, який поєднує генерацію тексту, його розміщення, згенероване зображення, бренд та продукт.

Однією з перших і найпопулярніших моделей для генерації зображень є DALL-E від OpenAI, але зараз вже існує багато новіших та досконаліших систем, про які я розповім далі. DALL-E має порівняно нижчу якість, частіше генерує менш реалістичні зображення із дуже впізнаваним стилем.

Лідером по якості серед ШІ-інструментів для генерації зображень є Midjourney. Він працює на discord-сервері, що не дуже зручно з погляду користувача. Але компанія вже тестує повноцінний вебінтерфейс та можливість налаштовувати різні параметри згенерованих зображень.

Завдяки потужним моделям та алгоритмам Midjourney забезпечує високу якість результатів та найліпше справляється з фотореалізмом. Єдиний мінус — він має досить високу вартість порівняно з деякими альтернативними інструментами. Також права на згенеровані зображення не є ексклюзивними, а отже інші користувачі можуть їх використовувати або модифікувати. Станом на травень 2024, стандартна підписка на нього коштує $30 на місяць.

Мій улюблений інструмент — Adobe Firefly — наразі доступний безкоштовно в рамках ліцензії Creative Cloud. Він класно інтегрований у продукти Adobe, має інтуїтивно зрозумілий інтерфейс з широким набором інструментів для редагування зображень, включаючи ефекти, композицію та фокусну відстань. Завдяки такому інтерфейсу в цьому інструменті дуже зручно вчитись генерувати зображення. З плюсів — їхні моделі натреновані на даних Adobe Stock, тож можна генерувати зображення для комерційного використання.

Stable Diffusion від Stability AI є опенсорс продуктом і не має такого зручного інтерфейсу як Midjourney чи Firefly. Проте будь-яка компанія або розробник можуть безоплатно завантажити вихідний код і адаптувати його для своїх потреб. Це відкриває широкі можливості для інтеграції технології генерації зображень у різні додатки та сервіси.

Завдяки активній спільноті, Stable Diffusion регулярно отримує нові функції, оптимізації та виправлення помилок. Протестувати Stable Diffusion можна за допомогою кастомних GPT з відповідними плагінами, DreamStudio чи через окремий інструмент LeonardoAI.

Відео та анімація

Наступна модальність — це відео. Основним способом роботи з ним лишається text to video, але також є генерація відео з відео або відео з картинок.

Runway та Pika Labs — на даний час два провідні рішення на ринку, які спеціалізуються на генерації відео за допомогою штучного інтелекту. Вони мають схожий базовий функціонал, хоча Runway вирізняється більшою гнучкістю та можливостями.

В Runway користувач може не лише вводити текстові промпти для генерації відео, а й безпосередньо в інтерфейсі намалювати або завантажити зображення, визначаючи, що і як саме має рухатися у відео. Це дозволяє точніше контролювати рух об’єктів, персонажів, камери тощо. Pika Labs більше орієнтована на простоту використання та автоматизацію процесу генерації відео за текстовими інструкціями без додаткових налаштувань.

Обидва інструменти також підтримують генерацію відео на основі існуючого відеоконтенту. Користувач завантажує вихідне відео, а ШІ накладає на нього візуальні ефекти, об’єкти чи анімацію відповідно до текстового опису у промті.

Також раджу стежити за Firefly від Adobe — він поки немає широкої функціональність з відео. З його допомогою можна видаляти з відео деякі об’єкти, додавати ефекти, створювати сторіборди на основі сценарію. Розвиток ШІ-інструментів є для Adobe пріоритетом, тож впевнений, що з часом функціонал розшириться.

Відео є унікальною модальністю в плані генерації контенту, адже містить музику, текст, голос, зображення, субтитри та опис. Тому багато інструментів інтегрують технології з обробки відео, замість повноцінної генерації відеоконтенту з тексту. Один з моїх улюблених — це Descript, який використовує технології розпізнавання мовлення для транскрибування аудіо з відео у текстовий формат.

При цьому транскрипт синхронізується з відеодоріжкою, що дозволяє легко редагувати відео. Прямо в транскрипті можна вирізати зайві паузи, повтори чи невдалі дублі практично в один клік. Всі правки автоматично відображаються на відео без потреби ручного редагування відеоряду. Подібна функціональність також є в Adobe Premiere, але Descript набагато простіший для тих, хто не займається відеомонтажем професійно.

Аудіо: змінюємо голос і створюємо музику

Аудіо модальність працює з генерацією мовлення та генерацією музики.

Штучний інтелект працює з мовленням через:

text-to-speech — генерація аудіо з тексту;
speech-to-text — транскрибування мовлення в текст;
speech-to-speech — перетворення мовлення однією мовою/голосом на інший голос/мову.

Той же Descript, окрім транскрибування, також дозволяє клонувати свій голос та через технологію text-to-speech генерувати озвучку власним голосом. Крім того, я користуюся ElevenLabs, з допомогою якого можна класно працювати як зі своїм, так і з пропонованим голосом. Ви можете прописати текст або начитати його та згенерувати аудіо з іншим голосом, обравши потрібну вам тональність, акцент, настрій тощо. Це дуже зручно, коли немає можливості начитати озвучку, відсутній хороший мікрофон або ж просто потрібно покращити озвучку.

Також набирають популярності спеціалізовані продукти для транскрибування мовлення в текст. До прикладу, популярні моделі здебільшого натреновані на мовленні дорослих. Наша команда розробила продукт, який розпізнає мовлення дітей, що відкриває широкі можливості для освіти, роботи з вадами мовлення, голосового контролю та розваг.

Для генерації музики можна використовувати Suno, який створює музичні композиції на основі текстових описів та інструкцій. Я більше користуюся Stable Audio 2.0 для генерації музики без вокалу. Він дозволяє створити трек до трьох хвилин, обравши потрібний вам стиль і настрій, або ж відредагувати завантажений трек. Ідеально підходить для фонової музики під відео. Особливо зручно те, що довжину треку можна визначити вручну. Тож аудіо трек для вашого короткого відео буде мати правильну динаміку і не обірветься посередині.

Кілька порад наостанок

Універсального інструмента, який би однаково якісно працював у всіх модальностях, поки немає. Найкраще буде обрати різні інструменти для різних цілей. Ось кілька порад з власного досвіду:

Сформуйте задачі, які ви хочете покласти на ШІ. Перегляньте, чи є у вас повторювана робота, чи інші процеси, які можна автоматизувати або покращити з допомогою ШІ.
Після цього визначте потрібну модальність, яка підійде для вашої задачі. Краще обрати інструмент, який найсильніший у певній модальності.
Орієнтуйтесь на персоналізацію та автоматизацію. Шукайте можливості налаштувати інструмент під свої потреби, стиль, дані. Автоматизуйте за допомогою ШІ повторювані рутинні процеси.
Не покладайтесь на ШІ на 100%. Усі моделі ШІ мають властивість помилятись. Якщо відчуваєте, що написати текст без AI вже дискомфортно — спробуйте кілька днів не використовувати ШІ.
Критично ставтесь до універсальних багатофункціональних інструментів, які обіцяють виконати усю роботу за вас. Зазвичай, це просто оболонки для ChatGPT. Проте є такі рішення як Descript, які інтегрують кілька різних інструментів для економії часу у конкретному сценарії
Експериментуйте. Деякі спроби будуть менш успішними, а деякі — більш. Це ок. Занотовуйте, що саме не спрацювало в експерименті і шукайте нові можливості далі.
Інвестуйте у реальний життєвий досвід. Досліджуйте кейси, спілкуйтеся з колегами, ходіть на різні майстер-класи, вчіться відрізняти хороше від поганого, а головне — тестуйте інструменти.

Я, наприклад, регулярно користуюся 20 ШІ-застосунками — окрім вже згаданих, використовую ще Perplexity AI i You.com для пошуку інформації, Gamma.app для створення презентацій. Є ще HarpaAI, який можна додати як розширення у браузер і аналізувати сторінки, Youtube-відео (корисно для навчання та перетворення контенту), підсумовувати з них інформацію, аналізувати ключові слова (LSI) тощо. З цікавого — можна також моніторити оновлення інформації на сторінці конкурентів, скажімо, ціну товару (або ж для себе — згадайте про цю статтю напередодні Чорної П’ятниці).

Головне пам’ятайте, що ШІ — лише помічник. Не варто сліпо довіряти йому та покладатися на згенеровані результати на 100%. Навпаки, намагайтесь бути цікавішим за відповідь штучного інтелекту. Використовуйте ШІ виважено та завжди критично оцінюйте його роботу, адже за фінальний результат відповідальні ви самі.

Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

#Креатив #Стартап #Штучний інтелект