Історії

Юваль Харарі «наїхав» на українських AI-розробників. Знайомимо його з технологіями наших компаній

10 Липня 2019, 19:26
14 хв читання
Матеріал успішно додано в закладки Досягнуто максимальної кількості закладок
Додати в закладки

Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

Режим читання збільшує текст, прибирає все зайве зі сторінки та дає можливість зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
Режим читання

Режим читання збільшує текст, прибирає все зайве зі сторінки та дає можливість зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

У травневому інтерв’ю Марка Цукерберга з Ювалом Ноєм Харарі останній кинув камінь у бік українських розробників. Обговорюючи нерівномірність технологічного розвитку країн, він поставив під сумнів спроможність таких держав як Україна, Йемен та Гондурас конкурувати з більш розвиненими країнами. Поза тим, згідно зі звітом Deep Knowledge Analytics, у 2018 році Україна увійшла до трійки країн Східної Європи за кількістю компаній у сфері штучного інтелекту.
Щоб з’ясувати, що ж насправді відбувається з нейромережами в Україні, ми поспілкувалися з людьми, які працюють з ними щодня.

Data Science UA формує спільноту Data Science в Україні. Вони допомагають наймати спеціалістів, які працюють у сфері штучного інтелекту, проводять корпоративне навчання та менторство. Також Data Science UA консультують компанії щодо впровадження технологій аналізу та обробки даних і безпосередньо впроваджують їх.

Яке місце посідає штучний інтелект у царині комп’ютерних наук

В Україні вистачає компаній, що займаються штучним інтелектом: це і продуктові компанії на кшталт Grammarly, і аутсорсери на кшталт SoftServe, і аутстаф-компанії. У нас доволі сильні позиції у Східній Європі. Україна конкурентна у цій сфері через наявність фундаментальної технічної освіти у галузі математики та комп’ютерних наук. Це пояснює конкурентоспроможність України у сфері ІТ загалом, просто штучний інтелект — це окремий випадок.

Уявіть склянку з кульками. Ця склянка — це галузь знань Computer science, а кульки в ній — різні галузі: back end, front end development, embedded. Одна з цих кульок називається штучний інтелект і всередині неї є свої кульки: машинне навчання, обробка природної мови та інші.

Спочатку розвіємо ілюзії щодо штучного інтелекту на зразок Skynet з Термінатора чи Ex Machina. Насправді сьогодні ми використовуємо слабкий штучний інтелект, який вирішує вузькоспеціалізовані задачі, це дуже далеко від наукової фантастики. Хоча такі речі, як AlphaZero та Google Translate, є доволі цікавими та потужними, зазвичай алгоритми створюють для конкретних задач.

Звідки взявся хайп довкола штучного інтелекту

Новини на кшталт «нейромережа намалювала картину» чи «штучний інтелект написав пісню» — це захват батьків, які тішаться першим кроком чи словом дитини. Звідси й береться це перебільшення та наділення алгоритму людськими якостями.
Зараз ми підходимо до межі можливостей існуючих алгоритмів штучного інтелекту, і з’являється багато питань щодо його майбутнього розвитку. Нейромережа, яка мімікрує мозок, не обов’язково стане запорукою прориву. До того ж, є інші алгоритми, які працюють не гірше. Це може бути навіть звичайна лінійна регресія.

Музику можна розкласти на хвилі, а для картин діють закони композиції — це все математика. Навіть поведінка людей певною мірою теж математика. Як і нейромережі.

Клієнти українських компаній — замовники з Західної Європи та США, масштабність замовлень залежить від фінансової спроможності та фантазії клієнта. Data Science UA працює над тим, щоб Україна стала більш знаною в царині нових технологій, але поки для великого бізнесу ми маленька нестабільна частинка світу. Україна точно не відстає Іспанії чи Франції, але США та Китай зараз йдуть попереду всіх. У багатьох іноземних компаній в Україні є R&D-центри, яскравим прикладом є Ring Ukraine.

Open Data Challenge — це міжнародний формат конкурсу для проєктів на основі відкритих даних. Його створив Open Data Institute — провідна міжнародна інституція, що пропагує відкриті дані у світі. Конкурс проводиться за підтримки Державного агентства з питань електронного урядування України, в партнерстві з Фондом Східна Європа та 1991 Open Data Incubator.
Проєкт «Відкрита влада» — це платформа, яка об’єднує ініціативи з дослідження відкритих даних для виявлення прихованих інтересів чиновників. Його місія — підвищити рівень залученості та розуміння громадянами до політичного процесу. Одним з компонентів є застосування алгоритмів машинного навчання і відкритих даних для створення енциклопедії політичного життя. Наприклад, обравши певного політика або держслужбовця, ви можете побачити усі його декларації, бізнес-зв’язки та інтереси.
У 2017 році Україна посідала 17 сходинку у рейтингу відкритості даних від Open Data Barometer. Хоча інколи дані знаходяться у немашиночитабельних форматах, це однаково відкриває доступ до величезної кількості датасетів, яких стає дедалі більше. Це дозволяє застосовувати штучний інтелект, навчаючи його на даних. Своєю чергою, він відмічає червоними прапорцями підозрілі активності політика чи державної установи. Чим більше датасетів, тим більше ми знаємо про владу.
Все почалося з вузької ніші — аналізу декларацій — і переросло в амбітну ідею сервісу, що поєднує базу політичних організацій та персон, візуальні карти зв’язків та аналізатор рішень депутатів, на яких підписався або за яких голосував користувач. Таке рішення протиставляється іншому штучному інтелекту — алгоритму Facebook, який створює інформаційну бульбашку. Алгоритм соцмережі, який спершу був призначений для підбору контенту, що сподобається користувачу, почав створювати для нього хибну картинку світу.

Наш аналітичний алгоритм повинен показати картинку в цілому, об’єктивну і засновану на неупередженому аналізі фактів. Це можна розглядати як антидот мікротаргетингу, коли залежно від користувача, алгоритм показує політичну агітацію у заточеному під нього ракурсі.

Зараз проєкт знаходиться на рівні стартапу. Ми зібрали багато датасетів, розробляємо функціональність для користувачів та «нанизуємо» на цю систему різні алгоритми машинного навчання. Паралельно йде робота над аналізатором законодавчих актів.
Наприклад, коли хтось зареєстрував законопроєкт, алгоритми визначають, який саме політик і з яких мотивів його зареєстрував. Також можна зрозуміти, кому це може бути вигідно, як це вплине на країну загалом і конкретного громадянина зокрема. Завдяки NLP, виокремивши з тексту законопроєкту мету, алгоритм подаватиме закон у простішій, ближчій до розмовної мови, формі. Також ми тестуємо скорингову систему політичних партій, яка базується на відкритих даних щодо їх діяльності. Наприклад, наявності кримінальних справ, підозр, робочої дисципліни та політичної культури.

Video Gorillas розробляють сучасні відеотехнології, які використовують машинне навчання, нейронні мережі, візуальний аналіз, розпізнавання об’єктів і потокове передавання. Їхніми послугами користуються кіностудії, мовники, постпродукційні компанії, рекламні агентства, медіаплатформи та стартапи.

Від розпізнавання облич до відновлення старих фільмів

У 2006 році я був першим працівником компанії Viewdle, яка займалася розпізнаванням облич з відеопотоку. Зараз це звучить не надто цікаво, але тоді, за рік до виходу першого iPhone, розпізнавати 60 000 облич в режимі реального часу було дуже круто.
Щоб отримати інвестиції, спочатку ми вирушили в Кремнієву долину, а потім до Лос-Анджелеса. Там нам порадили звернутися до кіностудій і спробувати продавати цю технологію їм. Спілкуватися з ними довелося саме мені, я ходив кіностудіями і розповідав про нашу київську розробку. Часто мене просили порівняти два фільми. Наприклад, треба було порівняти театральну і режисерську версію однієї і тієї ж стрічки не за пікселями, а за сенсом.
З того часу наші з Viewdle дороги розійшлися (у 2012 році Viewdle стала частиною Google), і я пішов створювати складні з точки зору математики речі для кіностудій. Спочатку працював на аутсорсі, а згодом це переросло у власний продукт. Один з наших проєктів — підвищення якості кінострічки The Other Side of the Wind 1976 року до 4К для Netflix. Технологію, завдяки якій це вдалося зробити, придумали тут, у Києві.
Ще один проєкт — відновлення пошкодженої плівки. Ми тренуємо нейромережу, яка розпізнає у кадрі подряпину на плівці, а потім замальовує її пікселями, які найкраще підходять по контексту. Ми замінюємо роботу людини, яка мала б обробляти кожен кадр у Photoshop. Наша робота — це майже завжди R&D, бо кожна задача досить нішева.
Також ми перетворюємо VHS на 4К-відео. Картинка стає якіснішою, на ній з’являються нові деталі, до прикладу, візерунки на шині або камінчики при дорозі. Вони не беруться нізвідки: алгоритм по всій часовій осі збирає деталі об’єкта, а потім домальовує їх у кадри, де ці деталі погано видно.
Всі свої інструменти ми пишемо з нуля, але звичайно використовуємо бібліотеки та фреймворки для роботи з нейромережами. Наприклад, PyTorch та TensorFlow. Уявіть, що для спорудження будинку довелося б окремо будувати цегельний завод. Для навчання ми використовуємо локальні GPU, а не хмарні обчислення, бо часто потрібно працювати з відео, де один кадр займає 75 МБ — відповідно секунда важить 2 ГБ.

Радянська спадщина + сильне ком’юніті = фабрика кваліфікованих спеціалістів

В Україні багато AI-стартапів та компаній. Деякі лукавлять з назвою, бо додають в опис словосполучення «штучний інтелект» та «машинне навчання», хоча настправді цих технологій там зовсім немає. На їхню думку, якщо людина не знає, як саме працює алгоритм, то там точно має бути штучний інтелект.
Сильний ІТ-сектор, і зокрема AI-коммюніті, з’явилися в Україні з різних причин. Перша — історична, адже у часи СРСР в Україні було зосереджено багато дослідницьких інститутів. Майже у кожного мама або тато були інженерами і казали: «Вчи математику — і все в тебе буде добре». Математика — це фундамент, який дозволяє сконструювати і атомну бомбу, і штучний інтелект.
Наступна причина — економічна. Через дешеву робочу силу в Україні багато аутсорсу, а високі заробітні плати в ІТ створили конкуренцію, яка фільтрує середовище і кристалізує крутих спеціалістів. У нас майже щотижня проходять різні мітапи та хакатони, є свої зірки. Відповідно, є багато компаній, які працюють у цій сфері: Ring Ukraine, ReSpeecher (їхня нейромережа дозволяє змінювати тональність голосу і говорити в стилі Обами чи інших знаменитостей) та багато інших.

Що буде зі штучним інтелектом далі

Нещодавно під час одного заходу ми пожартували: використали Image Segmentation та зробили його дизайн, як у стрічці Термінатор. Ми направили камеру в зал, і люди на екрані бачили, як алгоритм розпізнає та описує їх.

Це все ще дуже далеко від реального штучного інтелекту, але я вірю, що Термінатор можливий, адже людина — по суті складна композиція матерії. Природі нічого не заважає створити ще складнішу, яка еволюційно витіснить людину.

Як людина має в собі гени рептилій, які колись вилізли з води, так і штучний інтелект матиме в собі щось, що закладе в нього людина. Наприклад, код. З точки зору конкуренції цей вид імовірно витіснить або знищить людину.


У компанії три співзасновники — два професори фізики і розробник. Зараз у команді трохи менше десяти людей. Вся технічна команда — професійні бекенд- і фронтенд-розробники, окремих data science-спеціалістів у них немає.

Ракети не роблять з бетону

Наш продукт допомагає людям шукати наукові статті та експертів. Ми використовуємо AI/ML як інструмент для вирішення своїх задач, бо це єдиний спосіб їх вирішити.
Наприклад, якщо ми будуємо якийсь сарай — його можна побудувати з будь-чого і будь-як, аби лиш воно нам на голову не впало. Якщо ми будуємо хмарочос — будемо будувати його з металу та бетону. Якщо будуємо ракету — вона буде тонка, довга, наповнена паливом та окиснювачем. Ніхто не буде будувати ракету з бетону, так само як ніхто не буде робити хмарочос пустим всередині й заливати туди паливо. Аналогічно й у нас:

  • ми працюємо з текстами і єдиний спосіб це робити — Natural Language Processing;
  • якщо потрібен пошук, використовуємо Information Retrieval;
  • використовуємо різні методи класифікації та кластеризації.

Наш ринок — це наукомісткі компанії (наприклад, фармацевтичні), наукові видавництва, грантові агентства й університети. Насамперед це розвинені наукові ринки (Європа та Північна Америка), далі — Азія (Японія, Корея, Китай, Тайвань, Сингапур, Індія).

If-then — це не злочин

Штучний інтелект — це автоматизація когнітивної праці. Якщо для цього потрібно всього лише багато if-then, це класно та швидко вирішує бізнес-задачу, то я не бачу в цьому нічого поганого. Навіть якщо проєкт починався з купи if-then, якось вирішив бізнес-задачу, зміг знайти клієнтів і почав продавати свій продукт, то він захоче розвиватися. Ймовірно, йому доведеться потроху змінювати свої if-then на ML-моделі для покращення продукту і підвищення цінності.
Чи це бульбашка? Я так не думаю. У багатьох сферах ML дає можливість робити те, що раніше було практично неможливо. Я не знаю, як оцінити, чи став AI звичним в Україні. На конференціях людям цікаво слухати про проблеми в AI/ML-проєктах. Тут не тільки веселки та єдинороги — на виступи, присвячені AI/ML, приходить багато людей, які цікавляться цією темою, але ще не стикалися з такими задачами по роботі.

Про фахівців у сфері АІ

Існує дуже багато data science-спеціалістів, яким бракує стандартних навичок програмування та soft skills. У них є проблеми з нормальним оформленням свого коду у модулі та функції і з тим, щоб правильно все іменувати. Вони не дуже класно вміють дебажити свій код, погано працюють з системами контролю версій. Наприклад, роблять якийсь прототип, не замислюючись, як це потім буде працювати у продакшені. Правильна організація процесу досліджень — це теж окремий набір вмінь.
Багато проблем виникає через те, що більшість фахівців у сфері AI доволі молоді дівчата й хлопці, які нещодавно закінчили університет. У них просто мало досвіду. Інколи швидше і ефективніше навчити досвідченого розробника працювати з даними, ніж навчити data science-спеціаліста оформлювати код, працювати з багами, комунікувати та організовувати процеси. Але в цьому українські фахівці нічим не відрізняються від світових трендів.


Цей матеріал підготовлено в рамках Програми міжредакційних обмінів за підтримки Національного фонду на підтримку демократії NED.

Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

ЧИТАЙТЕ ТАКОЖ
Історії
Натхнення на мільярд. Що таке мотиваційна література і чому нам (не)варто її читати?
Матеріал успішно додано в закладки Досягнуто максимальної кількості закладок
03 Грудня 2020, 09:30 9 хв читання
Історії
245 000 транзакцій на добро. Як monobank та «Кураж» запустили благодійність у смартфоні
Матеріал успішно додано в закладки Досягнуто максимальної кількості закладок
27 Листопада 2020, 09:20 5 хв читання
Історії
Брехня — нова правда. Що таке діпфейки та як їх розпізнати?
Матеріал успішно додано в закладки Досягнуто максимальної кількості закладок
02 Листопада 2020, 08:16 4 хв читання
Історії
Країна в кишені. Як ми оживили пам’ятки культури за допомогою AR-технологій
Матеріал успішно додано в закладки Досягнуто максимальної кількості закладок
29 Жовтня 2020, 11:41 7 хв читання
Завантаження...