НОВИНИ

Grammarly випустила другу версію GEC-корпусу української мови. Що нового?

Аудіо версія новини

Слухати

Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію свого анотованого GEC-корпусу української мови. Вона містить майже 34 000 речень. Про це нам розповіли у компанії. 

Що сталося 

GEC-корпус (Grammatical Error Correction — виправлення граматичних помилок) — це колекція текстів, які написали звичайні люди, а потім допрацювали лінгвісти. Останні шукали, позначали та виправляли помилки. Корпус повинен допомогти в науковому та практичному вивченні мови.

Першу версію корпусу UA-GEC (GEC — grammatical error correction), яка містила близько 20 000 речень, Grammarly опублікувала у відкритому доступі у січні 2021 року. Тепер проєкт розширили й удосконалили.

Що нового

У другій версії корпусу UA-GEC впроваджено три ключові зміни: 

  • розмір корпусу збільшено майже вдвічі — до речень; 
  • деталізовано класифікацію помилок (зокрема, розділили категорії «граматика» і «стиль» на ще 13 і п’ять підкатегорій відповідно);
  • завантажили корпус у двох варіантах: виправлення тільки граматики і виправлення граматики та стилю.

Чому це важливо  

Розширення корпусу до 33 735 речень виводить проєкт на новий рівень. Адже що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000, а англійської —  1, 167 млн.

GEC-корпус має стати корисним науковцям, які займаються обробкою природної мови. Також він сприятиме практичному дослідженню української і покращенню інструментів для роботи з нею. Зокрема, для тренування та покращення моделей машинного навчання. 

Раніше ми писали, що Grammarly запустила нові рекомендації щодо адаптації тону листів.

ЧИТАЙТЕ ТАКОЖ

НОВИНИ
Користувачі Claude доплачуватимуть за використання OpenClaw

06 Квітня 2026, 10:18

Хто ці люди
Створити новий стандарт AI-пошуку для онлайн-магазинів. Як працює український стартап SeekLab

06 Квітня 2026, 08:34

НОВИНИ
Що подивитися на Netflix у квітні — 8 фільмів та серіалів

05 Квітня 2026, 18:00

Досвід і думки
Як не потрапити в «пастку вітаміну»: розбираємо Product-Market Fit

05 Квітня 2026, 13:15

НОВИНИ
Як Microsoft заробила $400 млн на Apple і втратила шанс на $120 млрд

05 Квітня 2026, 09:00

НОВИНИ
3 ознаки, що ваша компанія неправильно використовує штучний інтелект 

04 Квітня 2026, 18:00

Досвід і думки
Коли креативна фабрика не стає конвеєром: досвід роботи дизайн-команди Kiss My Apps

04 Квітня 2026, 13:36

НОВИНИ
Ці щоденні поради допоможуть запобігти вигоранню на роботі

04 Квітня 2026, 09:00

НОВИНИ
Microsoft випустила 3 AI-моделі та кинула виклик OpenAI

03 Квітня 2026, 17:25

НОВИНИ
Відомий виробник туалетного паперу постраждав від атаки рф та призупинив роботу

03 Квітня 2026, 16:33