НОВИНИ

Grammarly випустила другу версію GEC-корпусу української мови. Що нового?

Аудіо версія новини

Слухати

Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію свого анотованого GEC-корпусу української мови. Вона містить майже 34 000 речень. Про це нам розповіли у компанії. 

Що сталося 

GEC-корпус (Grammatical Error Correction — виправлення граматичних помилок) — це колекція текстів, які написали звичайні люди, а потім допрацювали лінгвісти. Останні шукали, позначали та виправляли помилки. Корпус повинен допомогти в науковому та практичному вивченні мови.

Першу версію корпусу UA-GEC (GEC — grammatical error correction), яка містила близько 20 000 речень, Grammarly опублікувала у відкритому доступі у січні 2021 року. Тепер проєкт розширили й удосконалили.

Що нового

У другій версії корпусу UA-GEC впроваджено три ключові зміни: 

  • розмір корпусу збільшено майже вдвічі — до речень; 
  • деталізовано класифікацію помилок (зокрема, розділили категорії «граматика» і «стиль» на ще 13 і п’ять підкатегорій відповідно);
  • завантажили корпус у двох варіантах: виправлення тільки граматики і виправлення граматики та стилю.

Чому це важливо  

Розширення корпусу до 33 735 речень виводить проєкт на новий рівень. Адже що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000, а англійської —  1, 167 млн.

GEC-корпус має стати корисним науковцям, які займаються обробкою природної мови. Також він сприятиме практичному дослідженню української і покращенню інструментів для роботи з нею. Зокрема, для тренування та покращення моделей машинного навчання. 

Раніше ми писали, що Grammarly запустила нові рекомендації щодо адаптації тону листів.

ЧИТАЙТЕ ТАКОЖ

НОВИНИ
5 нових серіалів на Netflix, які варто подивитися у жовтні 2025

06 Жовтня 2025, 18:00

КРЕАТИВ
Більше, ніж річ у коробці. 5 ідей для подарунків, які зараз у тренді

06 Жовтня 2025, 11:00

НОВИНИ
Ось, як зберегти улюблені відео з TikTok назавжди

06 Жовтня 2025, 09:00

СТАРТАПИ
«Shopify для фінтеху». Як працює український стартап SoftBees

06 Жовтня 2025, 08:34

НОВИНИ
Міцніші за сталь: 9 матеріалів, які витримують екстремальні умови

05 Жовтня 2025, 18:00

Досвід і думки
Від утиліт до lifestyle-освіти: як Futurra Group масштабувала новий продукт у 4х і що з цього можуть взяти власники бізнесу

05 Жовтня 2025, 13:38

НОВИНИ
4 стратегії нетворкінгу для інтровертів, які допоможуть впевнено спілкуватися

05 Жовтня 2025, 09:00

НОВИНИ
Як перетворити жарт на 8,8 млн проданих банок — monobank і «Живчик» розповіли історію своєї колаборації

04 Жовтня 2025, 18:45

НОВИНИ
У monobank нова CMO — як планує тримати бренд у топі та планку трендсетера: ексклюзив

04 Жовтня 2025, 17:49

НОВИНИ
Довгостроковий проєкт на 100 млн грн: «Хартія» розповіла про найвдаліші колаборації

04 Жовтня 2025, 15:18