НОВИНИ

Grammarly випустила другу версію GEC-корпусу української мови. Що нового?

Аудіо версія новини

Слухати

Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію свого анотованого GEC-корпусу української мови. Вона містить майже 34 000 речень. Про це нам розповіли у компанії. 

Що сталося 

GEC-корпус (Grammatical Error Correction — виправлення граматичних помилок) — це колекція текстів, які написали звичайні люди, а потім допрацювали лінгвісти. Останні шукали, позначали та виправляли помилки. Корпус повинен допомогти в науковому та практичному вивченні мови.

Першу версію корпусу UA-GEC (GEC — grammatical error correction), яка містила близько 20 000 речень, Grammarly опублікувала у відкритому доступі у січні 2021 року. Тепер проєкт розширили й удосконалили.

Що нового

У другій версії корпусу UA-GEC впроваджено три ключові зміни: 

  • розмір корпусу збільшено майже вдвічі — до речень; 
  • деталізовано класифікацію помилок (зокрема, розділили категорії «граматика» і «стиль» на ще 13 і п’ять підкатегорій відповідно);
  • завантажили корпус у двох варіантах: виправлення тільки граматики і виправлення граматики та стилю.

Чому це важливо  

Розширення корпусу до 33 735 речень виводить проєкт на новий рівень. Адже що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000, а англійської —  1, 167 млн.

GEC-корпус має стати корисним науковцям, які займаються обробкою природної мови. Також він сприятиме практичному дослідженню української і покращенню інструментів для роботи з нею. Зокрема, для тренування та покращення моделей машинного навчання. 

Раніше ми писали, що Grammarly запустила нові рекомендації щодо адаптації тону листів.

ЧИТАЙТЕ ТАКОЖ

НОВИНИ
Як використовувати штучний інтелект для планування свого року

28 Грудня 2025, 09:00

НОВИНИ
Ілюзія work-life balance: СЕО топкомпаній сумніваються, що ШІ полегшить роботу у 2026 році

27 Грудня 2025, 18:00

БІЗНЕС
Як не потрапити в акселератор: 5 типових помилок засновників

27 Грудня 2025, 13:26

НОВИНИ
4 фільми з найвищим рейтингом Rotten Tomatoes у 2025 році

27 Грудня 2025, 09:00

НОВИНИ
Астрономи зафіксували активне зореутворення за 2 700 світлових років — фото

26 Грудня 2025, 18:01

НОВИНИ
Ютубер, на якого Apple подала у суд за витоки, показав ранній дизайн складного iPhone

26 Грудня 2025, 17:38

СТАРТАПИ
6 ветеранських стартапів отримали $44 000: SKELAR Veteran Venture Program представили фіналістів акселераційної програми

26 Грудня 2025, 17:30

НОВИНИ
1,2 млрд користувачів LinkedIn під загрозою: хакери атакують через фейкові вакансії

26 Грудня 2025, 17:16

НОВИНИ
Як говорити так, щоб вас чули: правило комунікації Джобса і Безоса

26 Грудня 2025, 16:06

НОВИНИ
Маск, Хуанг і Пейдж: як ШІ приніс техномільярдерам США $550 млрд

26 Грудня 2025, 14:09