НОВИНИ

Grammarly випустила другу версію GEC-корпусу української мови. Що нового?

09 Листопада 2022, 15:48
2 хв читання
Матеріал успішно додано в закладки Досягнуто максимальної кількості закладок
Додати в закладки

Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

Юлія Ткач Пишу новини про технології та компанії.
Режим читання збільшує текст, прибирає все зайве зі сторінки та дає можливість зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
Режим читання

Режим читання збільшує текст, прибирає все зайве зі сторінки та дає можливість зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію свого анотованого GEC-корпусу української мови. Вона містить майже 34 000 речень. Про це нам розповіли у компанії. 

Що сталося 

GEC-корпус (Grammatical Error Correction — виправлення граматичних помилок) — це колекція текстів, які написали звичайні люди, а потім допрацювали лінгвісти. Останні шукали, позначали та виправляли помилки. Корпус повинен допомогти в науковому та практичному вивченні мови.

Першу версію корпусу UA-GEC (GEC — grammatical error correction), яка містила близько 20 000 речень, Grammarly опублікувала у відкритому доступі у січні 2021 року. Тепер проєкт розширили й удосконалили.

Що нового

У другій версії корпусу UA-GEC впроваджено три ключові зміни: 

  • розмір корпусу збільшено майже вдвічі — до речень; 
  • деталізовано класифікацію помилок (зокрема, розділили категорії «граматика» і «стиль» на ще 13 і п’ять підкатегорій відповідно);
  • завантажили корпус у двох варіантах: виправлення тільки граматики і виправлення граматики та стилю.

Чому це важливо  

Розширення корпусу до 33 735 речень виводить проєкт на новий рівень. Адже що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000, а англійської —  1, 167 млн.

GEC-корпус має стати корисним науковцям, які займаються обробкою природної мови. Також він сприятиме практичному дослідженню української і покращенню інструментів для роботи з нею. Зокрема, для тренування та покращення моделей машинного навчання. 

Раніше ми писали, що Grammarly запустила нові рекомендації щодо адаптації тону листів.

Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

Завантаження...