preview preview
Нова функція

Слухай статті з Respeecher

Нова функція дозволяє слухати статті в зручному форматі завдяки технології від Respeecher. Насолоджуйтесь контентом у будь-який час – у дорозі, під час тренувань або відпочинку.
preview
00:00 00:00
Наступні статті
    Завантажується
    Голос
    Вибір голосу
      player background
      Вибір голосу
        Наступні статті
          Завантажується
          00:00 00:00
          НОВИНИ

          Grammarly випустила другу версію GEC-корпусу української мови. Що нового?

          09 Листопада 2022, 15:48
          2 хв читання
          Додати в закладки

          Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

          Юлія Ткач Головна редакторка, авторка і ведуча подкасту «Хто ці люди».
          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
          Режим читання

          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

          Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію свого анотованого GEC-корпусу української мови. Вона містить майже 34 000 речень. Про це нам розповіли у компанії. 

          Що сталося 

          GEC-корпус (Grammatical Error Correction — виправлення граматичних помилок) — це колекція текстів, які написали звичайні люди, а потім допрацювали лінгвісти. Останні шукали, позначали та виправляли помилки. Корпус повинен допомогти в науковому та практичному вивченні мови.

          Першу версію корпусу UA-GEC (GEC — grammatical error correction), яка містила близько 20 000 речень, Grammarly опублікувала у відкритому доступі у січні 2021 року. Тепер проєкт розширили й удосконалили.

          Що нового

          У другій версії корпусу UA-GEC впроваджено три ключові зміни: 

          • розмір корпусу збільшено майже вдвічі — до речень; 
          • деталізовано класифікацію помилок (зокрема, розділили категорії «граматика» і «стиль» на ще 13 і п’ять підкатегорій відповідно);
          • завантажили корпус у двох варіантах: виправлення тільки граматики і виправлення граматики та стилю.

          Чому це важливо  

          Розширення корпусу до 33 735 речень виводить проєкт на новий рівень. Адже що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000, а англійської —  1, 167 млн.

          GEC-корпус має стати корисним науковцям, які займаються обробкою природної мови. Також він сприятиме практичному дослідженню української і покращенню інструментів для роботи з нею. Зокрема, для тренування та покращення моделей машинного навчання. 

          Раніше ми писали, що Grammarly запустила нові рекомендації щодо адаптації тону листів.

          Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

          Партнерські матеріали

          01 ТЕХНОЛОГІЇ
          Топ-5 лідерів цифровізації в Україні — стартувало голосування за номінантів премії «Вчасно.Кращі»
          10 найпоширеніших запитань про нікотинові паучі ZYN, які всі гуглять, але не питають
          02 БІЗНЕС
          10 найпоширеніших запитань про нікотинові паучі ZYN, які всі гуглять, але не питають
          03 СТАРТАПИ
          Стартап замість еміграції: чому підприємницька освіта для підлітків — це стратегічний вибір України
          04 ТЕХНОЛОГІЇ
          Новий ринок: як заробляти на стабілізації українського енергетичного сектору?
          Завантаження...