preview preview
Нова функція

Слухай статті з Respeecher

Нова функція дозволяє слухати статті в зручному форматі завдяки технології від Respeecher. Насолоджуйтесь контентом у будь-який час – у дорозі, під час тренувань або відпочинку.
preview
00:00 00:00
Наступні статті
    Завантажується
    Голос
    Вибір голосу
      player background
      Вибір голосу
        Наступні статті
          Завантажується
          00:00 00:00
          НОВИНИ

          Grammarly випустила другу версію GEC-корпусу української мови. Що нового?

          09 Листопада 2022, 15:48
          2 хв читання
          Додати в закладки

          Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

          Юлія Ткач Шеф-редакторка, авторка і ведуча подкасту «Хто ці люди».
          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
          Режим читання

          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

          Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію свого анотованого GEC-корпусу української мови. Вона містить майже 34 000 речень. Про це нам розповіли у компанії. 

          Що сталося 

          GEC-корпус (Grammatical Error Correction — виправлення граматичних помилок) — це колекція текстів, які написали звичайні люди, а потім допрацювали лінгвісти. Останні шукали, позначали та виправляли помилки. Корпус повинен допомогти в науковому та практичному вивченні мови.

          Першу версію корпусу UA-GEC (GEC — grammatical error correction), яка містила близько 20 000 речень, Grammarly опублікувала у відкритому доступі у січні 2021 року. Тепер проєкт розширили й удосконалили.

          Що нового

          У другій версії корпусу UA-GEC впроваджено три ключові зміни: 

          • розмір корпусу збільшено майже вдвічі — до речень; 
          • деталізовано класифікацію помилок (зокрема, розділили категорії «граматика» і «стиль» на ще 13 і п’ять підкатегорій відповідно);
          • завантажили корпус у двох варіантах: виправлення тільки граматики і виправлення граматики та стилю.

          Чому це важливо  

          Розширення корпусу до 33 735 речень виводить проєкт на новий рівень. Адже що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000, а англійської —  1, 167 млн.

          GEC-корпус має стати корисним науковцям, які займаються обробкою природної мови. Також він сприятиме практичному дослідженню української і покращенню інструментів для роботи з нею. Зокрема, для тренування та покращення моделей машинного навчання. 

          Раніше ми писали, що Grammarly запустила нові рекомендації щодо адаптації тону листів.

          Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

          Партнерські матеріали

          01 Як вони працюють
          Чому шлях до цілі не повинен бути очевидним: про амбіції та масштаб мислення СЕО Universe Group
          Ветерани на роботі: як адаптація робочих місць повертає захисників до цивільного життя
          02 БІЗНЕС
          Ветерани на роботі: як адаптація робочих місць повертає захисників до цивільного життя
          Великий експеримент: чому український e-commerce відмовився від AWS на користь Freehost
          03 БІЗНЕС
          Великий експеримент: чому український e-commerce відмовився від глобальних хмарних провайдерів на користь Freehost
          Як виростити 83% менеджерів усередині компанії: досвід Laba Group
          04 БІЗНЕС
          Як виростити 83% менеджерів усередині компанії: досвід Laba Group
          Завантаження...