Соревнование по автоматической семантической разметке.
Соревнование содержит 2 дорожки:
- base (Codalab): создать решение, которое будет производить семантическую разметку с вершинами зависимостей (по возможности с использованием морфосинтаксической разметки).
- hard (Codalab): создать решение, которое будет производить одновременно морфологическую, синтаксическую и семантическую разметку.
Обе дорожки подразумевают в том числе решение задачи All-words WSD – разрешения омонимии для всех многозначных слов, так как участники должны приписать семантические классы всем словам.
Наличие морфосинтаксической разметки в обучающем датасете позволит учитывать эти данные и в перспективе выяснить взаимосвязь разных уровней разметки.
Ссылка на публикацию при использовании корпуса:
@inproceedings{Petrova2023,
year = {2023},
author = {Maria Petrova, Alexandra Ivoylova, Ilya Bayuk, Darya Dyachkova, Mariia Michurina},
title = {The ICA Project: the Creation and Application of the full Morpho-Syntactic and Semantic Markup Standard},
booktitle = {Computational Linguistics and Intellectual Technologies}
}
Разберем формат разметки base дорожки на примере предложения:
Еду готовили на костре.
Разметка base дорожки состоит из 3-х типов тэгов: вершины зависимостей, глубинные позиции (ГП) и семантические классы (СК).
- Вершины зависимостей: слова в предложении находятся в связи друг с другом, и как правило, одно слово является зависимым, а другое – его вершиной, т.е. каким-либо образом управляет им. Эта зависимость – синтаксическая и семантическая. Так, токен еду будет зависеть от токена готовили.
- Глубинные позиции – это семантические роли, которые занимают конкретные слова в предложении, например, в нашем предложении еда – это объект готовки
(Object)
, а костер – место, где готовка происходила(Locative)
. - Семантические классы – это смысловые категории, к которым относятся слова, конкретные толкования слов. Так, еда будет иметь сем. класс
FOOD
, а, например, готовить –TO_PREPARE_FOOD_SUBSTANCE
.
Разметка на Base дорожке – это разметка этих трех видов тэгов:
# text = Еду готовили на костре.
@@ -31,9 +32,12 @@
4 костре _ _ _ _ 2 _ Locative OBJECT_BY_FUNCTION_AND_PROPERTY
5 . _ _ _ _ 2 _ _ _
Здесь трудность представляют токены-омонимы еду и готовили. Так, токен еду, кроме значения Object FOOD
, может иметь значение Predicate TO_GO_AND_TRANSFER
(для глагола ехать), а токен готовили – Predicate READINESS
.
Разметка для Hard дорожки:
# text = Еду готовили на костре.
1 Еду еда NOUN _ Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing 2 obj Object FOOD _
@@ -42,40 +46,49 @@
4 костре костёр NOUN _ Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing 2 obl Locative OBJECT_BY_FUNCTION_AND_PROPERTY _
5 . . PUNCT _ _ 2 punct _ punct _
Помимо вершин зависимостей, ГП и СК, мы предлагаем участникам разметить леммы, части речи, грамматические категории (т.н. features) и синтаксические связи (по UD).
Для русского языка впервые создан и выложен в открытый доступ корпус, который содержит разметку по 3 уровням языка:
- Морфология (UD)
- Синтаксис (UD)
- Семантика (Упрощенная разметка Compreno)
Мы считаем, что одновременная разметка сразу 3 уровней языка – это challenge для участников, еще более сложный, чем соревнование GramEval-2020 (Диалог), где было 2 уровня языка – морфология и синтаксис.
Подробную информацию о датасете можно прочесть в его репозитории.
- Semantic Slots – список используемых в разметке семантических отношений
- Semantic Classes – список используемых в разметке семантических классов
- UD Morphology tagset – Морфологический тагсет UD: части речи и грамматические категории (мы используем ссылку на тагсет, опубликованный на соревновании GramEval-2020)
- UD Dependency relations (syntax) – синтаксические связи UD
- [Полное описание датасета и его формата]https://github.com/compreno-semantics
- Acknowledgements – участники проекта
Ссылка на публикацию по конвертации корпуса:
@inproceedings{Ivoylova2023,
year = {2023},
author = {Alexandra Ivoylova, Darya Dyachkova, Maria Petrova, Mariia Michurina},
title = {The problem of linguistic markup conversion: the transformation of the Compreno markup into the UD format},
booktitle = {Computational Linguistics and Intellectual Technologies}
}
- 20 января — публикация train и dev датасетов, тестовых данных;
- 31 января – публикация соревнования на CodaLab
- 20 марта — окончание соревнование, подведение результатов;
- 1 апреля — дедлайн для подачи статьи.
- Мария Петрова (A4 Foundation)
- Александра Ивойлова (РГГУ)
- Илья Баюк (A4 Foundation)
- Мичурина Мария (РГГУ)
- Дарья Дьячкова (РГГУ)
- Анжела Шумилова (РГГУ)