Skip to content

dialogue-evaluation/Russian-News-Clustering-and-Headline-Generation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Russian News Сlustering and Headline Generation

Paper: Russian News Clustering and Headline Selection Shared Task

Participants papers:

Scripts

  • Baselines: Open In Colab
  • MLM BERT pretraining: train_mlm.py
  • Clustering solution (reproduced): Open In Colab
  • Classification solution (reproduced): Open In Colab

Shared task timeline

  • February 8, 2021: Clustering task started on Codalab.
  • February 26, 2021: Headline selection task started on Codalab.
  • March 13, 2021: Headline generation task started on Codalab.
  • March 22, 2021: Final deadline for all competitions.
  • March 28, 2021: Final deadline for paper submission.

Введение

Цель соревнования – собрать и сравнить подходы к кластеризации и выбору наилучшего заголовка для получившихся кластеров. Кластеризация новостей выглядит достаточно сложной задачей для современных моделей, и из-за этого является хорошим бенчмарком. Кроме того, кластеризация текстов как задача достаточно часто встречается в индустрии. Выбор или генерация лучшего заголовка – логичное её продолжение.

Соревнование по кластеризации

Ссылка: https://competitions.codalab.org/competitions/28830

Данные

Новостные документы берутся из одноименного соревнования Телеграма. Поверх этого сделана попарная разметка документов в Толоке на предмет того, лежат ли документы в одном кластере.

Инструкция по разметке

Содержимое датасета: 

  • ~15 тысяч размеченных пар новостей за 25 мая 2020, обучение и валидация: ссылка
  • ~8,5 тысяч размеченных пар новостей за 27 мая 2020, публичный лидерборд: ссылка
  • ~8,5 тысяч размеченных пар новостей за 29 мая 2020, приватный лидерборд: ссылка

Задача

Задача: кластеризация с эталонной разметкой или бинарная классификация

Метрики: F-мера для положительных пар.

В качестве бейзлайнов будут предлагались решения на основе именно кластеризации (полностью unsupervised, обучающая выборка только для подбора гиперпараметров). Однако, решения на основе бинарной классификации тоже принимались.

Результаты

F-мера на положительных примерах.

Login Public LB Private LB
maelstorm 0,969 0,9604
naergvae 0,967 0,9598
g2tmn 0,965 0,9573
Kouki 0,955 0,9548
alexey.artsukevich 0,958 0,9527
smekur 0,946 0,9387
nikyudin 0,938 0,9295
landges 0,916 0,9057
kapant 0,907 0,8985
bond005 0,902 0,8924
anonym 0,906 0,8910
mashkka_t 0,853 0,7149
vatolinalex 0,952 0,4760
blanchefort 0,941
imroggen 0,903
Abiks 0,894
dinabpr 0,844

Соревнование по выбору заголовков

Ссылка: https://competitions.codalab.org/competitions/29479

Данные

Инструкция по разметке

  • ~5 тысяч размеченных пар заголовков за 25 мая 2020, обучение и валидация: ссылка
  • ~3 тысячи размеченных пар заголовков за 27 мая 2020, публичный лидерборд: ссылка
  • ~3 тысячи размеченных пар заголовков за 29 мая 2020, приватный лидерборд: ссылка

Задача

Задача: ранжирование заголовков

Метрики: точность на парах.

Безлайн: USE и Caboost в попарном режиме.

Результаты

Login Public LB Private LB
sopilnyak 0,860 0,854
landges 0,813 0,820
nikyudin 0,832 0,816
LOLKEK 0,808 0,814
maelstorm 0,818 0,798
a.korolev 0,658 0,662

Соревнование по генерации заголовков

Ссылка: https://competitions.codalab.org/competitions/29905

Данные

  • Тестовая выборка, 9-12 марта 2021, данные Телеграма: ссылка

Задача

Задача: генерация заголовков

Метрики: ROUGE, BLEU

Бейзлайны: Lead-1 и Encoder-Decoder на RuBERT

Результаты

ROUGE = (ROUGE-1 + ROUGE-2 + ROUGE-L) / 3

Login ROUGE BLEU
LOLKEK 0,387 0,695
Rybolos 0,292 0,596

Организаторы

  • Илья Гусев, МФТИ
  • Иван Смуров, ABBYY, МФТИ

Основная страница соревнования на CodaLab

Телеграм-чат соревнования

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published