Paper: Russian News Clustering and Headline Selection Shared Task
- Vatolin et al., SberBank: Russian News Similarity Detection with SBERT: pre-training and fine-tuning
- Khaustov et al., MTS AI: BERT for Russian news clustering
- Voropaev et al., MIPT: Transformers for Headline Selection for Russian News Clusters
- Glazkova Anna, University of Tyumen: Towards News Aggregation in Russian: a BERT-based Approach to News Article Similarity Detection
- Tikhonova et al., SberDevices: Using Generative Pretrained Transformer-3 Models for Russian News Clustering and Title Generation tasks
- Baselines:
- MLM BERT pretraining: train_mlm.py
- Clustering solution (reproduced):
- Classification solution (reproduced):
- February 8, 2021: Clustering task started on Codalab.
- February 26, 2021: Headline selection task started on Codalab.
- March 13, 2021: Headline generation task started on Codalab.
- March 22, 2021: Final deadline for all competitions.
- March 28, 2021: Final deadline for paper submission.
Цель соревнования – собрать и сравнить подходы к кластеризации и выбору наилучшего заголовка для получившихся кластеров. Кластеризация новостей выглядит достаточно сложной задачей для современных моделей, и из-за этого является хорошим бенчмарком. Кроме того, кластеризация текстов как задача достаточно часто встречается в индустрии. Выбор или генерация лучшего заголовка – логичное её продолжение.
Ссылка: https://competitions.codalab.org/competitions/28830
Новостные документы берутся из одноименного соревнования Телеграма. Поверх этого сделана попарная разметка документов в Толоке на предмет того, лежат ли документы в одном кластере.
Содержимое датасета:
- ~15 тысяч размеченных пар новостей за 25 мая 2020, обучение и валидация: ссылка
- ~8,5 тысяч размеченных пар новостей за 27 мая 2020, публичный лидерборд: ссылка
- ~8,5 тысяч размеченных пар новостей за 29 мая 2020, приватный лидерборд: ссылка
Задача: кластеризация с эталонной разметкой или бинарная классификация
Метрики: F-мера для положительных пар.
В качестве бейзлайнов будут предлагались решения на основе именно кластеризации (полностью unsupervised, обучающая выборка только для подбора гиперпараметров). Однако, решения на основе бинарной классификации тоже принимались.
F-мера на положительных примерах.
Login | Public LB | Private LB |
---|---|---|
maelstorm | 0,969 | 0,9604 |
naergvae | 0,967 | 0,9598 |
g2tmn | 0,965 | 0,9573 |
Kouki | 0,955 | 0,9548 |
alexey.artsukevich | 0,958 | 0,9527 |
smekur | 0,946 | 0,9387 |
nikyudin | 0,938 | 0,9295 |
landges | 0,916 | 0,9057 |
kapant | 0,907 | 0,8985 |
bond005 | 0,902 | 0,8924 |
anonym | 0,906 | 0,8910 |
mashkka_t | 0,853 | 0,7149 |
vatolinalex | 0,952 | 0,4760 |
blanchefort | 0,941 | |
imroggen | 0,903 | |
Abiks | 0,894 | |
dinabpr | 0,844 |
Ссылка: https://competitions.codalab.org/competitions/29479
- ~5 тысяч размеченных пар заголовков за 25 мая 2020, обучение и валидация: ссылка
- ~3 тысячи размеченных пар заголовков за 27 мая 2020, публичный лидерборд: ссылка
- ~3 тысячи размеченных пар заголовков за 29 мая 2020, приватный лидерборд: ссылка
Задача: ранжирование заголовков
Метрики: точность на парах.
Безлайн: USE и Caboost в попарном режиме.
Login | Public LB | Private LB |
---|---|---|
sopilnyak | 0,860 | 0,854 |
landges | 0,813 | 0,820 |
nikyudin | 0,832 | 0,816 |
LOLKEK | 0,808 | 0,814 |
maelstorm | 0,818 | 0,798 |
a.korolev | 0,658 | 0,662 |
Ссылка: https://competitions.codalab.org/competitions/29905
- Тестовая выборка, 9-12 марта 2021, данные Телеграма: ссылка
Задача: генерация заголовков
Метрики: ROUGE, BLEU
Бейзлайны: Lead-1 и Encoder-Decoder на RuBERT
ROUGE = (ROUGE-1 + ROUGE-2 + ROUGE-L) / 3
Login | ROUGE | BLEU |
---|---|---|
LOLKEK | 0,387 | 0,695 |
Rybolos | 0,292 | 0,596 |
- Илья Гусев, МФТИ
- Иван Смуров, ABBYY, МФТИ