Современные модели генерации текстов показывают впечатляющие результаты: они могут сочинить стихотворение, изменить стиль текстов и даже написать осмысленное эссе на свободную тематику. Однако такие модели могут быть использованы в злонамеренных целях, например, для генерации фейковых новостей, отзывов на продукты и политического контента. Так, возникает новая задача: научиться отличать тексты, написанные человеком, от текстов, сгенерированных нейросетевыми языковыми моделями.
Соревнование RuATD (Russian Artificial Text Detection) посвящено задаче автоматического распознавания сгенерированных текстов и предлагает участникам рассмотреть две постановки:
- Определить, был ли текст сгенерирован автоматически или написан человеком;
- Определить, какая именно модель была использована для генерации данного текста.
С формальной точки зрения, первая задача является задачей бинарной классификации, а вторая – мультиклассовой классификации. Обучающие и тестовые данные размечены автоматически. Тексты, написанные человеком, собраны из открытых источников. Различные нейросетевые языковые модели – машинного перевода, парафразирования, суммаризации, упрощения и безусловной генерации текстов – использованы для генерации текстов.
Схема бинарной разметки содержит следующие обозначения:
- H – текст написан человеком
- M – текст сгенерирован автоматически
Схема мультиклассовой разметки содержит следующие обозначения:
- OPUS-MT – текст сгенерирован моделью машинного перевода OPUS
- ruGPT3-Large – текст сгенерирован моделью ruGPT3-Large
- и так далее
Файлы sample_submit_binary и sample_submit_multiple представляют формат данных для отправки на платформу соревнования.
Пример обучающих данных представлен в таблице ниже.
H | M-MT (FR→RU) |
---|---|
Эх, у меня может быть и нет денег, но у меня всё ещё есть гордость. | Может, у меня нет денег, но у меня всегда есть гордость. |
Меня покусали комары. | Меня похитили муски. |
Я не могу чувствовать себя в гостинице как дома. | Я не могу чувствовать себя дома в отеле. |
Эта книга показалась мне интересной. | Я нашёл эту интересную книгу. |
Я был полон решимости помочь ему, даже рискуя собственной жизнью. | Я был готов помочь ему в опасности своей жизни. |
Моя квартира находится меньше чем в пяти минутах пешком от станции. | Моя квартира находится на расстоянии менее пяти минут от станции. |
Для оценки решений в соревновании будет использована стандартная метрика оценки качества классификации — доля правильных ответов модели (accuracy).
Организаторы предоставляют два базовых решения задачи:
- tf-idf + логистическая регрессия
- дообучение модели ruBERT
Код базовых решений доступен в репозитории соревнования.
- Соревнование RuATD проводится на двух независимых платформах Kaggle: бинарная классификация (kaggle) и мультиклассовая классификация (kaggle).
- Участникам разрешается использовать любые технологии и дополнительные данные, кроме поиска в интернете и непосредственной разметки тестовых данных.
- Тестовые файлы содержат одновременно и публичные, и приватные данные. В ходе тестирования будет открыт публичный лидерборд, по завершению тестирования – приватный лидерборд.
- Тестирование будет завершено 25 февраля 2022, 9 утра (Московское время).
- Для подсчета итогового результата на приватном лидерборде участник может выбрать три своих лучших решения. Если участник ничего не отметил автоматически выбираются три лучших сабмита по метрикам на публичном лидерборде.
- Итоговые места присваиваются по результатам на приватном лидерборде (решения не прошедшие проверку в распределении мест не участвуют).
- С 25 февраля по 28 февраля будет проходить дополнительная стадия кросс-проверки полученных решений.
- Участники получат ссылку на опросник, в котором надо будет заполнить следующие поля:
- ответить на несколько вопросов об отправленном решении (для статьи организаторов на Диалог)
- предоставить ссылку на решение в открытом доступе
- или приложить код поданного решения.
- Полученные ссылки на решения организаторы распространят между участниками и попросят провести проверку. Мы попросим проверить следующие критерии:
- использует ли решение поиск в интернете или нет
- использует ли решение ручную разметку тестовых данных
- Организаторы обязаются так же участвовать в проверке решений и гарантируют, что каждое решение будет проверено.
- Решения, использующие поиск в интернете, будут дисквалифицированы и сняты с общих лидербордов.
- Все участники соревнования будут приглашены к подаче статей в сборник Диалога (вне зависимости от того, было ли дисквалифицировано решение).
- Статьи, посвященные дисквалицифированым решениям, получат дополнительную пометку, как проходящие вне общего конкурса.
- Конец декабря 2021 - начало января 2022 – публикация обучающих данных
- 17 января 2022 – открытие платформ тестирования
- 7 марта 2022, 9 утра (Мск) – закрытие тестирования
- 8 марта - предварительное подведение итогов
- 9-13 марта 2022 - кросспроверка и официальное подведение итогов
- 25 марта 2022 – завершаем прием статей
Екатерина Артемова (НИУ ВШЭ, Huawei Noah’s Ark Lab)
Анастасия Валеева (МФТИ)
Константин Николаев (НИУ ВШЭ)
Владислав Михайлов (SberDevices)
Марат Саидов (НИУ ВШЭ)
Иван Смуров (ABBYY, МФТИ)
Елена Тутубалина (Sber AI, НИУ ВШЭ)
Алена Феногенова (SberDevices)
Даниил Чернявский (Skolkovo Institute of Science and Technology)
Татьяна Шаврина (AIRI, SberDevices)
Татьяна Шамардина (ABBYY)