Обучающие задачи По мотивам онлайн-игр Студенческий контест по Machine Learning Первый открытый контест ok.ru: Возраст по графу Задача с секретом Предсказание ССЗ ok.ru: Связи пользователей Прогноз отклика аудитории на интернет-опрос Telecom Data Cup Ответы Mail.ru (Хакатон, МФТИ)
Участники
  • 1
    Илья Ковальчук
  • 2
    Илья Гридасов
  • 3
    Кирилл Тушин
  • 4
    Andrei Znobishchev
  • 5
    ivan ivan
Задача "Ответы Mail.ru"

Проект Ответы Mail.ru существует уже 12 лет. Сейчас на Ответы заходят около 5 миллионов уникальных пользователей ежедневно и 60 миллионов ежемесячно. Всего со дня основания проекта было задано 125 миллионов вопросов и получено 667 миллионов ответов. Мы находимся высоко в поисковой выдаче потому, что и у нас, и в поисковых запросах люди формулируют свои вопросы простым человеческим языком.

Когда-то в самом начале проекта для сессий ответов-вопросов мы приглашали известных людей – экспертов в области культуры, литературы, политики и других. Сейчас мы переосмысляем этот формат и приглашаем экспертов компаний, а также выделяем экспертов среди своих пользователей.
Ответы Mail.ru созданы для того, чтобы каждый мог получить на свой вопрос качественный ответ от эксперта в этой области. Однако часто мы сталкиваемся с флудом - бесполезными ответами, не несущими смысла. Они засоряют ленту и мешают находить действительно полезные ответы.

В этом соревновании мы предлагаем вам научиться отличать хорошие ответы от плохих.
Необходимо обучить модель, которая для ответа из пары (вопрос, ответ) будет верно предсказывать одну из трех категорий:
1) Отмеченный как "лучший ответ";
2) Обычный;
3) Удаленный за спам/оскорбление/...

Набор данных состоит из 1.5 миллионов пар вида (вопрос, ответ). Данные разбиты на обучающую и тестовую выборки. Для объектов обучающей выборки известна категория ответа, тестовая часть поделена на открытую (public) и закрытую (private) части (выборка поделена в соотношении 50/50). По ходу соревнования участники будут сравниваться по результатам на открытой части тестовой выборки, итоговое положение команд будет определяться результатом на закрытой части.

Качество моделей будет определяться по метрике Accuracy - доле верно классифицированных объектов.

Действует ограничение на число посылок - 25 в сутки (максимально на данный хакатон отведено 50 попыток).

Каждой команде позволено выбрать 2 решения.

Запрещается регистрация мультиаккаунтов и публикация кернелов. Одна команда - один аккаунт. За нарушение правил — дисквалификация.

Результаты по приватной выборке будут раскрыты в автоматическом режиме 2 декабря в 17:00 по московскому времени.

Для пользователей платформы ML Boot Camp:
Хакатон проводится для участников в МФТИ. После хакатона данное соревнование окажется в песочнице, где вы сможете попробовать свои силы в решении задачи. Подсказывать участникам хакатона запрещено.