Обучающие задачи По мотивам онлайн-игр Студенческий контест по Machine Learning Первый открытый контест ok.ru: Возраст по графу Задача с секретом Предсказание ССЗ ok.ru: Связи пользователей Прогноз отклика аудитории на интернет-опрос Telecom Data Cup Ответы Mail.ru (Хакатон, МФТИ)
Участники
  • 1
    Сергей Фиронов
  • 2
    Дмитрий Никитко
  • 3
    Gleb Tumanov
  • 4
    Mikhail Novikov
  • 5
    Игорь Попов
Задача "Прогноз отклика аудитории на интернет-опрос"

Есть результаты интернет-опроса. Известно, что часть аудитории прошла анкетирование полностью и корректно. Другая часть завершила опрос частично, с ошибками, или совсем отказалась от участия. Необходимо с максимально возможной точностью предсказать, кто из респондентов относится к первой группе, то есть прошел исследование полностью и без ошибок.

Основной файл с данными содержит 19 528 597 строчек (10Гб) и состоит из 6 столбцов:

  • 1. cuid — идентификатор. Для одного идентификатора в файле может содержаться несколько записей;
  • 2. cat_feature — некоторая категориальная переменная. Область значений: {0,1,2,3,4,5};
  • 3-5. счетчики, собранные на основе поведения человека в интернете. Формат: {w_1: c_1, w_2: c_2, ...}, где w_i — это закодированный токен, а c_i — частота этого токена;
  • 6. dt_diff — количество дней до даты, когда было получено значение целевой переменной.

Небольшой кусочек данных в качестве примера:

00000d2994b6df9239901389031acaac	5 {"809001":2,"848545":2,"565828":1,"490363":1} 
{"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2}	{}	39

Предсказания необходимо сделать для 181 тысячи пользователей. Набор данных для обучения модели содержит таблицу с идентификаторами и значениями целевой переменной (427 995 записей).

Метрикой задачи является ROC AUC. Это значит, что ответом служит оценка принадлежности к классу, лежащая в диапазоне [0; 1] для каждого cuid. Данная метрика, по сути, оценивает правильность упорядочения классификатором объектов, относительно одного из классов. В данном случае нас не интересует конкретная метка класса, которую выдаст алгоритм, или конкретная вероятность для каждого объекта. Нас интересует правильность самого упорядочения.

Конечно, бывает так, что в контексте конкретной прикладной задачи, при равных ROC AUC одно решение может оказаться лучше другого, но мы решили не усложнять, задачу.

Загружаемое решение должно быть в формате csv, без заголовка. Файл должен содержать по порядку на каждой строке находится предсказание вероятности для каждой из строк файла test.csv. Например, sample_solution.csv.

На предварительных результатах решение проверяется на 34% финальной выборки.

Формат соревнования не изменился: чемпионат будет длиться в течение одного месяца, с 25 июня по 25 июля 2018 года. 

 

Призы

Распределение шести призовых мест в этот раз выглядит так:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB 

Как и всегда, топ-50 участников получат майки с символикой чемпионата, а участники с наиболее интересными решениями будут приглашены на собеседование в Mail.Ru Group на позиции Data Scientists. 

Правила чемпионата

Сообщество MLBootCamp

Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Кроме того, сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников. 

Форум: Прогноз отклика аудитории на интернет-опрос

Темы Сообщения Просмотры Последнее сообщение
А как вы читаете DataFrem объемом более 10 GB?
страницы: 1 2
18 8247 15.08.2018, 12:56:55
Итоги 2 3820 25.07.2018, 18:35:06
Vowpal Wabbit 1 5511 25.07.2018, 06:32:48
Как сформировать тестовую выборку 5 6407 25.07.2018, 04:45:05
Данные весят 2.5гб( Оо 7 7167 24.07.2018, 18:14:14
Откуда взять 19 млн строк и 10Гб данных? 3 6573 20.07.2018, 10:03:53
Вопрос к гуру 6 6557 18.07.2018, 18:23:35
Участники не из России 2 5988 10.07.2018, 10:39:47
Неоднозначность при генерации решения 2 4569 05.07.2018, 12:53:13