Прогноз отклика аудитории на интернет-опрос
До КОНЦА ЭТАПА осталось:
Участники
  • 1
    Дмитрий Никитко
  • 2
    Андрей Орлов
  • 3
    Сергей Фиронов
  • 4
    Елена Кантонистова
  • 5
    Евгений Цацорин
Задача "Прогноз отклика аудитории на интернет-опрос"

Есть результаты интернет-опроса. Известно, что часть аудитории прошла анкетирование полностью и корректно. Другая часть завершила опрос частично, с ошибками, или совсем отказалась от участия. Необходимо с максимально возможной точностью предсказать, кто из респондентов относится к первой группе, то есть прошел исследование полностью и без ошибок.

Основной файл с данными содержит 19 528 597 строчек (10Гб) и состоит из 6 столбцов:

  • 1. cuid — идентификатор. Для одного идентификатора в файле может содержаться несколько записей;
  • 2. cat_feature — некоторая категориальная переменная. Область значений: {0,1,2,3,4,5};
  • 3-5. счетчики, собранные на основе поведения человека в интернете. Формат: {w_1: c_1, w_2: c_2, ...}, где w_i — это закодированный токен, а c_i — частота этого токена;
  • 6. dt_diff — количество дней до даты, когда было получено значение целевой переменной.

Небольшой кусочек данных в качестве примера:

00000d2994b6df9239901389031acaac	5 {"809001":2,"848545":2,"565828":1,"490363":1} 
{"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2}	{}	39

Предсказания необходимо сделать для 181 тысячи пользователей. Набор данных для обучения модели содержит таблицу с идентификаторами и значениями целевой переменной (427 995 записей).

Метрикой задачи является ROC AUC. Это значит, что ответом служит оценка принадлежности к классу, лежащая в диапазоне [0; 1] для каждого cuid. Данная метрика, по сути, оценивает правильность упорядочения классификатором объектов, относительно одного из классов. В данном случае нас не интересует конкретная метка класса, которую выдаст алгоритм, или конкретная вероятность для каждого объекта. Нас интересует правильность самого упорядочения.

Конечно, бывает так, что в контексте конкретной прикладной задачи, при равных ROC AUC одно решение может оказаться лучше другого, но мы решили не усложнять, задачу.

Загружаемое решение должно быть в формате csv, без заголовка. Файл должен содержать по порядку на каждой строке находится предсказание вероятности для каждой из строк файла test.csv. Например, sample_solution.csv.

На предварительных результатах решение проверяется на 34% финальной выборки.

Формат соревнования не изменился: чемпионат будет длиться в течение одного месяца, с 25 июня по 25 июля 2018 года. 

 

Призы

Распределение шести призовых мест в этот раз выглядит так:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB 

Как и всегда, топ-50 участников получат майки с символикой чемпионата, а участники с наиболее интересными решениями будут приглашены на собеседование в Mail.Ru Group на позиции Data Scientists. 

Правила чемпионата

Сообщество MLBootCamp

Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Кроме того, сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников. 

Форум: Прогноз отклика аудитории на интернет-опрос

Темы Сообщения Просмотры Последнее сообщение
А как вы читаете DataFrem объемом более 10 GB? 6 278 10 минут назад
Вопрос к гуру 6 277 1 час назад
Данные весят 2.5гб( Оо 6 373 14 часов назад
Участники не из России 2 404 10.07.2018, 10:39:47
Неоднозначность при генерации решения 2 735 05.07.2018, 12:53:13