Академия MADE. Отборочное задание
До КОНЦА ЭТАПА осталось:
Участники
  • 1
    Константин Сухарев
  • 2
    Сергей Козлов
  • 3
    Михаил Ковальчук
  • 4
    Николай Попов
  • 5
    Олег Черемисин
Задача "Академия MADE. Отборочное задание"

Внимание! Это отборочное соревнование в Академию Больших Данных MADE. Тем, кто зарегистрировался на набор, оно поможет получить дополнительные баллы.

В соревновании вам предстоит иметь дело с данными, собранными из логов настоящей рекомендательной системы, работающей в продакшене.

Задача

  • Вам предстоит спрогнозировать, кликнет ли пользователь на рекомендуемый объект. Целевая переменная записана в поле label обучающей выборки и принимает значения 0 (не кликнул) или 1 (кликнул). В качестве прогнозов от вашей модели нужны вероятности клика пользователя, т.е. прогнозы должны быть дробными числами в интервале от 0 до 1.

Метрика качества качества

  • В качестве метрики качества в этом соревновании используется log loss.

Данные

  • train.tar.gz - заархивированная обучающая выборка
  • test-data.tar.gz - тестовая выборка, содержит 1 317 220 примеров с данными, для которых нужно сделать прогноз
  • sample_submission.csv - пример файла с ответами: 1 317 220 дробных чисел в интервале от 0 до 1, по одному на каждой строке

Работа с архивами и большими выборками

  • Имейте ввиду, что распакованный архив может быть очень объемным, а вся обучающая выборка вряд ли поместится в оперативную память вашего компьютера. Если для решения контекста вы используете Python, можно считать часть выборки напрямую из train.tar.gz следующим образом:

    import pandas
    df = pandas.read_csv('train.tar.gz', compression='gzip', header=0, sep=';', quotechar='"', nrows=10)


    Аналогичным образом можно работать с другими заархивированными файлами

Работа с признаками

  • Некоторые признаки содержат набор категорий, к которым относится рекомендуемый объект, или набор сегментов, к которым относится пользователь. Не удивляйтесь, если в значении признака вы встретили перечисленные через запятую идентификаторы - так и должно быть в этом случае.

Общие рекомендации

  • Соревнование не предполагает, что участники хорошо знают машинное обучение. В первую очередь от участников ожидается способность разобраться с нужными им библиотеками и проявлять находчивость в работе с данными. Постарайтесь изучить данные и придумать, как использовать их особенности, чтобы ваша работа не свелась к fit и predict на базовом наборе признаков.

Правила участия

  • Соревнование индивидуальное, все решения должны быть получены самостоятельно. Ограничений по использованию open source библиотек нет. Раскрывать детали своего решения категорически запрещается до окончания контеста.