Предсказание ССЗ
До КОНЦА ЭТАПА осталось:
Участники
  • 1
    Dany
  • 2
    Dmitry Lachinov
  • 3
    Igor Desyatov
  • 4
    Анастасия Малюгина
  • 5
    Artem Zraev
Задача "Предсказание ССЗ"

Итак, попробуем совершить что-то полезное с помощью известных нам DataScience методологий!

 

В рамках конкурса вам нужно предсказать наличие сердечно-сосудистых заболеваний по результатам классического врачебного осмотра. Датасет сформирован из 100.000 реальных клинических анализов, и в нём используются признаки, которые можно разбить на 3 группы:

 

Объективные признаки:

  1.  - Возраст
  2.  - Рост
  3.  - Вес
  4.  - Пол

 

Результаты измерения:

  1.  - Артериальное давление верхнее и нижнее
  2.  - Холестерин
  3.  - Глюкоза

 

Субъективные признаки:

  1.  - Курение
  2.  - Употребление Алкоголя
  3.  - Физическая активность

 

Возраст дан в днях. Значения показателей холестерина и глюкозы представлены одним из трех классов: норма, выше нормы, значительно выше нормы. Значения субъективных признаков — бинарны.

Все показатели даны на момент осмотра.

 

Последняя группа признаков не имеет однозначной интерпретации и более того, собрана со слов самого больного. Поэтому, для части данных в тестовой выборке мы специально исключили эти параметры. Участникам придется либо предсказать их самостоятельно для некоторых случаев, либо вовсе игнорировать.

 

Данные поделены в соотношении 70/10/20. Тренировочная выборка состоит из 70 тысяч результатов, еще по десяти тысячам считается публичная метрика, доступная участникам в ходе соревнования. Оставшиеся 20 тысяч отправились в скрытую проверочную выборку, подсчет метрики по которой и определит победителей в финале.

Поскольку мы имеем дело с бинарной классификацией, метрикой является логарифмическая функция потерь.

 

В прилагаемом к задаче архиве есть два файла:

  1.  - train.csv содержит тренировочные данные, включая наличие ССЗ (колонка cardio)
  2.  - test.csv содержит данные для проверки, колонка cardio в этом файле отсутствует

 

Загружаемое решение должно быть в формате csv, без заголовка. Поскольку мы оперируем лишь одним целевым признаком, фактически мы ожидаем от участников загрузку файла, где по порядку на каждой строке находится предсказание вероятности появления ССЗ для каждой из строк файла test.csv.

Пример можно скачать здесь.

В день каждый участник ограничен пятью попытками, каждый участник может выбрать два решения для финальной метрики.

Призы:
1 место: MacBook Pro 
2 место: NVIDIA 1080ti 
3 место: NVIDIA 1060 
4 - 6 места: WD My Cloud 6 TB 

Кроме того, по традиции, 50 лучших участников получат майки с символикой чемпионата. 

Участники с наиболее интересными для организаторов решениями получат возможность стажировки или сотрудничества с Mail.Ru Group, Insilico Medicine и Министерством здравоохранения Республики Казахстан. Кроме того, специальным призом от жюри является поездка в Астану для личной встречи с министром здравоохранения Республики Казахстан. 

Правила проведения конкурса можно найти здесь.

Задачу можно обсудить в telegram, в slack или на форуме.

Желаем удачи всем участникам!