Работа с выбросами

20.06.2017, 19:35:27
Привет. Вопрос к организаторам: как можно и как нельзя работать с выбросами-опечатками? Можно ли их руками исправить в тренировочном и тестовом датасетах и не нарушает ли это правила конкурса или, в случае если участник займется этой проблемой, он должен создать работающую на практике модель, которая предусматривает автоматическое исправление ошибок в датасетах, и ручное исправление датасета считается жульничеством?
21.06.2017, 11:08:31
Павел Супрун
Привет. Вопрос к организаторам: как можно и как нельзя работать с выбросами-опечатками? Можно ли их руками исправить в тренировочном и тестовом датасетах и не нарушает ли это правила конкурса или, в случае если участник займется этой проблемой, он должен создать работающую на практике модель, которая предусматривает автоматическое исправление ошибок в датасетах, и ручное исправление датасета считается жульничеством?

Это очень спорный момент. Каждое решение мы будем просматривать индивидуально, и конечно лучше реализовать исправление выбросов на основе значений, а не ID пациента :)
21.06.2017, 19:52:26
Илья Стыценко
лучше реализовать исправление выбросов на основе значений, а не ID пациента :)

Илья, спасибо за ответ! Но я думаю, в данном случае более уместно уточнить следующий момент. Должна ли работа с выбросами и/или ошибочными данными быть основана только на каких-то универсальных статистических методах (e.g., отклонение от среднего на более чем 3 sigma, etc.) или произвольное решение в духе "я считаю, что верхнее артериальное давление не может принимать значение выше 1000, => уберу последний 0" тоже допускается? (Разумеется, я сейчас говорю о реализации набора правил в коде, а не о точечной правке в файле с данными.)
21.06.2017, 21:06:05
Сергей Смирнов
Илья Стыценко
лучше реализовать исправление выбросов на основе значений, а не ID пациента :)

Илья, спасибо за ответ! Но я думаю, в данном случае более уместно уточнить следующий момент. Должна ли работа с выбросами и/или ошибочными данными быть основана только на каких-то универсальных статистических методах (e.g., отклонение от среднего на более чем 3 sigma, etc.) или произвольное решение в духе "я считаю, что верхнее артериальное давление не может принимать значение выше 1000, => уберу последний 0" тоже допускается? (Разумеется, я сейчас говорю о реализации набора правил в коде, а не о точечной правке в файле с данными.)
Конечно допускается. И в данном случае или 0 на клавиатуре залипает, или руки трясутся :)
21.06.2017, 21:48:54
Вопрос снят )
Отредактировано 21.06.2017, 21:57:35
22.06.2017, 06:54:26
Сергей Смирнов
Илья Стыценко
лучше реализовать исправление выбросов на основе значений, а не ID пациента :)

Илья, спасибо за ответ! Но я думаю, в данном случае более уместно уточнить следующий момент. Должна ли работа с выбросами и/или ошибочными данными быть основана только на каких-то универсальных статистических методах (e.g., отклонение от среднего на более чем 3 sigma, etc.) или произвольное решение в духе "я считаю, что верхнее артериальное давление не может принимать значение выше 1000, => уберу последний 0" тоже допускается? (Разумеется, я сейчас говорю о реализации набора правил в коде, а не о точечной правке в файле с данными.)

Дмитрий верно ответил выше - подобные эвристики вполне допускаются


Зарегистрируйтесь или войдите, чтобы оставить сообщение.