Вопрос организаторам. Выбросы в данных

16.06.2017, 14:23:19
Добрый вечер!
Правильно ли я понимаю, что в данных присутствует достаточное количество выбросов? Проанализировав рост и вес, я обнарудил довольно много "колобков" в возрасте от 50 до 60 лет и весом в среднем 70-80 кг при росте около метра. Притом при том же росте встречаются люди и за 160 кг ))) Таким образом, мы имеем дело с некорректными данными о неоторых пациентах, так?
16.06.2017, 16:05:43
Может быть это, как вариант, карлики или ампутанты?
16.06.2017, 18:10:38
Пример: "50055;23325;2;168;59.0;-150;80;1;1;0;0;1;1".
Почему верхнее давление = -150 ?
16.06.2017, 18:42:24
Пример: "82567;18804;2;165;10.0;180;1100;2;2;0;0;1;1"
рост 165
вес 10
нижнее давление 180
верхнее давление 1100
Это человек вообще ?
16.06.2017, 23:24:26
Евгений Жуков
Добрый вечер!
Правильно ли я понимаю, что в данных присутствует достаточное количество выбросов? Проанализировав рост и вес, я обнарудил довольно много "колобков" в возрасте от 50 до 60 лет и весом в среднем 70-80 кг при росте около метра. Притом при том же росте встречаются люди и за 160 кг ))) Таким образом, мы имеем дело с некорректными данными о неоторых пациентах, так?

Доброго времени суток! Конечно, и врач может ошибиться при записи показаний, и оцифровка ручных записей не всегда верна. Датасет мы специально не портили, но и не чистили :)
17.06.2017, 05:05:37
Илья Стыценко
Евгений Жуков
Добрый вечер!
Правильно ли я понимаю, что в данных присутствует достаточное количество выбросов? Проанализировав рост и вес, я обнарудил довольно много "колобков" в возрасте от 50 до 60 лет и весом в среднем 70-80 кг при росте около метра. Притом при том же росте встречаются люди и за 160 кг ))) Таким образом, мы имеем дело с некорректными данными о неоторых пациентах, так?

Доброго времени суток! Конечно, и врач может ошибиться при записи показаний, и оцифровка ручных записей не всегда верна. Датасет мы специально не портили, но и не чистили :)

Понял, спасибо)) так и подумал)) сам еженедельно сталкиваюсь с врачебными оЧепятками в электронных мед картах =)
17.06.2017, 05:05:55
Дмитрий Бойцов
Может быть это, как вариант, карлики или ампутанты?

Тоже была такая мысль =))
18.06.2017, 21:26:04
Вопрос 1.
Если в выборке для обучения есть очевидные "ляпы", т.к., с ваших слов, вы не проверяли ее на этот предмет и выставили как есть, то в экзаменационной выборке тоже могут быть такие же "ляпы"? Если "да", то тогда теряется смысл этого хакатона. Полученные диагностические алгоритмы не будут иметь практического значения, т.к. будут основаны на артефактах. По своему большому опыту работы с медицинскими данными для создания диагностических алгоритмов для разных заболеваний могу сказать, что наличие артефактных данных может существенно влиять на итоговую вероятность принятия решения. Я, например, могу с помощью стандартных методов статистики удалить выскакивающие измерения в вашем обучающей выборке, но тогда и в экзаменационной выборке их тоже не должно быть.
Вопрос 2.
В связи с вышеизложенным наличие артефактов в предоставленных выборках это что - незнание азов статистики или преднамеренное упущение? Если последнее, то с какой практической целью? Можно, конечно, давать записям с артефактными значениями нулевую вероятность, но какой в этом практический смысл?
Без решения этой простой проблемы или внесения полной ясности в этом вопросе данный хакатон, на мой взгляд, теряет весь свой практический смысл и интерес.
Отредактировано 18.06.2017, 22:06:31
19.06.2017, 11:57:30
Борис Кауров
Вопрос 1.
Если в выборке для обучения есть очевидные "ляпы", т.к., с ваших слов, вы не проверяли ее на этот предмет и выставили как есть, то в экзаменационной выборке тоже могут быть такие же "ляпы"? Если "да", то тогда теряется смысл этого хакатона. Полученные диагностические алгоритмы не будут иметь практического значения, т.к. будут основаны на артефактах. По своему большому опыту работы с медицинскими данными для создания диагностических алгоритмов для разных заболеваний могу сказать, что наличие артефактных данных может существенно влиять на итоговую вероятность принятия решения. Я, например, могу с помощью стандартных методов статистики удалить выскакивающие измерения в вашем обучающей выборке, но тогда и в экзаменационной выборке их тоже не должно быть.
Вопрос 2.
В связи с вышеизложенным наличие артефактов в предоставленных выборках это что - незнание азов статистики или преднамеренное упущение? Если последнее, то с какой практической целью? Можно, конечно, давать записям с артефактными значениями нулевую вероятность, но какой в этом практический смысл?
Без решения этой простой проблемы или внесения полной ясности в этом вопросе данный хакатон, на мой взгляд, теряет весь свой практический смысл и интерес.

У нас нет цели получить готовую работающую модель для диагностирования ССЗ, нам хотелось бы прежде всего обогатиться идейно и возможно найти тех, кто готов заняться подобными задачами с большим постоянством, чем разовый хакатон. А артефактные данные, как мне кажется, вполне поддаются исправлению, либо отдельной моделью, либо серией эвристик. И это одна из подзадач, как мне кажется
20.06.2017, 02:40:51
А вот еще есть большие вопросы по давлению.
Вот например как трактовать запись, когда верхнее/нижнее а.д. записано как 60/100 или 70/110. Тут возможно два варианта - либо верхнее и нижнее просто перепутаны местами, либо пропущена единица перед 60 и 70. И тот и другой вариант имеет право быть. Но на обучение модели каждый вариант будет влиять совершенно по разному.


Зарегистрируйтесь или войдите, чтобы оставить сообщение.