Корректность исходных данных для выявления лучшего алгоритма распознавания?

14.07.2017, 14:39:27
Точность не используется в таких соревнованиях, потому что это менее информативная метрика, чем logloss. При тренировке нейросетей мы довольно часто наблюдаем, как logloss начинает расти (=> падает качество классификатора), а точность при этом не падает. Т.о. точность вводит в заблуждение о качестве классификатора.

То же и в диагностике - если классификатор дает только бинарный прогноз (например, оригинальная SVM) и не сообщает, насколько он уверен в прогнозе, то от такого классификатора мало пользы.
Отредактировано 14.07.2017, 14:44:21
14.07.2017, 15:03:45
Bell
Точность не используется в таких соревнованиях, потому что это менее информативная метрика, чем logloss. При тренировке нейросетей мы довольно часто наблюдаем, как logloss начинает расти (=> падает качество классификатора), а точность при этом не падает. Т.о. точность вводит в заблуждение о качестве классификатора.

Вот мы наконец-то и пришли к тому, с чего собственно и надо было начинать наш диалог, а именно, с вопроса о корректности организации данного хакатона, в котором, насколько я вижу, не были четко и однозначно определены граничные и начальные условия проведения конкурса. Я с самого начала подозревал, что основной метод классификации представленных двух состояний будет основан на использовании нейросетей, но один из организаторов хакатона сказал в этом форуме, что ограничений на использованные методы классификации нет. Потому я и принял в нем участие. А в итоге, как выясняется практически в конце конкурса, будут сравниваться между собой фактически только разные способы использования нейросетей. В таком случае организаторам хакатона об этом и надо было четко сказать в самом начале конкурса, а не в его конце, чтобы не вводить людей в заблуждение :).
Отредактировано 14.07.2017, 15:04:26
14.07.2017, 15:27:29
Не надо приписывать мне то, что я не говорил. Нейросети это познавательный пример, где в силу специфики их тренировки мы можем наблюдать динамику двух метрик. К хакатону это не имеет отношения, с метрикой здесь всё в порядке, применять нейросети вас никто не заставляет, тем более что лучший результат в таких задачах дают не они, а деревья.
Отредактировано 14.07.2017, 15:28:30
14.07.2017, 16:35:25
Bell
Не надо приписывать мне то, что я не говорил. Нейросети это познавательный пример, где в силу специфики их тренировки мы можем наблюдать динамику двух метрик. К хакатону это не имеет отношения, с метрикой здесь всё в порядке, применять нейросети вас никто не заставляет, тем более что лучший результат в таких задачах дают не они, а деревья.

Странно, вы представили себя на этом форуме как участника этого соревнования наравне с другими, но ваши ответы, на мой взгляд, больше похожи на таковые одного из организаторов этого конкурса, которому почему-то не очень нравятся мои комментарии и вопросы. Если они вас лично чем-то невольно задевают, то, пожалуйста, извините. Я этого не хотел.
15.07.2017, 01:51:14
Bell
Точность не используется в таких соревнованиях, потому что это менее информативная метрика, чем logloss. При тренировке нейросетей мы довольно часто наблюдаем, как logloss начинает расти (=> падает качество классификатора), а точность при этом не падает. Т.о. точность вводит в заблуждение о качестве классификатора.

То же и в диагностике - если классификатор дает только бинарный прогноз (например, оригинальная SVM) и не сообщает, насколько он уверен в прогнозе, то от такого классификатора мало пользы.

В данном случае речь идет не о вероятностном прогнозе наличия или отсутствия какого-то состояния у одного конкретного человека, а об общей оценке эффективности самой машинной программы распознавания и она боле чем хорошо поддается общепринятым статистическим оценкам, например, с помощью того же xi-квадрата. В частности, применяя самообучающуюся экспертную систему, у меня получилась общая эффектность отнесения человека к группе ССЗ+(исход, равный "1" в данном машинном приложении) для обучающих выборок разного объема, равная примерно 25% с уровнем статистической значимости p<0,000… Хотя, конечно, определенная взаимосвязь между этими двумя оценками есть.
15.07.2017, 13:06:32
И, наконец, последнее замечание по поводу ПРАКТИЧЕСКОЙ значимости двух оценок - вероятностного прогноза состояния для конкретного человека на основе классификационных метрик, которые здесь приводились, и общей эффективности распознающей программы в процентах с ее статистической ошибкой.
Рассмотрим конкретный пример. Вам нужна опасная операция, которую могут сделать два хирурга. У первого хирурга при вашем заболевании операционная летальность (простое отношение числа умерших во время операции или в самое ближайшее время после нее к общему числу проведенных им подобных операций) равна 3 %, а у второго - 45 %. Вопрос: у какого хирурга вы хотели бы оперироваться?
И какие в данном случае классификационные метрики можно использовать для принятия решения, кроме обычной банальной статистики, оценивающей общую квалификацию хирурга (аналог общей эффективности нашей распознающей системы)?
Возможно, это не самый удачный пример, но он, на мой взгляд, показывает суть отличий двух подходов к определению прогноза не в теории, а в повседневной практике…
Отредактировано 15.07.2017, 13:30:27
15.07.2017, 13:58:27
Вы столько здесь уже написали, в том числе и весьма спорных утверждений, прямо таки видно, что вас эта тема задела, а вот в таблице результатов вас почемуто нет.

В общем-то ответ на вашу критику был дан почти месяц назад:
http://mlbootcamp.ru/forums/topic/8/?page=1#post-50

Собственно конкурс не про медицину, и задачу вполне можно было бы сделать "задача с секретом 2" (первая была в предыдущем конкурсе, где так и не было раскрыто, что же в итоге предсказывали), просто тогда никто бы не узнал, что минздрав Казахстана - это прогрессивная и идущая в ногу со временем организация.
Отредактировано 15.07.2017, 14:00:26
15.07.2017, 14:13:23
Дмитрий Загурский
Вы столько здесь уже написали, в том числе и весьма спорных утверждений, прямо таки видно, что вас эта тема задела, а вот в таблице результатов вас почемуто нет.

В общем-то ответ на вашу критику был дан почти месяц назад:
http://mlbootcamp.ru/forums/topic/8/?page=1#post-50

Собственно конкурс не про медицину, и задачу вполне можно было бы сделать "задача с секретом 2" (первая была в предыдущем конкурсе, где так и не было раскрыто, что же в итоге предсказывали), просто тогда никто бы не узнал, что минздрав Казахстана - это прогрессивная и идущая в ногу со временем организация.

Меня нет в результатах,так как я хотел сравнить общую эффективность своей распознающей ДИАГНОСТИЧЕСКОЙ программы с другими применительно к конкретному данному случаю (различить два состояния 1/0). Но она, как я понял, не вписывалась в формат данного хакатона в виде необходимости представлять конечный результат как ряд из 30000 значений вероятностей. На мой взгляд, это не самая лучшая форма оценки эффективности распознающей программы. Хотя, возможно, я сильно ошибаюсь или что-то "не догоняю". И я не думаю, что мои возражения и сомнения являются критикой. Просто хочу лучше разобраться в данном вопросе - какая конечная ПРАКТИЧЕСКАЯ цель этого хакатона?
P.S. Данные по оценке общей эффективности своей распознающей системы применительно к исходной тестовой выборке приведены здесь в самом начале этой ветки, а ее низкую эффективность я связываю с недостаточной информативностью исходных признаков.
Отредактировано 15.07.2017, 15:12:24
15.07.2017, 14:54:00
Дмитрий Загурский
Вы столько здесь уже написали, в том числе и весьма спорных утверждений, прямо таки видно, что вас эта тема задела, а вот в таблице результатов вас почемуто нет.

В общем-то ответ на вашу критику был дан почти месяц назад:
http://mlbootcamp.ru/forums/topic/8/?page=1#post-50

Собственно конкурс не про медицину, и задачу вполне можно было бы сделать "задача с секретом 2" (первая была в предыдущем конкурсе, где так и не было раскрыто, что же в итоге предсказывали), просто тогда никто бы не узнал, что минздрав Казахстана - это прогрессивная и идущая в ногу со временем организация.

Ну почему же не было. Раскрыли уже давно, здесь же на форуме висит скрипт, который генерил тот датасет.
А Минздрав Казахстана - действительно прогрессивная и идущая в ногу со временем организация. Но, на всякий случай, уточню, что цель конкурса не в том, чтобы просто об этом рассказать :)


Зарегистрируйтесь или войдите, чтобы оставить сообщение.