Корректность исходных данных для выявления лучшего алгоритма распознавания?

12.07.2017, 01:17:59
Первичный анализ поставленной задачи на предмет выявления лучшего алгоритма распознавания 2-х состояний - есть ССЗ/нет ССЗ, на мой взгляд, выявил исходную некорректность представленной для решения этой задачи исходного материала.
В частности:
1. Обычный статистический анализ показанного примера ответов, состоящий из 30000 вероятностей наличия у данного пациента ССЗ показал, что средняя арифметическая этого ряда равна 0.5 с интервальным размахом от 0.0 до 1.0. Распределение этих вероятностей соответствует равномерному и визуально выглядит как обычный прямоугольник.
Уже этот банальный анализ показывает, что построить однозначную систему достоверного распознавания двух состояний на основании 11 исходных признаков нельзя ввиду их недостаточной информативности.
2. Дальнейший анализ этих данных на основе оценок самообучающейся экспертной системы только подтвердил этот вывод. Более того, показано, что совершенно не было никакой необходимости брать для тренировки анализы всех 70000 пациентов. Практически уже на основании данных всего первых 50 пациентов была выявлена общая эффективность разделения на две группы, равная примерно 25%, которая варьировала в диапазоне 24-26% и при учете 100, 500 и 1000 пациентов с вероятностью ошибки этого результата p<0.0000…При этом подавляющая часть ошибок шла за счет гипердиагностики отсутствия ССЗ ("ССЗ-" = "0"). Отсутствие в числе учитываемых признаков курения, алкоголя и активности уменьшала общую эффективность разделения всего на несколько процентов.
3. Возникает законный вопрос, как можно оценивать разные методы распознавания при наличии таких исходно, с моей точки зрения, некорректных данных с недостаточно информативными для этих целей признаками, если уже на стадии первичного статистического анализа была выявлена методическая несостоятельность решения поставленной задачи?
Отредактировано 14.07.2017, 10:48:19
12.07.2017, 08:53:29
А зачем вы "анализировали" пример ответов?
12.07.2017, 16:35:53
Насколько я понял, это один из реальных ответов, позволяющий иметь общее представление о степени однородности и информативности исходного материала, в частности, используемых в нем признаков.
Bell
А зачем вы "анализировали" пример ответов?
Отредактировано 12.07.2017, 17:01:11
12.07.2017, 16:50:22
Кстати говоря, использование вместо приведенных признаков разных индексов, составленных на их основе, в том числе представление возраста не в днях, а в годах (я вообще не понял, зачем его было давать в днях; это никак не увеличивает его информативную значимость на фоне значений других признаков), практически не изменило значение общей эффективности разделения тестируемых групп на две подгруппы, которое осталось на уровне около 25%.
Кроме того, даже исправление грубейших и зашкаливающих ошибок в представленных данных (например, перестановка местами значений роста и веса, АДС и АДД, отсутствие нулей или, наоборот, их избыток) также практически не повлияло на итоговый результат эффективности разделения по сравнению с тестированием на неисправленном исходном материале.
И еще. При такой недостаточной информативности исходных признаков возникает сильное сомнение в практической ценности и целесообразности получения самих вероятностных оценок состояния каждого пациента, учитывая их равномерный разброс от 0.0 до 1.0. А отсюда вытекает вопрос и об объективно осмысленной, а не чисто формальной, оценке полученных результатов данного хакатона…
Отредактировано 14.07.2017, 10:58:28
12.07.2017, 17:25:03
Борис Кауров
Насколько я понял, это один из реальных ответов, позволяющий иметь общее представление о степени однородности и информативности исходного материала, в частности, используемых в нем признаков.
Разумеется, нет. Это просто формат ответа.

правда и формата там нет, ни заголовка, ни индексов, но это другая история
12.07.2017, 18:48:30
Bell
Борис Кауров
Насколько я понял, это один из реальных ответов, позволяющий иметь общее представление о степени однородности и информативности исходного материала, в частности, используемых в нем признаков.

Разумеется, нет. Это просто формат ответа.
правда и формата там нет, ни заголовка, ни индексов, но это другая история

Хорошо, а тогда можно привести хотя бы один реальный ответ в виде 30000 значений вероятностей по числу пациентов. О проценте эффективности разделения (соотношении числа полученных правильных(экспериментальных) диагнозов к их фактическим(теоретическим) исходным числам) при таком формате ответа, к сожалению, говорить не приходится. Хотя именно эта интегральная оценка алгоритма распознавания, на мой взгляд, и должна быть положена в основу практической оценки его эффективности, а не список индивидуальных вероятностей. Последний в условиях недостаточной информативности признаков и соответствующей низкой эффективности разделения исходов, на мой взгляд, лишен какого-либо реального практического смысла и, возможно, может представлять только какой-то чисто теоретический интерес…
Отредактировано 14.07.2017, 11:00:53
12.07.2017, 18:56:07
Борис Кауров
Кстати говоря, использование вместо приведенных признаков разных индексов, составленных на их основе, практически не изменило значение общей эффективности разделения тестируемых групп на две подгруппы, которое осталось на уровне около 25%.
Кроме того, даже исправление грубейших и зашкаливающих ошибок в представленных данных (например, перестановка местами значений роста и веса, АДС и АДД, отсутствие нулей или, наоборот, их избыток) также практически не повлияло на итоговый результат эффективности разделения по сравнению с тестированием на неисправленном исходном материале.
И еще. При такой недостаточной информативности исходных признаков возникает сильное сомнение в практической ценности и целесообразности получения самих вероятностных оценок состояния каждого пациента, учитывая их равномерный разброс от 0.0 до 1.0. А отсюда вытекает вопрос и об объективно осмысленной, а не чисто формальной, оценке полученных результатов данного хакатона…
Отредактировано 12.07.2017, 18:56:37
12.07.2017, 19:25:20
Борис Кауров
Хорошо, а тогда можно привести хотя бы один реальный ответ в виде 30000 значений вероятностей по числу пациентов.
30000 вероятностей это и есть задача конкурса. А реальные ответы вам предоставлены в виде обучающей выборки.
13.07.2017, 22:51:01
Bell
Борис Кауров
Хорошо, а тогда можно привести хотя бы один реальный ответ в виде 30000 значений вероятностей по числу пациентов.
30000 вероятностей это и есть задача конкурса. А реальные ответы вам предоставлены в виде обучающей выборки.

В обучающей выборке из 70000 пациентов нет ни одного реального ряда уже полученных вероятностей хотя бы для любой одной выборки из него численностью в 30000. Я не буду вас убеждать в справедливости своего мнения по поводу корректности проведения этого хакатона. Вам, наверняка, гораздо виднее, как оценивать его результаты, сравнивая разные 30000-ные ряды вероятностей, полученные от участников вашего мероприятия.
Отредактировано 13.07.2017, 23:32:42
13.07.2017, 23:25:46
Тем не менее, хотел бы попросить организаторов хакатона, если их это не затруднит, оценить общую эффективность алгоритмов (программ) распознавания победителей этого хакатона еще и по следующей схеме. У каждого победителя сложить все полученные им вероятности, относящиеся к правильным ответам для исхода CCЗ+ (равное "1", т.к., насколько я понял, приведенные вероятности в примере относятся только к этому исходу) независимо от их значения, которое может быть и нулевым, и поделить полученную сумму на общее число пациентов с таким диагнозом(="1") в группе из 30000. Таким элементарным путем мы определим общую эффективность распознающих алгоритмов с любой степенью точности. На мой взгляд, это достаточно объективная и корректная форма оценки результатов распознавания, несмотря на простому ее определения. Ведь результативность любого метода машинного обучения в нашем случае должна в итоге оцениваться именно по его общей эффективности разделения исходной группы на подгруппы.
Более того, на мой взгляд, чтобы не было предвзятости и кривотолков в оценке результатов при определении победителей, желательно выставить на общее обозрение вероятностные ряды всех победителей, разумеется, с наличием соседней колонки с правильными диагнозами (0/1). И тогда выше предложенным способом любой участник может оценить общую эффективность алгоритмов распознавания победителей хакатона и сравнить ее с эффективностью своих алгоритмов по этой же колонке с правильными ответами (0/1).
Отредактировано 15.07.2017, 00:58:18


Зарегистрируйтесь или войдите, чтобы оставить сообщение.