Вопрос к гуру

17.07.2018, 11:44:09
Сделал анализ шаблонов последовательностей разделяющих классы. На 10 фолдовой кросс-валидации ROC AUC 0.98, но в результатах 0.46. Переобучение, которое даже на кросс-лалидации показывает такое отличие? https://yadi.sk/i/cUViWgCz3ZGRoR
18.07.2018, 06:33:50
А не утекли ли у вас данные каким-то образом в обучающую выборку?
Так то у меня такая же беда, только цифры похуже - типа 0.8 на обучении/валидации, и около 0.5 при сабмите. То ли я обучаюсь не на том, на чём нужно, то ли где-то сламерил.
18.07.2018, 07:43:15
Да, точно. Гипотеза была в том, что некоторые последовательности определяют принадлежность к классу. Последовательности выявлял по всему обучающему набору, отсюда такой эффект.
18.07.2018, 09:58:06
Похожая же штука, на обучающую распилил на 30 обуч и 70 тестовую. ROC AUC так же близко к 1, Если тупо совпадения, то более 90%, Но по отправленным данным выше 50..60% не получаетмя. Может методика оценки roc auc отличается?
18.07.2018, 17:38:59
https://yadi.sk/i/z5MF3OVA3ZKWnq
Поскольку есть участники у которых результат 0.7, то значит все считается верно и нам есть куда стремиться.
Отредактировано 18.07.2018, 17:39:58
18.07.2018, 18:23:35
Все, разбрался. Сам накосячил, как обычно


Зарегистрируйтесь или войдите, чтобы оставить сообщение.