# 19.07.2018, 14:39:06 | |
---|---|
![]() |
Подскажите пожалуйста новичку (не победы ради а для получения бесценного опыта). Не могу понять, как сформировать тестовую выборку если cuid встречаются несколько раз в общем датасете |
# 19.07.2018, 16:59:05 | |
---|---|
![]() |
А это, насколько я понимаю, и есть основная задача в данном соревновании. Как последние проценты выжимать на готовых данных все знают. А вот как тут данные сгруппировать, да так, чтобы они ещё и хорошо разделялись по целевой переменной - основной вопрос. |
# 21.07.2018, 16:10:03 | |
---|---|
![]() |
Я надеюсь после завершения конкурса победители расскажут как правильно формировать выборку. |
# 23.07.2018, 14:38:19 | |
---|---|
![]() |
Было уже https://mlbootcamp.ru/forums/topic/24/ Для каждого cuid есть последовательность наблюдений за несколько различных дней, из различных "точек"(2й столбик). По всему набору наблюдений нужно рассказать как человек проявит себя в опросе. |
# 25.07.2018, 04:45:05 | |
---|---|
![]() |
rekcahd Да спасибо, я немного другое имел в виду. Интересно как люди реализовали это технически. Мне интересно как люди поступили с cuid которых нет в crx_data_train_y.csv. Поставили в 'target' значение "0" или просто отбросили данные строки. Как правильно (с точки зрения вычислительной сложности) спарсить ключи и провести преобразование DataFrame в разряженную матрицу. Как потом отбирали признаки, если вообще отбирали. Особенно интересно если это сделано на ограниченном количестве оперативной памяти. |