Как сформировать тестовую выборку

19.07.2018, 14:39:06
Подскажите пожалуйста новичку (не победы ради а для получения бесценного опыта). Не могу понять, как сформировать тестовую выборку если cuid встречаются несколько раз в общем датасете
19.07.2018, 16:59:05
А это, насколько я понимаю, и есть основная задача в данном соревновании.
Как последние проценты выжимать на готовых данных все знают.
А вот как тут данные сгруппировать, да так, чтобы они ещё и хорошо разделялись по целевой переменной - основной вопрос.
21.07.2018, 16:10:03
Я надеюсь после завершения конкурса победители расскажут как правильно формировать выборку.
23.07.2018, 14:38:19
Было уже https://mlbootcamp.ru/forums/topic/24/
Для каждого cuid есть последовательность наблюдений за несколько различных дней, из различных "точек"(2й столбик). По всему набору наблюдений нужно рассказать как человек проявит себя в опросе.
25.07.2018, 04:45:05
rekcahd
Было уже https://mlbootcamp.ru/forums/topic/24/
Для каждого cuid есть последовательность наблюдений за несколько различных дней, из различных "точек"(2й столбик). По всему набору наблюдений нужно рассказать как человек проявит себя в опросе.

Да спасибо, я немного другое имел в виду. Интересно как люди реализовали это технически. Мне интересно как люди поступили с cuid которых нет в crx_data_train_y.csv. Поставили в 'target' значение "0" или просто отбросили данные строки. Как правильно (с точки зрения вычислительной сложности) спарсить ключи и провести преобразование DataFrame в разряженную матрицу. Как потом отбирали признаки, если вообще отбирали.
Особенно интересно если это сделано на ограниченном количестве оперативной памяти.


Зарегистрируйтесь или войдите, чтобы оставить сообщение.