Неоднозначность при генерации решения

04.07.2018, 21:46:53
Вопрос организаторам: как именно формировать выборку для прогнозирования по cuid из файла mlboot_test.tsv?

Некоторые cuid из этого файла встречаются в mlboot_data.tsv неоднократно. Например, для 000014fe918d1f97a632a796f4948be8 (строка 153047) в mlboot_data.tsv имеются 40 наблюдений. Какое именно из них следует использовать в решении?
05.07.2018, 12:53:13
Почти для всех cuid есть несколько записей. Это не более чем особенность представления записей в файле данных, при этом нет данных относящихся непосредственно к опросу (предполагается, что он был 1), поэтому неоднозначности нет. Что использовать каждый решает сам.


Зарегистрируйтесь или войдите, чтобы оставить сообщение.