Вопросы организаторам

07.02.2019, 15:39:59
Здесь вы можете оставлять вопросы организаторам.
07.02.2019, 17:26:31
Пока что толком данные не посмотрел, но сразу хочется уточнить. В условиях задачи пункт про то что при ранжировании кандидатов нельзя использовать "будущие" данные пропущен случайно или все-таки можно использовать?
07.02.2019, 17:55:27
Langmuir
Пока что толком данные не посмотрел, но сразу хочется уточнить. В условиях задачи пункт про то что при ранжировании кандидатов нельзя использовать "будущие" данные пропущен случайно или все-таки можно использовать?
Не получится - весь тест в будущем относительно трейна.
07.02.2019, 20:07:31
Ура, наконец-то вы вернулись, отличные задачки.
Вопрос по метрике.
У всех пользователей в тестовом наборе есть хотя бы один объект каждого класса?
Если нет, подскажите, чему равно ROC AUC для предсказаний, GT которых имеют только один класс? а то scikit например ругается в таком случае.
08.02.2019, 11:40:42
Иван Брагин
Ура, наконец-то вы вернулись, отличные задачки.
Вопрос по метрике.
У всех пользователей в тестовом наборе есть хотя бы один объект каждого класса?
Если нет, подскажите, чему равно ROC AUC для предсказаний, GT которых имеют только один класс? а то scikit например ругается в таком случае.

Привет старым знакомым :)!

Да, все так - в тесте только пользователи по которым есть и хотя бы один позитив, и хотя бы один негатив.
08.02.2019, 19:49:39
А подскжите плиз зачем 4 директории с текстами?
/texts/textsTrain
/texts/textsTest
/textsTrain
/textsTest
09.02.2019, 11:23:21
Добрый день! Есть вопрос по данным для картинок.
Там есть такие поля:
InstanceId_UserId
InstanceId_ObjectId
feedback
ImageId
Вопрос первый. Какая физическая сущность "ObjectId" ?
Вопрос второй. В ImageId, в одной записи, могут быть ссылки на несколько совершенно разных картинок. Тут я совсем не понимаю ситуацию. Например, две картинки и в фидбэке - лайк. Что это значит? пользователь лайкнул обе картинки? А что же тогда все таки ObjctId? Ведь именно его надо использовать в тесте?
09.02.2019, 13:24:09
Добрый день! Не могли бы помочь? Пытаюсь считать данные из "/texts/textsTrain/" при помощи parquet.read_table, но выходит ошибка: ArrowNotImplementedError: Nested data conversions not implemented for chunked array outputs - никто не сталкивался с данной ошибкой, может помочь? Спасибо!

PS Файлы из texts/textsTest/и /textsTrain/date=2018-02-07 - прочитались нормально
Отредактировано 09.02.2019, 13:27:16
10.02.2019, 10:07:44
ssh
А подскжите плиз зачем 4 директории с текстами?
/texts/textsTrain
/texts/textsTest
/textsTrain
/textsTest

В папках в корне - логи показов, в подпапке texts - сами тексты. Объединить их можно по ИД, но объем в памяти взорвется, так как у каждого объекта с текстом много показов.
10.02.2019, 10:10:02
Emil Kholodnov
Добрый день! Не могли бы помочь? Пытаюсь считать данные из "/texts/textsTrain/" при помощи parquet.read_table, но выходит ошибка: ArrowNotImplementedError: Nested data conversions not implemented for chunked array outputs - никто не сталкивался с данной ошибкой, может помочь? Спасибо!

PS Файлы из texts/textsTest/и /textsTrain/date=2018-02-07 - прочитались нормально

Добрый день! С такой ошибкой встречались участники работающие в конфигурации Python 3.6 + Arrow 0.12, рекомендуемая конфигурация Python 3.7 + Arrow 0.11.1. Разворачивать лучши с использованием virtualenv или conda.


Зарегистрируйтесь или войдите, чтобы оставить сообщение.