Вопросы организаторам

10.02.2019, 10:13:32
Александр Кузнецов
Добрый день! Есть вопрос по данным для картинок.
Там есть такие поля:
InstanceId_UserId
InstanceId_ObjectId
feedback
ImageId
Вопрос первый. Какая физическая сущность "ObjectId" ?
Вопрос второй. В ImageId, в одной записи, могут быть ссылки на несколько совершенно разных картинок. Тут я совсем не понимаю ситуацию. Например, две картинки и в фидбэке - лайк. Что это значит? пользователь лайкнул обе картинки? А что же тогда все таки ObjctId? Ведь именно его надо использовать в тесте?

Объектом может быть пост, видео, или картинка - ObjectId это логический идентификатор объекта, именно эти ид нужно сабмитить в прогноз. ImageId содержить MD5-е тел изображений, связанных с объектом. Чаще всего картинка связана одна, но бывают и композитные посты. По этим МД5 тела картинок можно достать из tar-архивов. Настоятельно рекомендую начинать не с тел в большом разрешении (640 по длинной стороне), а с тамбнэйлов (224 по длинной стороне).
10.02.2019, 10:17:29
Emil Kholodnov
Добрый день! Не могли бы помочь? Пытаюсь считать данные из "/texts/textsTrain/" при помощи parquet.read_table, но выходит ошибка: ArrowNotImplementedError: Nested data conversions not implemented for chunked array outputs - никто не сталкивался с данной ошибкой, может помочь? Спасибо!

PS Файлы из texts/textsTest/и /textsTrain/date=2018-02-07 - прочитались нормально

Вторая ссылка в гугле предлагает рабочий вариант через pip install fastparquet:
pf = pd.read_parquet(input_path + '/texts/textsTrain/part-00000-1b50c8f5-87db-4a53-9677-17f1113c3f8d-c000.gz.parquet', engine='fastparquet')
10.02.2019, 16:49:37
Спасибо за подсказки. Вариант с fastparquet сработал.
10.02.2019, 18:54:09
Emil Kholodnov
Добрый день! Не могли бы помочь? Пытаюсь считать данные из "/texts/textsTrain/" при помощи parquet.read_table, но выходит ошибка: ArrowNotImplementedError: Nested data conversions not implemented for chunked array outputs - никто не сталкивался с данной ошибкой, может помочь? Спасибо!

PS Файлы из texts/textsTest/и /textsTrain/date=2018-02-07 - прочитались нормально

Была такая же проблема, обновил conda и в ней pyarrow - стало нормально, версии
python 3.6.4
pyarrow 0.9.0
13.02.2019, 01:59:00
а можно комменты по категориям фидбека- какое там ранжирование ? что улчше всех что хуже ?
13.02.2019, 10:17:49
Георгий Павлов
а можно комменты по категориям фидбека- какое там ранжирование ? что улчше всех что хуже ?

Задача конкурса - поднять наверх, то что получит класс (Liked). Т.е. если Liked есть, считаем что это позитив, если нет - негатив. Но, на самом деле, информацию о других фидбэках тоже можно подключить для улучшения предсказания класса.
14.02.2019, 17:19:32
В логах вроде нет папки date=2018-02-11. Это норма или не доложили?
15.02.2019, 05:57:17
Добрый день!
У меня вопрос по очному туру. Будут там какие-нибудь ограничения по железу, или можно использовать все что имеешь?
16.02.2019, 04:59:12
Добрый день!
Также вопрос про очный тур. Что значит что он будет проходить в командном формате? Как будут формироваться команды и обязательно ли быть в команде?
16.02.2019, 12:26:12
Василий Рубцов
Добрый день!
Также вопрос про очный тур. Что значит что он будет проходить в командном формате? Как будут формироваться команды и обязательно ли быть в команде?
А вообще результаты онлайн-тура будут влиять на конечный результат? (ну кроме того факта, что более высокий результат предполагает более мощную модель, которая наверно пригодится и в финале. Может быть я планирую хоть как-нибудь пролезть в финал, а между 15 и 30 марта буду оттачивать модель :) )
Отредактировано 3 дня, 23 часа назад


Зарегистрируйтесь или войдите, чтобы оставить сообщение.