data preprocessing

Опрос

готов ли сотрудничать ?
готов, люблю работать в команде
в раздумьях
волк одиночка
14.11.2018, 10:57:54
Народ, я с питоном не на вы… кто может поделиться подготовленными данными в формате пригодном для обучения numpy, x_train, y_train ?
готов обсудить долю за данную помощь в случае моего выигрыша
14.11.2018, 12:03:11
Виталий Феоктистов
Народ, я с питоном не на вы… кто может поделиться подготовленными данными в формате пригодном для обучения numpy, x_train, y_train ?
готов обсудить долю за данную помощь в случае моего выигрыша

Мне навится эта идея!

но тут есть пробел в логике:
если у человека есть подготовленный

x_train, y_train
зачем ему делиться выйгрышем ?

а если он сам неможет запустить модель на подготовленных "x_train, y_train"
тогда скорее всего качество "x_train, y_train" не самое лучшее
и рассчитывать на победу …. наверно не стоит
Отредактировано 14.11.2018, 12:03:32
14.11.2018, 12:39:46
Казнить или помиловать? :D
14.11.2018, 13:39:05
dsannikov
Казнить или помиловать? :D
человек топовый грааль нашел
а вы …
:)

конечно помиловать
Отредактировано 14.11.2018, 13:42:27
14.11.2018, 13:52:05
и на докладе по случаю занятия первого места будет:

"
Здравствуйте коллеги!
Хочу поделиться своим победным решением
Ну вообщем, датафрейм я купил у участника ML Boot Camp
и запустил XGBoost

"
14.11.2018, 14:51:53
Игорь Чепелев
Виталий Феоктистов
Народ, я с питоном не на вы… кто может поделиться подготовленными данными в формате пригодном для обучения numpy, x_train, y_train ?
готов обсудить долю за данную помощь в случае моего выигрыша

Мне навится эта идея!

но тут есть пробел в логике:
если у человека есть подготовленный

x_train, y_train
зачем ему делиться выйгрышем ?

а если он сам неможет запустить модель на подготовленных "x_train, y_train"
тогда скорее всего качество "x_train, y_train" не самое лучшее
и рассчитывать на победу …. наверно не стоит

Игорь смотри, логика проста, есть как минимум 2а важных этапа. Первый этап это подготовка данных и feature selection
на выходе (x_train, y_train), (x_validation, y_validation), (x_test, y_test)
от качества этих данных зависит результат, а именно
- от feature selection, то есть не надо брать все данные, надо подумать что коррелируется, а что нет, избыточность не нужна
- от экстраполяции, то есть как решается проблема нехватки данных

качественный data set это уже большой объем работы

2 этап это решение проблемы классификации
1. подходов может быть много
2. требуются большие мощности для вычислений, вряд ли на домашнем компе получишь адекватный результат
3. требуется как минимум перебор моделей и подстройка гиперпараметров

это тоже большой объем работы, сроки до 9 декабря, достаточно сжатые.

я просто прикинул где моя основная добавочная стоимость и буду рад встретить человека который имеет опыт в подготовке данных.

пробелов логики нет))
14.11.2018, 15:03:08
Виталий Феоктистов
пробелов логики нет))

Аргументы у тебя есть :)
но выглядит это очень странно

к тому же на компе с 16 ГБ оперативки хорошо всё решается
тут данных то считай нету - предсказать надо 900 строчек :)
линейная модель на файле с фичами строиться меньше чем за секунду …

Виталий Феоктистов
3. требуется как минимум перебор моделей и подстройка гиперпараметров

в моем случае я сам запускаю циклы :))
14.11.2018, 15:10:06
Игорь Чепелев
линейная модель на файле с фичами строиться меньше чем за секунду …
ну я не думаю что линейной моделью, random forest, .. и другими стандартными фишками нормальную классификацию получишь,

для deep learning понадобится карточка, желательно titan X ;)
чтобы долго не ждать, и сетку поинтересней сделать
Отредактировано 14.11.2018, 15:11:44
14.11.2018, 15:16:17
Игорь Чепелев
в моем случае я сам запускаю циклы :))

попробуй http://home.penglab.com/proj/mRMR/
чтобы отобрать существенные данные от шума
20.11.2018, 12:59:47
долю от майки, шикарно.


Зарегистрируйтесь или войдите, чтобы оставить сообщение.