Почему то падает точность LGBM при работе с промежуточными данными подгружаемими из файла

25.11.2018, 13:13:34
Столкнулся со странной проблемой - если промежуточные результаты расчетов сохраняю в файл (чтобы каждый раз не считать все по новому), а потом загружаю обратно и тренирую модель на загруженных из файла данных, то результат получается заметно хуже (где-то на 0.005). Колонки нигде не теряются, типы данных одни и те же (float64 и int).

Никогда с подобным не сталкивался. Никто не знает в чем может быть дело? Есть смутное подозрение что при сохранении в файл float64 сохраняется не полностью (хотя 15 знаков после запятой вроде должно хватать)… Может быть такое?
26.11.2018, 12:56:56
Помню, как-то сталкивался с подобным. Да, ты прав, float обрезается.
Чтобы убедиться, можешь, например, посчитать квадратичное отклонение вектора, взятого из файла и того вектора, который ты получил.
27.11.2018, 08:24:35
Рома Васильев
Помню, как-то сталкивался с подобным. Да, ты прав, float обрезается.
Чтобы убедиться, можешь, например, посчитать квадратичное отклонение вектора, взятого из файла и того вектора, который ты получил.

А как с этим бороться? Нашел одно упоминание этой проблемы - там писали свою фунцию которая писала флоат как строку в файл, и обратно её считывала… Неужели нет никакого готового решения? Хотя в стандратном pd.to_csv как раз ничего стандартного не нашлось на тему точности сохранения…
01.12.2018, 14:03:03
Вероятно, это поможет: pd.set_option('precision', указать_сколько_знаков_после_запятой]). Задавать перед началом работы с данными, т.е. перед чтением и сохранением файла.


Зарегистрируйтесь или войдите, чтобы оставить сообщение.