Друзья, что же означают все эти нолики и единицы на самом деле?
Наверное, кому-то, кто пробовал решить эту задачу, появление нулей и единиц в предоставленных данных могло показаться просто случайным. Мы должны признаться: почти так оно и есть! Нам было интересно, с какой точностью методами машинного обучения можно научиться определять источник случайных последовательностей и смогут ли участники конкурса, проанализировав данные, провести рациональный отбор признаков.
Класс 0 содержит последовательности, сгенерированные людьми. Мы попросили каждого из 140 человек, которые согласились нам помочь, записать последовательность из нулей и единиц, так, чтобы она выглядела как можно больше похожей на случайную. При этом они не могли пользоваться компьютером, таблицами, и другими материалами. Каждый должен был просто представить, что он подбрасывает монетку. Если в его воображении выпадает орел, то записать 1, если решетка - записать 0. Разумеется, настоящей монеткой и другими приспособлениями также запрещено было пользоваться.
Класс 1 содержит последовательности, сгенерированные компьютером с помощью датчика псевдослучайных чисел. Вероятность появления нуля, также как и вероятность появления единицы равна 50%, при этом зависимости между разными элементами последовательности нет.
Класс 2 содержит последовательности, также сгенерированные компьютером (код, скачать здесь), но при этом последовательные значения различны с вероятностью 70%.
В заключение отметим, что идею задачи мы почерпнули из замечательной книги Алекса Беллоса "Алекс в стране чисел" (пер. с англ., КоЛибри, Азбука-Аттикус, 2012).