Конвейер обработки данных представляет собой множество последовательных шагов, начиная от очистки необработанных данных и заканчивая построением оптимизированной модели машинного обучения для решения конкретных задач. Однако обработка данных — это тот самый этап, который требует наибольших усилий и времени, и который в дальнейшем определяет производительность моделей.
В этой статье сосредоточимся на том, как сделать отбор отдельных атрибутов (признаков) нашего набора данных, который является одной из основных задач фазы предварительной обработки. Но прежде чем погрузиться в кодирование и реализовать различные методы, используемые для подобных задач, давайте сначала определим, что подразумевается под отбором признаков. Отбор признаковએ — это процесс выбора подмножества атрибутов из набора данных, которые больше всего влияют на производительность модели, при этом не используются какие-либо преобразования.
Читать далее «Отбор признаков с помощью Scikit-Learn в Python»