Одно горячее кодирование против pd.get_dummies

avatar
learn. com
8 августа 2021 в 16:30
59
1
1

В чем разница между one_hot_encoder и pd.get_dummies? Потому что иногда функция get_dummies дает те же результаты, что и одно горячее кодирование, но люди, как правило, используют одно горячее кодирование df, чтобы соответствовать своей модели. Так в чем же разница? И повлияет ли это на мою модель?

спасибо

Источник

Ответы (1)

avatar
GabrielP
8 августа 2021 в 16:46
2

На самом деле они дают один и тот же результат при преобразовании категориальной переменной в фиктивные значения. Разница в том, что one_hot_encoder хранит преобразование в объекте. Получив экземпляр OneHotEncoder(), вы можете сохранить его, чтобы использовать позже на этапе предварительной обработки для конвейера прогнозирования.

Если вы просто проводите эксперименты, вы можете использовать любой из них. Но если вы хотите, чтобы ваш процесс предварительной обработки был лучше организован, вам лучше использовать OneHotEncoder.

Если вы планируете использовать его для обработки категориальных признаков, вы также можете использовать LabelEncoder.