Я пытаюсь обучить модель. У меня есть только около 8 тыс. помеченных данных и около 20 тыс. неразмеченных данных. Я подумал, можно ли обучать и тестировать модель, используя 8k помеченных данных, и использовать эту модель для прогнозирования классов оставшихся 20k немаркированных данных. Затем, используя все данные, создаем новую модель. Я пытаюсь выполнить бинарную классификацию, и модель довольно хорошо работает с начальной размеченной популяцией.
Использование прогнозов модели для обучения новой модели [закрыто]
9 августа 2021 в 00:23
62
1
Ответы (1)
9 августа 2021 в 06:03
Да, вы можете сделать это, и это абсолютно нормально, и эта стратегия также часто используется. При этом вам нужно позаботиться о нескольких вещах:
.- Создайте хорошие стратифицированные данные тестирования из помеченных
18000
изображений. Если возможно, используйте k-кратное разделение. - Теперь предскажите другие немаркированные изображения и получите псевдометки.
- Обучение модели на всем наборе данных.
- Это самый важный шаг. Здесь вы проверите свою модель на разбиениях в k раз, а затем оцените, увеличивается ли производительность вашей модели или нет по сравнению с результатами в k раз только для размеченных данных.
Продолжайте повторять эти шаги до тех пор, пока ваш результат не улучшится, но всегда следите за тем, чтобы не было утечки данных относительно данных k-fold.
Откуда вы знаете, что 20 тысяч неразмеченных данных были классифицированы правильно? Если это неправильно, то весь подход создаст случайный оракул, обученный с неправильными метками. Если первые 8 тыс. значений уже достаточно хороши, то следующие 20 тыс. на самом деле не нужны? Например, tensorflow вы также можете заморозить текущие данные обучения и продолжить позже с новыми данными обучения, если это возможно с вашей цепочкой инструментов, дополнительное обучение будет более эффективным.
Вы правы в том, что первые 8k — это хорошо, а остальные — ненужны. Это для заявления о приеме на работу, они прислали мне блокнот, поэтому я хотел максимально использовать данные, которые у меня были.
explainxkcd.com/wiki/index.php/File:flawed_data.png