Использование прогнозов модели для обучения новой модели [закрыто]

avatar
sinankoramaz
9 августа 2021 в 00:23
49
1
0

Я пытаюсь обучить модель. У меня есть только около 8 тыс. помеченных данных и около 20 тыс. неразмеченных данных. Я подумал, можно ли обучать и тестировать модель, используя 8k помеченных данных, и использовать эту модель для прогнозирования классов оставшихся 20k немаркированных данных. Затем, используя все данные, создаем новую модель. Я пытаюсь выполнить бинарную классификацию, и модель довольно хорошо работает с начальной размеченной популяцией.

Источник
k_o_
9 августа 2021 в 00:30
0

Откуда вы знаете, что 20 тысяч неразмеченных данных были классифицированы правильно? Если это неправильно, то весь подход создаст случайный оракул, обученный с неправильными метками. Если первые 8 тыс. значений уже достаточно хороши, то следующие 20 тыс. на самом деле не нужны? Например, tensorflow вы также можете заморозить текущие данные обучения и продолжить позже с новыми данными обучения, если это возможно с вашей цепочкой инструментов, дополнительное обучение будет более эффективным.

sinankoramaz
9 августа 2021 в 00:42
0

Вы правы в том, что первые 8k — это хорошо, а остальные — ненужны. Это для заявления о приеме на работу, они прислали мне блокнот, поэтому я хотел максимально использовать данные, которые у меня были.

pavel
9 августа 2021 в 00:47
1

explainxkcd.com/wiki/index.php/File:flawed_data.png

Ответы (1)

avatar
Abhishek Prajapat
9 августа 2021 в 06:03
1

Да, вы можете сделать это, и это абсолютно нормально, и эта стратегия также часто используется. При этом вам нужно позаботиться о нескольких вещах:

.
  1. Создайте хорошие стратифицированные данные тестирования из помеченных 18000 изображений. Если возможно, используйте k-кратное разделение.
  2. Теперь предскажите другие немаркированные изображения и получите псевдометки.
  3. Обучение модели на всем наборе данных.
  4. Это самый важный шаг. Здесь вы проверите свою модель на разбиениях в k раз, а затем оцените, увеличивается ли производительность вашей модели или нет по сравнению с результатами в k раз только для размеченных данных.

Продолжайте повторять эти шаги до тех пор, пока ваш результат не улучшится, но всегда следите за тем, чтобы не было утечки данных относительно данных k-fold.