Почему больший NN Transformer менее точен, чем меньший?

avatar
Abhishek Chauhan
9 августа 2021 в 06:38
41
0
0

Когда я обучаю модель Transformer (TF, Keras) с 4 слоями и размером встраивания 128, модель обучается очень хорошо и достигает точности 99,80 с обучающими данными. Но когда я пытаюсь увеличить параметры модели, увеличивая слои (до 6) и увеличивая размер встраивания (до 512), точность падает до 80%, а дальнейшее обучение снижает ее до 45-50%.

Есть ли у кого-нибудь какие-либо предложения, почему это происходит и каковы возможные меры?

Источник

Ответы (0)