Когда я обучаю модель Transformer (TF, Keras) с 4 слоями и размером встраивания 128, модель обучается очень хорошо и достигает точности 99,80 с обучающими данными. Но когда я пытаюсь увеличить параметры модели, увеличивая слои (до 6) и увеличивая размер встраивания (до 512), точность падает до 80%, а дальнейшее обучение снижает ее до 45-50%.
Есть ли у кого-нибудь какие-либо предложения, почему это происходит и каковы возможные меры?