Я все пропустил, вот нормальное описание самого фейсбука про то, как они сделали свою систему, в которой 2200 языковых пар умещаются в одну модель нейронки, без промежуточного английского. Есть даже ссылка на референсную имплементацию и предтренированная модель (качеством чуть похуже, чем у самого фейсбука в продакшне, но все же)
https://about.fb.com/news/2020/10/first-multilingual-machine-translation-model/