Боже, как я это пропустил: MIT отзывает свой оргомный датасет картинок, который они начали создавать еще в 2008 году, а так же приносит свои извинения.

Датасет был собран с помощью скачивания страниц и картинок из поиска по картинкам гугла, часть из изображений содержали откровенно расисстские и мизогинистические высказывания и разметку. Так же в нем нашли “картинки женские гениталий подписанные словом на П”, и так далее, короче скандал, на ровном месте.

Не думайте, что сбор данных через гугл - редкая история, с этого начинались многие научные работы, в данном случае датасет был еще и улучшен с помощью WordNet, я уверен что это не единичный случай. Таких датасетов много, руками их никто не проверял, на предмет рассизма и мата - тем более. Что мы теперь будем делать без Tiny Images? https://www.theregister.com/2020/07/01/mit_dataset_removed/
The Art of Tweeting: Crafting Engaging and Shareable Content on Twitter