OpenAI знищила 100 000 книг, за якими тренували GPT-3. Причетні теж кудись зникли

Цей містичний світ ШІ та авторських прав 👻

Юристи Authors Guild (організація письменників США) судяться з OpenAI — набори даних GPT-3, «ймовірно містили дані понад 100 000 книг».

Декілька місяців OpenAI відмовлялася надати хоч якусь інформацію. Але потім взагалі виявилося, що вона видалила всі копії даних.

У технічному документі 2020 року OpenAI описав набори даних books1 і books2 як «корпуси книжок з Інтернету» і заявив, що загалом це 16% навчальних даних, які були використані при створенні GPT-3.

OpenAI припинила використовувати «books1» і «books2» для навчання моделей наприкінці 2021 року. В середині 2022 року їх видалили — через «непридатність для використання».

Також в документах йдеться про те, що двоє дослідників, які створили набори даних «books1» і «books2», більше не працюють в OpenAI. OpenAI відмовляється розкривати інформацію про них.

Telegram Chat | Facebook | LinkedIn | Website
How to Watch Stories from Instagram