❓Технічне питання на форумі:
«Якщо є текст зі сміттям і корисними данними і очищенний/модифікованний текст без сміття та за модифікованною користною інформацією, data => result, data 100 => result 100.
В який саме бік копати, щоб спробувати чи якийсь ML фреймворк\алгоритм буде краще постійно змінюваних парсерів? (щоб погратися і спробувати трошки ML, а не тяп-ляп і у проду).
Приклади на які я поки що натрапляю якось зовсім із іншої опери... Чи без Lowercasing, Stemming, Lemmatization, Stopword Removal, Normalization не обійтись навіть у такому випадку?
Хотілось би щось на кшталт ліби з функціями для створення моделі по існуючим данним, якоїсь де\серіалізації моделі, донавчання\апдейт моделі якщо будуть нові брудні данні з очищенним результатом або в старій парі data=>result треба буде щось виправити».
👉 https://dou.ua/goto/tkte