❓Технічне питання на форумі: «Якщо є текст зі сміттям і

DOU #tech

❓Технічне питання на форумі:

«Якщо є текст зі сміттям і корисними данними і очищенний/модифікованний текст без сміття та за модифікованною користною інформацією, data => result, data 100 => result 100.

В який саме бік копати, щоб спробувати чи якийсь ML фреймворк\алгоритм буде краще постійно змінюваних парсерів? (щоб погратися і спробувати трошки ML, а не тяп-ляп і у проду).

Приклади на які я поки що натрапляю якось зовсім із іншої опери... Чи без Lowercasing, Stemming, Lemmatization, Stopword Removal, Normalization не обійтись навіть у такому випадку?

Хотілось би щось на кшталт ліби з функціями для створення моделі по існуючим данним, якоїсь де\серіалізації моделі, донавчання\апдейт моделі якщо будуть нові брудні данні з очищенним результатом або в старій парі data=>result треба буде щось виправити».

👉 https://dou.ua/goto/tkte

teleg.eu/s/dou_tech/591

4.3K viewsNov 5, 2021 at 14:20