Quantum Quintum
1.63K subscribers
330 photos
7 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
В области машинного зрения есть "сложные" задачи, в которых традиционные подходы (и готовые наборы изображений вроде ImageNet) работают не очень хорошо. MIT Technology Review с некоторым пафосом описывает одну из таких задач — распознавание трав, листьев деревьев и похожих аморфных структур.

Takeshi Ise с коллегами из Киотского университета (Япония) нашли подход к решению аналогичной задачи с распознаванием разновидностей мха (тут надо вспомнить, как выглядит мох!). Самая большая проблема тут — в наличии размеченной базы изображений, которая покрывала бы разные ракурсы, схемы освещения и комбинации.

Чтобы составить такую базу, исследователи отправились в традиционный японский сад Murin-An, где на обычный фотоаппарат (вроде Olympus OM-D E-M5 Mark II) сделали множество фотографий в высоком разрешении. Дальше эти фотографии нарезали на маленькие фрагменты, в итоге получив около 90000 размеченных изображений, которые после небольшой фильтрации можно было использовать в качестве тренировочной базы.

Дальнейшая гипотеза — этот же подход можно будет применять, например, к анализу лесов. https://www.technologyreview.com/s/608631/how-moss-helped-machine-vision-overcome-an-achilles-heel/ (ссылка на исследование https://arxiv.org/ftp/arxiv/papers/1708/1708.01986.pdf) #ai #ml #dataset
Хороших размеченных датасетов мало не бывает. Команда исследователей из Facebook, DigitalGlobe и MIT (и других университетов) запустила соревнование DeepGlobe Satellite Challenge по анализу спутниковых снимков поверхности земли. Участникам предлагается автоматизировать выделение трех типов информации: дорожная сеть, строения и использование земли.

Чтобы вам было проще обучать сеточки, организаторы предоставили три достаточно больших размеченных датасата: 9000 изображений с маской дорог, 24000 изображений с полигонами зданий и 1000 изображений с сегментированными масками типов земли/поверхности.

https://www.technologyreview.com/s/611198/the-machine-vision-challenge-to-better-analyze-satellite-images-of-earth/ #ai #ml #dataset #image #segmentation
Большая новость от Microsoft Research - коллеги запустили проект MSR Open Data, большую коллекцию готовых датасетов, которые вы можете использовать для обучения своих моделей. Всего на сегодня доступно около 50 наборов данных, разбитых на 9 категорий: от биологии до городских данных.

Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)

Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/

#ai #ml #open #data #dataset
The Benefits of Using a YT Audio to MP3 Converter