Quantum Quintum
1.63K subscribers
340 photos
8 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
На прошлой неделе "дедушка" глубокого обучения Geoffrey Hinton и коллеги выпустили пару научных статей про новый подход к построению структуры сети — капсульные сети (capsule network). Фактически это попытка перенести на архитектуру нейронной сети идею наличия групп (или ансамблей) нейронов в коре головного мозга, отсюда понятие капсул. Технически о них можно думать как о вложенных сетях.

На hackernoon сделали доступный рассказ, о чем это и почему важно. https://hackernoon.com/what-is-a-capsnet-or-capsule-network-2bfbe48769cc #ai #ml #capsnet
"Алгоритмы правят психушкой." — интересный обзор про вычислительную психиатрию (использование машинных алгоритмов для анализа поведения пациентов, постановки диагнозов и т.п.). С одной стороны, это про давно назревающую необходимость более детального и тщательного анализа накопленных данных исследований, с другой, это про анализ паттернов в поведении по разным показателям (от голоса до крови, представьте, например, что по незаметным для человека изменениям в голосе можно предсказать, наличие у него психических расстройств), с третьей, это про большой вопрос - насколько /действительно/ можно предсказать, что происходит в наших головах на основании небольших данных, и насколько мы /действительно/ похожи или отличаемся в деталях устройства мозга, и, с четвертой, это про то, насколько глубоко алгоритм способен закопаться в усиливающихся циклах причин и следствий развития разных ситуаций?

В любом случае, вычисления и машинное обучение — явно свежая струя в психиатрии и диагностике, в частности. https://medium.com/neodotlife/computational-psychiatry-c05a32f20705 #ai #human #medicine #ml
И про применение машинного обучения в задачах борьбы с кибер-угрозами. Команда Windows Defender рассказывает, как боролись с новым трояном Emotet (и заодно, как устроена многослойная защита с применением ML-моделей на клиенте и в облаке). https://cloudblogs.microsoft.com/microsoftsecure/2018/02/14/how-artificial-intelligence-stopped-an-emotet-outbreak/ #ai #security #ml
В продолжение темы важных людей в мире AI - наткнулся на подборку "25 инфлюенсеров в мире AI, которых стоит фоловить в триттере в 2018". https://www.disruptordaily.com/top-25-influencers-follow-twitter-2018/

Подумал, что фоловить всех по одному не очень удобно, поэтому вот вам готовый список, на который можно подписаться в твиттере. Я его слегка расширил :) https://twitter.com/quantumquintum/lists/ai-to-follow #ai #ml #leaders
Сегодня небольшая порция контента про работу с Audio на базе нейронных сетей:

1. Про генерацию музыки с помощью Azure ML. Erika Menezes рассказывает, как построить LSTM (Long Short-Term Memory) модель для генерации медиа-файлов и выстроить вокруг этого окружение для экспериментирования.

Текстовая статья: https://blogs.technet.microsoft.com/machinelearning/2017/12/06/music-generation-with-azure-machine-learning/

Видео #1 (про генерацию музыки и модель сети): https://channel9.msdn.com/Shows/AI-Show/Deep-Learning-for-Music-Generation

Видео #2 (про извлечение фич из midi-файла и создание midi-файлов из выхода модели): https://channel9.msdn.com/Shows/AI-Show/Deep-Learning-for-Music-Generation-The-Code

Исходный код: https://github.com/Azure/MachineLearning-MusicGeneration

#ai #ml #music #generation #azure
2. Как на счет обработки audio-информации (например, команд) в браузере? Boris Smus из Google рассказывает, как на базе библиотеки deeplearn.js (от команды Google Brain) построить CNN для обработки аудио-команд: от извлечения фич на базе WebAudio API до хранения обученной модели в IndexedDB.

Статья #1 (про извлечение фич и генерацию спектрограмм): https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae

Статья #2 (про обучение и распознавание команд): https://towardsdatascience.com/web-based-voice-command-recognition-58a9bb1ec8db

Исходный код: https://github.com/google/web-audio-recognition/tree/master/audio-features

#ai #ml #web #audio
Если вы занимаетесь анализом гео-данных и, в частности, чем-то близким к анализу карт, аэросъемки и т.п., то вам будет интересна наша следующая новость.

В дополнение к базовой Data Science VM в Azure совместно с компанией Esri (поэтому вы можете ожидать взаимодействие с ArcGIS Pro) мы сделали новую версию виртуалки — Geo AI DSVM, заточенную под анализ пространственных и гео-данных.

В качестве примера и учебного пособия коллеги выложили jupiter-ноутбук для задачи классификации зон на аэроснимках. #ai #ml #geo

Статья: https://blogs.technet.microsoft.com/machinelearning/2018/03/12/pixel-level-land-cover-classification-using-the-geo-ai-data-science-virtual-machine-and-batch-ai/
Исходники примера: https://github.com/Azure/pixel_level_land_classification
Geo AI DSVM: https://azuremarketplace.microsoft.com/en-us/marketplace/apps/microsoft-ads.geodsvm
Красивая история от Google про использование машинного обучения и TensorFlow для борьбы с незаконными вырубками лесов. Внутри: переделанный Android-телефон, подключенный к солнечным батареям и микрофонам, детектирующий звуки вырубки (характерный транспорт, бензопилы и т.п.). https://blog.google/topics/machine-learning/fight-against-illegal-deforestation-tensorflow/ #ai #ml #nature #protection
Интересная идея: использовать техники deepfake (это где накладывают реальные лица на лица других людей/актеров) для улучшения игровой графики. Chrintan Trivedi рассказывает, как натянуть такие "фейковые" лица на игроков в FIFA 2018, которые в свою очередь сделаны через моделирование фигур и лиц реальных футболистов.

Сейчас это просто эксперимент, но потенциально — это очень перспективное направление. (И помните, я как-то выше давал ссылку на статью про DX12, где расширена поддержка нейронных сетей, в том числе для задач улучшения изображения?)

https://towardsdatascience.com/using-deep-learning-to-improve-fifa-18-graphics-529ec44ea37e #ai #ml #deepfake #games
Немножко прикладного кода в ленту. Тут коллеги рассказывают, как использовать Tiramisu (это вариация сверточной сеточки на DenseNet-архитектуре) для задачи сегментации изображений.

Если точнее, то сценарий такой: в ритейл-магазин приходит новая партия товара (одежды), нужно быстро сопоставить ее с существующим каталогом. Альтернативно: сотруднику или покупателю нужно быстро найти информацию по предмету одежды, находящемуся перед глазами. Фактически, нужно реализовать визуальный поиск, в котором сотрудник сможет по фотке с мобильника, найти соответствующую вещь в каталоге.

Тонкость в том, что фотка с мобильного может быть зашумлена фоном, поэтому для корректного сравнения желательно на лету сделать обтравку изображения. А это и есть один из вариантов задачи сегментации.

Обзор: https://www.microsoft.com/developerblog/2018/04/18/deep-learning-image-segmentation-for-ecommerce-catalogue-visual-search/
Исходный код: https://github.com/CatalystCode/image-segmentation-using-tiramisu/

#ai #ml #practice
Продолжаем тему распознавания реальности. Команда исследователей из Института Макса Планка научились восстанавливать трехмерную модель человека по монокулярному видео (посмотрите ролик). Вся схема работает в несколько шагов:
1. Сделать базовую трехмерную модель (отсканировать человека в одежде), включая скелет.
2. По видео предсказать расположение (видимых) опорных точек, перенести это на полную модель скелета, включая предсказание движений и учет ограничений.
3. Восстановить движение модели с разных точек обзора.

http://gvv.mpi-inf.mpg.de/projects/wxu/MonoPerfCap #video #analysis #ml #ai
Хороших размеченных датасетов мало не бывает. Команда исследователей из Facebook, DigitalGlobe и MIT (и других университетов) запустила соревнование DeepGlobe Satellite Challenge по анализу спутниковых снимков поверхности земли. Участникам предлагается автоматизировать выделение трех типов информации: дорожная сеть, строения и использование земли.

Чтобы вам было проще обучать сеточки, организаторы предоставили три достаточно больших размеченных датасата: 9000 изображений с маской дорог, 24000 изображений с полигонами зданий и 1000 изображений с сегментированными масками типов земли/поверхности.

https://www.technologyreview.com/s/611198/the-machine-vision-challenge-to-better-analyze-satellite-images-of-earth/ #ai #ml #dataset #image #segmentation
Хотя я не уверен, зачем вам может понадобиться анализировать позы людей по изображениям в браузере, тут ребята из Google рассказывают, как это сделать, используя TensorFlow.js и PoseNet.

Почему не уверен? Потому что все мои "очевидные" сценарии сводятся к трем: проверка фотографий до загрузки, наложение эффектов в трансляции (например, представьте себе стрим футбольного матча, в котором поверх "скелетов" футболистов накладывают какие-то эффекты) и для той же трансляции автоматическое отслеживание положения (например, в телемедицине можно автоматически анализировать удовлетворение нужному условию, ака "согните руку, поверните голову направо"). Пока ни один не кажется массовым, но вдруг? Может, быть еще что-то важное, что я упускаю?

Тем не менее! Прогресс возможностей вычисления в браузере поражает! Еще лет десять-пятнадцать назад мы только и умели, что события на кнопочки писать и делать зачатки анимации.

https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5 #ai #ml #javascript #browser
Коллеги вместе с O'Reilly опубликовали бесплатную книжку: A Developer’s Guide to Building AI Applications. Налетай!

Внутри:
* Understand how the intersection of cloud, data, and AI is enabling organizations to build intelligent systems.
* Learn the tools, infrastructure, and services available as part of the Microsoft AI Platform for developing AI applications.
* Teach the Conference Buddy application new AI skills, using pre-built AI capabilities such as vision, translation, and speech.
* Learn about the Open Neural Network Exchange.

https://blogs.technet.microsoft.com/machinelearning/2018/06/04/free-e-book-a-developers-guide-to-building-ai-applications/ #ai #ml #book
Футбольное, пятнично-субботнее: Chintan Trivedi рассказывает, как использовать обучение с подкреплением, чтобы научить бота забивать угловые в FIFA2018. https://towardsdatascience.com/using-deep-q-learning-in-fifa-18-to-perfect-the-art-of-free-kicks-f2e4e979ee66 #ai #ml #sport #esport
Еще футбола! Помните, я тут выше писал про восстановление (реконструкцию) 3D-сцены по 2D-съемки? Группа исследователей из университета Вашингтона (+Google, +Facebook) сделали еще один шаг в этом направлении:
* взяли ролики игры в FIFA2017
* обучили сеточки распознавать поле, игроков и т.п.
* транслировали движения фигур в движения скелетов и карты глубины
* реконструировали игру в 3D
* перевели сцену в MR (Hololens)

А теперь представьте, что вы можете смотреть чемпионат мира по футболу на своем столе в 3D, как будто у вас на поверхности стола копия футбольного поля, вокруг которой вы можете ходить, приближаться и т.п.

http://www.i-programmer.info/news/190-augmentedvirtual-reality-arvr/11868-watch-soccer-games-in-3d-on-your-table-top-.html

Детали и публикация: https://arxiv.org/pdf/1806.00890.pdf

#ai #ml #mr #vision
Большая новость от Microsoft Research - коллеги запустили проект MSR Open Data, большую коллекцию готовых датасетов, которые вы можете использовать для обучения своих моделей. Всего на сегодня доступно около 50 наборов данных, разбитых на 9 категорий: от биологии до городских данных.

Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)

Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/

#ai #ml #open #data #dataset
Samsung HW-B650: A Powerful Soundbar for an Immersive Audio Experience