Quantum Quintum
1.62K subscribers
342 photos
8 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
В продолжение темы важных людей в мире AI - наткнулся на подборку "25 инфлюенсеров в мире AI, которых стоит фоловить в триттере в 2018". https://www.disruptordaily.com/top-25-influencers-follow-twitter-2018/

Подумал, что фоловить всех по одному не очень удобно, поэтому вот вам готовый список, на который можно подписаться в твиттере. Я его слегка расширил :) https://twitter.com/quantumquintum/lists/ai-to-follow #ai #ml #leaders
Сегодня небольшая порция контента про работу с Audio на базе нейронных сетей:

1. Про генерацию музыки с помощью Azure ML. Erika Menezes рассказывает, как построить LSTM (Long Short-Term Memory) модель для генерации медиа-файлов и выстроить вокруг этого окружение для экспериментирования.

Текстовая статья: https://blogs.technet.microsoft.com/machinelearning/2017/12/06/music-generation-with-azure-machine-learning/

Видео #1 (про генерацию музыки и модель сети): https://channel9.msdn.com/Shows/AI-Show/Deep-Learning-for-Music-Generation

Видео #2 (про извлечение фич из midi-файла и создание midi-файлов из выхода модели): https://channel9.msdn.com/Shows/AI-Show/Deep-Learning-for-Music-Generation-The-Code

Исходный код: https://github.com/Azure/MachineLearning-MusicGeneration

#ai #ml #music #generation #azure
2. Как на счет обработки audio-информации (например, команд) в браузере? Boris Smus из Google рассказывает, как на базе библиотеки deeplearn.js (от команды Google Brain) построить CNN для обработки аудио-команд: от извлечения фич на базе WebAudio API до хранения обученной модели в IndexedDB.

Статья #1 (про извлечение фич и генерацию спектрограмм): https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae

Статья #2 (про обучение и распознавание команд): https://towardsdatascience.com/web-based-voice-command-recognition-58a9bb1ec8db

Исходный код: https://github.com/google/web-audio-recognition/tree/master/audio-features

#ai #ml #web #audio
Если вы занимаетесь анализом гео-данных и, в частности, чем-то близким к анализу карт, аэросъемки и т.п., то вам будет интересна наша следующая новость.

В дополнение к базовой Data Science VM в Azure совместно с компанией Esri (поэтому вы можете ожидать взаимодействие с ArcGIS Pro) мы сделали новую версию виртуалки — Geo AI DSVM, заточенную под анализ пространственных и гео-данных.

В качестве примера и учебного пособия коллеги выложили jupiter-ноутбук для задачи классификации зон на аэроснимках. #ai #ml #geo

Статья: https://blogs.technet.microsoft.com/machinelearning/2018/03/12/pixel-level-land-cover-classification-using-the-geo-ai-data-science-virtual-machine-and-batch-ai/
Исходники примера: https://github.com/Azure/pixel_level_land_classification
Geo AI DSVM: https://azuremarketplace.microsoft.com/en-us/marketplace/apps/microsoft-ads.geodsvm
Красивая история от Google про использование машинного обучения и TensorFlow для борьбы с незаконными вырубками лесов. Внутри: переделанный Android-телефон, подключенный к солнечным батареям и микрофонам, детектирующий звуки вырубки (характерный транспорт, бензопилы и т.п.). https://blog.google/topics/machine-learning/fight-against-illegal-deforestation-tensorflow/ #ai #ml #nature #protection
Интересная идея: использовать техники deepfake (это где накладывают реальные лица на лица других людей/актеров) для улучшения игровой графики. Chrintan Trivedi рассказывает, как натянуть такие "фейковые" лица на игроков в FIFA 2018, которые в свою очередь сделаны через моделирование фигур и лиц реальных футболистов.

Сейчас это просто эксперимент, но потенциально — это очень перспективное направление. (И помните, я как-то выше давал ссылку на статью про DX12, где расширена поддержка нейронных сетей, в том числе для задач улучшения изображения?)

https://towardsdatascience.com/using-deep-learning-to-improve-fifa-18-graphics-529ec44ea37e #ai #ml #deepfake #games
Немножко прикладного кода в ленту. Тут коллеги рассказывают, как использовать Tiramisu (это вариация сверточной сеточки на DenseNet-архитектуре) для задачи сегментации изображений.

Если точнее, то сценарий такой: в ритейл-магазин приходит новая партия товара (одежды), нужно быстро сопоставить ее с существующим каталогом. Альтернативно: сотруднику или покупателю нужно быстро найти информацию по предмету одежды, находящемуся перед глазами. Фактически, нужно реализовать визуальный поиск, в котором сотрудник сможет по фотке с мобильника, найти соответствующую вещь в каталоге.

Тонкость в том, что фотка с мобильного может быть зашумлена фоном, поэтому для корректного сравнения желательно на лету сделать обтравку изображения. А это и есть один из вариантов задачи сегментации.

Обзор: https://www.microsoft.com/developerblog/2018/04/18/deep-learning-image-segmentation-for-ecommerce-catalogue-visual-search/
Исходный код: https://github.com/CatalystCode/image-segmentation-using-tiramisu/

#ai #ml #practice
Продолжаем тему распознавания реальности. Команда исследователей из Института Макса Планка научились восстанавливать трехмерную модель человека по монокулярному видео (посмотрите ролик). Вся схема работает в несколько шагов:
1. Сделать базовую трехмерную модель (отсканировать человека в одежде), включая скелет.
2. По видео предсказать расположение (видимых) опорных точек, перенести это на полную модель скелета, включая предсказание движений и учет ограничений.
3. Восстановить движение модели с разных точек обзора.

http://gvv.mpi-inf.mpg.de/projects/wxu/MonoPerfCap #video #analysis #ml #ai
Хороших размеченных датасетов мало не бывает. Команда исследователей из Facebook, DigitalGlobe и MIT (и других университетов) запустила соревнование DeepGlobe Satellite Challenge по анализу спутниковых снимков поверхности земли. Участникам предлагается автоматизировать выделение трех типов информации: дорожная сеть, строения и использование земли.

Чтобы вам было проще обучать сеточки, организаторы предоставили три достаточно больших размеченных датасата: 9000 изображений с маской дорог, 24000 изображений с полигонами зданий и 1000 изображений с сегментированными масками типов земли/поверхности.

https://www.technologyreview.com/s/611198/the-machine-vision-challenge-to-better-analyze-satellite-images-of-earth/ #ai #ml #dataset #image #segmentation
Хотя я не уверен, зачем вам может понадобиться анализировать позы людей по изображениям в браузере, тут ребята из Google рассказывают, как это сделать, используя TensorFlow.js и PoseNet.

Почему не уверен? Потому что все мои "очевидные" сценарии сводятся к трем: проверка фотографий до загрузки, наложение эффектов в трансляции (например, представьте себе стрим футбольного матча, в котором поверх "скелетов" футболистов накладывают какие-то эффекты) и для той же трансляции автоматическое отслеживание положения (например, в телемедицине можно автоматически анализировать удовлетворение нужному условию, ака "согните руку, поверните голову направо"). Пока ни один не кажется массовым, но вдруг? Может, быть еще что-то важное, что я упускаю?

Тем не менее! Прогресс возможностей вычисления в браузере поражает! Еще лет десять-пятнадцать назад мы только и умели, что события на кнопочки писать и делать зачатки анимации.

https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5 #ai #ml #javascript #browser
Коллеги вместе с O'Reilly опубликовали бесплатную книжку: A Developer’s Guide to Building AI Applications. Налетай!

Внутри:
* Understand how the intersection of cloud, data, and AI is enabling organizations to build intelligent systems.
* Learn the tools, infrastructure, and services available as part of the Microsoft AI Platform for developing AI applications.
* Teach the Conference Buddy application new AI skills, using pre-built AI capabilities such as vision, translation, and speech.
* Learn about the Open Neural Network Exchange.

https://blogs.technet.microsoft.com/machinelearning/2018/06/04/free-e-book-a-developers-guide-to-building-ai-applications/ #ai #ml #book
Футбольное, пятнично-субботнее: Chintan Trivedi рассказывает, как использовать обучение с подкреплением, чтобы научить бота забивать угловые в FIFA2018. https://towardsdatascience.com/using-deep-q-learning-in-fifa-18-to-perfect-the-art-of-free-kicks-f2e4e979ee66 #ai #ml #sport #esport
Еще футбола! Помните, я тут выше писал про восстановление (реконструкцию) 3D-сцены по 2D-съемки? Группа исследователей из университета Вашингтона (+Google, +Facebook) сделали еще один шаг в этом направлении:
* взяли ролики игры в FIFA2017
* обучили сеточки распознавать поле, игроков и т.п.
* транслировали движения фигур в движения скелетов и карты глубины
* реконструировали игру в 3D
* перевели сцену в MR (Hololens)

А теперь представьте, что вы можете смотреть чемпионат мира по футболу на своем столе в 3D, как будто у вас на поверхности стола копия футбольного поля, вокруг которой вы можете ходить, приближаться и т.п.

http://www.i-programmer.info/news/190-augmentedvirtual-reality-arvr/11868-watch-soccer-games-in-3d-on-your-table-top-.html

Детали и публикация: https://arxiv.org/pdf/1806.00890.pdf

#ai #ml #mr #vision
Большая новость от Microsoft Research - коллеги запустили проект MSR Open Data, большую коллекцию готовых датасетов, которые вы можете использовать для обучения своих моделей. Всего на сегодня доступно около 50 наборов данных, разбитых на 9 категорий: от биологии до городских данных.

Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)

Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/

#ai #ml #open #data #dataset
В нескольких американских околонаучных медиа вышла новость о том, что ИИ воссоздал с нуля периодическую систему элементов. Несколько интересных моментов:
1. Группа исследователей из Стэнфорда решила проверить, что будет, если в механике word2vec заменить в учебной выборке предложения на химические формулы, рассматривая отдельные химические элементы, как слова. В результате получился проект Atom2vec. (Анонс: https://news.stanford.edu/press-releases/2018/06/25/ai-recreates-chemistrys-periodic-table-elements)

2. Как следствие, сеточка научилась самостоятельно выводить классы близости элементов, например, предсказывая, что калий и натрий - похожие по свойствам элементы, способные оброзовывать соединения с хлором. Это позволило пиарщикам раструбить мысль о воссоздании периодической системы, что, конечно, не так. Например, Менделееву в свое время хватило ума не только упорядочить известные элементы, но и предположить существование еще не открытых так, где образовывались пробелы.

3. Тем не менее, сама мысль, что простая нейронная сеть может выводить скрытые связи, близость элементов и т.п. просто по анализу существующих наблюдений, очень крута. В случае с химическими элементами сеточка смогла "вывести" наличие нескольких "свойств" атомов -- измерений в многомерных векторах, по которым можно делать группировку элементов. Например, явно выделяются кластеры щелочных и щелочноземельных металлов, или можно наблюдать корреляцию с увеличением валентности элементов. (Технические детали: http://www.pnas.org/content/early/2018/06/25/1801181115)

4. Насколько я могу судить по результатам быстрого поиска, подобные техники начали активно использоваться в том числе для предсказания возможных свойств новых соединений. Вот, например, немецкий проект Mol2vec, направленный как раз на эту задачу: https://github.com/samoturk/mol2vec (кстати, по внешним признакам, кажется, что это очень похоже на американскую работу, но не так распиарено).

5. Также это хорошо согласуется с темой векторного представления различных соединений, белковых последовательностей и т.п. + описания "отпечатков" соединений. См., например, проект Deep Proteomics: https://github.com/ehsanasgari/Deep-Proteomics

#ai #ml #chemistry #biology #genetics #deep #learning
Я уже писал про возможности трекинга тела на изображениях прямо в браузере. Теперь очередь за распознаванием лиц, определением контрольных точек и т.п.: face-api.js — библиотека для распознавания лиц на базе tensorflow.js

https://itnext.io/face-api-js-javascript-api-for-face-recognition-in-the-browser-with-tensorflow-js-bcc2a6c4cf07 #ai #ml #javascript #face
Andrej Karpathy из Tesla рассказывает о новом софтверном стеке на базе автоматической оптимизации кода (сети) - Software 2.0. Про концепцию, кажется, я уже писал — идея в том, что это новый тип софта, в котором человек задает данные и критерии эффективности, а внутренняя структура и веса нейронной сети (или кода) подбираются автоматически.

Отдельный интересный вопрос отсюда, сформулированный, как открытый запрос и что-то над чем активно работают в Tesla для своих нужно, — это уславная IDE для таких задач.

https://www.figure-eight.com/building-the-software-2-0-stack-by-andrej-karpathy-from-tesla/ #ai #ml #software
Во многих сценариях создания диалоговых интерфейсов разработчики сталкиваются с одной и той же задачей: как отобразить естественные языковые запросы на API конкретных используемых сервисов? Обычно это требует разработки нескольких промежуточных слоев, включая "понимание" речи с разбором на намерения (intent) и отображение намерений на конкретные вызовы API с учетом некоторой логики (например, состояний).

Группа исследователей из Microsoft Research задается в этом контексте таким вопросом: можно ли сделать общий подход для создания NL2API — прослойки между естественными запросами и API конкретных сервисов. В работе по ссылке ниже детально описывается архитектура такого решения, использующая модульный подход, в котором каждый блок имеет свою нейронную сеть, вычленяющую нужные параметры из оргинального запроса + общий контроллер, определяющий, какие модули нужно активировать.

Подобная архитектура, как пишут исследователи, также упрощает создание интерактивных систем, позволяющих пользователям легко уточнять запросы.

Общее описание: https://www.microsoft.com/en-us/research/blog/democratizing-apis-with-natural-language-interfaces/
Публикация: https://www.microsoft.com/en-us/research/uploads/prod/2018/04/sigir18_nl2api.pdf

#ai #ml #conversational #ui
The Ultimate Guide to Microsoft Publisher