Немножко прикладного кода в ленту. Тут коллеги рассказывают, как использовать Tiramisu (это вариация сверточной сеточки на DenseNet-архитектуре) для задачи сегментации изображений.
Если точнее, то сценарий такой: в ритейл-магазин приходит новая партия товара (одежды), нужно быстро сопоставить ее с существующим каталогом. Альтернативно: сотруднику или покупателю нужно быстро найти информацию по предмету одежды, находящемуся перед глазами. Фактически, нужно реализовать визуальный поиск, в котором сотрудник сможет по фотке с мобильника, найти соответствующую вещь в каталоге.
Тонкость в том, что фотка с мобильного может быть зашумлена фоном, поэтому для корректного сравнения желательно на лету сделать обтравку изображения. А это и есть один из вариантов задачи сегментации.
Обзор: https://www.microsoft.com/developerblog/2018/04/18/deep-learning-image-segmentation-for-ecommerce-catalogue-visual-search/
Исходный код: https://github.com/CatalystCode/image-segmentation-using-tiramisu/
#ai #ml #practice
Если точнее, то сценарий такой: в ритейл-магазин приходит новая партия товара (одежды), нужно быстро сопоставить ее с существующим каталогом. Альтернативно: сотруднику или покупателю нужно быстро найти информацию по предмету одежды, находящемуся перед глазами. Фактически, нужно реализовать визуальный поиск, в котором сотрудник сможет по фотке с мобильника, найти соответствующую вещь в каталоге.
Тонкость в том, что фотка с мобильного может быть зашумлена фоном, поэтому для корректного сравнения желательно на лету сделать обтравку изображения. А это и есть один из вариантов задачи сегментации.
Обзор: https://www.microsoft.com/developerblog/2018/04/18/deep-learning-image-segmentation-for-ecommerce-catalogue-visual-search/
Исходный код: https://github.com/CatalystCode/image-segmentation-using-tiramisu/
#ai #ml #practice
Developer Blog
Deep Learning Image Segmentation for Ecommerce Catalogue Visual Search - Developer Blog
We partnered with a large international online luxury fashion retailer to design important labor-saving AI projects: removing duplicate products in their image catalogue, and allowing fast automated look-up of catalogue items from a snapshot of the garment.…
Большая головная боль машинного обучения - разметка сырых данных. Вот тут коллеги рассказывают про использование метода Otsu для подготовки данных под задачу сегментация изображений. https://www.microsoft.com/developerblog/2018/05/17/using-otsus-method-generate-data-training-deep-learning-image-segmentation-models/ #ai #ml #image #vision
CSE Developer Blog
Using Otsu's method to generate data for training of deep learning image segmentation models | CSE Developer Blog
In this article, we introduce a technique to rapidly pre-label training data for image segmentation models such that annotators no longer have to painstakingly hand-annotate every pixel of interest in an image. The approach is implemented in Python and OpenCV…
Продолжаем тему распознавания реальности. Команда исследователей из Института Макса Планка научились восстанавливать трехмерную модель человека по монокулярному видео (посмотрите ролик). Вся схема работает в несколько шагов:
1. Сделать базовую трехмерную модель (отсканировать человека в одежде), включая скелет.
2. По видео предсказать расположение (видимых) опорных точек, перенести это на полную модель скелета, включая предсказание движений и учет ограничений.
3. Восстановить движение модели с разных точек обзора.
http://gvv.mpi-inf.mpg.de/projects/wxu/MonoPerfCap #video #analysis #ml #ai
1. Сделать базовую трехмерную модель (отсканировать человека в одежде), включая скелет.
2. По видео предсказать расположение (видимых) опорных точек, перенести это на полную модель скелета, включая предсказание движений и учет ограничений.
3. Восстановить движение модели с разных точек обзора.
http://gvv.mpi-inf.mpg.de/projects/wxu/MonoPerfCap #video #analysis #ml #ai
gvv.mpi-inf.mpg.de
MonoPerfCap: Human Performance Capture from Monocular Video, TOG 2018
We present the first marker-less approach for temporally coherent 3D performance capture of a human with general clothing from monocular video. Our approach reconstructs articulated human skeleton motion as well as medium-scale non-rigid surface deformations…
Хороших размеченных датасетов мало не бывает. Команда исследователей из Facebook, DigitalGlobe и MIT (и других университетов) запустила соревнование DeepGlobe Satellite Challenge по анализу спутниковых снимков поверхности земли. Участникам предлагается автоматизировать выделение трех типов информации: дорожная сеть, строения и использование земли.
Чтобы вам было проще обучать сеточки, организаторы предоставили три достаточно больших размеченных датасата: 9000 изображений с маской дорог, 24000 изображений с полигонами зданий и 1000 изображений с сегментированными масками типов земли/поверхности.
https://www.technologyreview.com/s/611198/the-machine-vision-challenge-to-better-analyze-satellite-images-of-earth/ #ai #ml #dataset #image #segmentation
Чтобы вам было проще обучать сеточки, организаторы предоставили три достаточно больших размеченных датасата: 9000 изображений с маской дорог, 24000 изображений с полигонами зданий и 1000 изображений с сегментированными масками типов земли/поверхности.
https://www.technologyreview.com/s/611198/the-machine-vision-challenge-to-better-analyze-satellite-images-of-earth/ #ai #ml #dataset #image #segmentation
MIT Technology Review
The machine vision challenge to better analyze satellite images of Earth
Machine vision has revolutionized many areas of technology, but satellite image analysis isn’t one of them. That may be about to change.
Хотя я не уверен, зачем вам может понадобиться анализировать позы людей по изображениям в браузере, тут ребята из Google рассказывают, как это сделать, используя TensorFlow.js и PoseNet.
Почему не уверен? Потому что все мои "очевидные" сценарии сводятся к трем: проверка фотографий до загрузки, наложение эффектов в трансляции (например, представьте себе стрим футбольного матча, в котором поверх "скелетов" футболистов накладывают какие-то эффекты) и для той же трансляции автоматическое отслеживание положения (например, в телемедицине можно автоматически анализировать удовлетворение нужному условию, ака "согните руку, поверните голову направо"). Пока ни один не кажется массовым, но вдруг? Может, быть еще что-то важное, что я упускаю?
Тем не менее! Прогресс возможностей вычисления в браузере поражает! Еще лет десять-пятнадцать назад мы только и умели, что события на кнопочки писать и делать зачатки анимации.
https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5 #ai #ml #javascript #browser
Почему не уверен? Потому что все мои "очевидные" сценарии сводятся к трем: проверка фотографий до загрузки, наложение эффектов в трансляции (например, представьте себе стрим футбольного матча, в котором поверх "скелетов" футболистов накладывают какие-то эффекты) и для той же трансляции автоматическое отслеживание положения (например, в телемедицине можно автоматически анализировать удовлетворение нужному условию, ака "согните руку, поверните голову направо"). Пока ни один не кажется массовым, но вдруг? Может, быть еще что-то важное, что я упускаю?
Тем не менее! Прогресс возможностей вычисления в браузере поражает! Еще лет десять-пятнадцать назад мы только и умели, что события на кнопочки писать и делать зачатки анимации.
https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5 #ai #ml #javascript #browser
Medium
Real-time Human Pose Estimation in the Browser with TensorFlow.js
Posted by: Dan Oved, freelance creative technologist at Google Creative Lab, graduate student at ITP, NYU. Editing and illustrations…
Коллеги вместе с O'Reilly опубликовали бесплатную книжку: A Developer’s Guide to Building AI Applications. Налетай!
Внутри:
* Understand how the intersection of cloud, data, and AI is enabling organizations to build intelligent systems.
* Learn the tools, infrastructure, and services available as part of the Microsoft AI Platform for developing AI applications.
* Teach the Conference Buddy application new AI skills, using pre-built AI capabilities such as vision, translation, and speech.
* Learn about the Open Neural Network Exchange.
https://blogs.technet.microsoft.com/machinelearning/2018/06/04/free-e-book-a-developers-guide-to-building-ai-applications/ #ai #ml #book
Внутри:
* Understand how the intersection of cloud, data, and AI is enabling organizations to build intelligent systems.
* Learn the tools, infrastructure, and services available as part of the Microsoft AI Platform for developing AI applications.
* Teach the Conference Buddy application new AI skills, using pre-built AI capabilities such as vision, translation, and speech.
* Learn about the Open Neural Network Exchange.
https://blogs.technet.microsoft.com/machinelearning/2018/06/04/free-e-book-a-developers-guide-to-building-ai-applications/ #ai #ml #book
Футбольное, пятнично-субботнее: Chintan Trivedi рассказывает, как использовать обучение с подкреплением, чтобы научить бота забивать угловые в FIFA2018. https://towardsdatascience.com/using-deep-q-learning-in-fifa-18-to-perfect-the-art-of-free-kicks-f2e4e979ee66 #ai #ml #sport #esport
Towards Data Science
Using Deep Q-Learning in FIFA 18 to perfect the art of free-kicks
A code tutorial in Tensorflow that uses Reinforcement Learning to take free kicks.
Еще футбола! Помните, я тут выше писал про восстановление (реконструкцию) 3D-сцены по 2D-съемки? Группа исследователей из университета Вашингтона (+Google, +Facebook) сделали еще один шаг в этом направлении:
* взяли ролики игры в FIFA2017
* обучили сеточки распознавать поле, игроков и т.п.
* транслировали движения фигур в движения скелетов и карты глубины
* реконструировали игру в 3D
* перевели сцену в MR (Hololens)
А теперь представьте, что вы можете смотреть чемпионат мира по футболу на своем столе в 3D, как будто у вас на поверхности стола копия футбольного поля, вокруг которой вы можете ходить, приближаться и т.п.
http://www.i-programmer.info/news/190-augmentedvirtual-reality-arvr/11868-watch-soccer-games-in-3d-on-your-table-top-.html
Детали и публикация: https://arxiv.org/pdf/1806.00890.pdf
#ai #ml #mr #vision
* взяли ролики игры в FIFA2017
* обучили сеточки распознавать поле, игроков и т.п.
* транслировали движения фигур в движения скелетов и карты глубины
* реконструировали игру в 3D
* перевели сцену в MR (Hololens)
А теперь представьте, что вы можете смотреть чемпионат мира по футболу на своем столе в 3D, как будто у вас на поверхности стола копия футбольного поля, вокруг которой вы можете ходить, приближаться и т.п.
http://www.i-programmer.info/news/190-augmentedvirtual-reality-arvr/11868-watch-soccer-games-in-3d-on-your-table-top-.html
Детали и публикация: https://arxiv.org/pdf/1806.00890.pdf
#ai #ml #mr #vision
www.i-programmer.info
Watch Soccer Games In 3D On Your Table Top
Programming book reviews, programming tutorials,programming news, C#, Ruby, Python,C, C++, PHP, Visual Basic, Computer book reviews, computer history, programming history, joomla, theory, spreadsheets and more.
Большая новость от Microsoft Research - коллеги запустили проект MSR Open Data, большую коллекцию готовых датасетов, которые вы можете использовать для обучения своих моделей. Всего на сегодня доступно около 50 наборов данных, разбитых на 9 категорий: от биологии до городских данных.
Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)
Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/
#ai #ml #open #data #dataset
Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)
Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/
#ai #ml #open #data #dataset
Microsoft Research
Announcing Microsoft Research Open Data - Datasets by Microsoft Research now available in the cloud - Microsoft Research
The Microsoft Research Outreach team has worked extensively with the external research community to enable adoption of cloud-based research infrastructure over the past few years. Through this process, we experienced the ubiquity of Jim Gray’s fourth paradigm…
В нескольких американских околонаучных медиа вышла новость о том, что ИИ воссоздал с нуля периодическую систему элементов. Несколько интересных моментов:
1. Группа исследователей из Стэнфорда решила проверить, что будет, если в механике word2vec заменить в учебной выборке предложения на химические формулы, рассматривая отдельные химические элементы, как слова. В результате получился проект Atom2vec. (Анонс: https://news.stanford.edu/press-releases/2018/06/25/ai-recreates-chemistrys-periodic-table-elements)
2. Как следствие, сеточка научилась самостоятельно выводить классы близости элементов, например, предсказывая, что калий и натрий - похожие по свойствам элементы, способные оброзовывать соединения с хлором. Это позволило пиарщикам раструбить мысль о воссоздании периодической системы, что, конечно, не так. Например, Менделееву в свое время хватило ума не только упорядочить известные элементы, но и предположить существование еще не открытых так, где образовывались пробелы.
3. Тем не менее, сама мысль, что простая нейронная сеть может выводить скрытые связи, близость элементов и т.п. просто по анализу существующих наблюдений, очень крута. В случае с химическими элементами сеточка смогла "вывести" наличие нескольких "свойств" атомов -- измерений в многомерных векторах, по которым можно делать группировку элементов. Например, явно выделяются кластеры щелочных и щелочноземельных металлов, или можно наблюдать корреляцию с увеличением валентности элементов. (Технические детали: http://www.pnas.org/content/early/2018/06/25/1801181115)
4. Насколько я могу судить по результатам быстрого поиска, подобные техники начали активно использоваться в том числе для предсказания возможных свойств новых соединений. Вот, например, немецкий проект Mol2vec, направленный как раз на эту задачу: https://github.com/samoturk/mol2vec (кстати, по внешним признакам, кажется, что это очень похоже на американскую работу, но не так распиарено).
5. Также это хорошо согласуется с темой векторного представления различных соединений, белковых последовательностей и т.п. + описания "отпечатков" соединений. См., например, проект Deep Proteomics: https://github.com/ehsanasgari/Deep-Proteomics
#ai #ml #chemistry #biology #genetics #deep #learning
1. Группа исследователей из Стэнфорда решила проверить, что будет, если в механике word2vec заменить в учебной выборке предложения на химические формулы, рассматривая отдельные химические элементы, как слова. В результате получился проект Atom2vec. (Анонс: https://news.stanford.edu/press-releases/2018/06/25/ai-recreates-chemistrys-periodic-table-elements)
2. Как следствие, сеточка научилась самостоятельно выводить классы близости элементов, например, предсказывая, что калий и натрий - похожие по свойствам элементы, способные оброзовывать соединения с хлором. Это позволило пиарщикам раструбить мысль о воссоздании периодической системы, что, конечно, не так. Например, Менделееву в свое время хватило ума не только упорядочить известные элементы, но и предположить существование еще не открытых так, где образовывались пробелы.
3. Тем не менее, сама мысль, что простая нейронная сеть может выводить скрытые связи, близость элементов и т.п. просто по анализу существующих наблюдений, очень крута. В случае с химическими элементами сеточка смогла "вывести" наличие нескольких "свойств" атомов -- измерений в многомерных векторах, по которым можно делать группировку элементов. Например, явно выделяются кластеры щелочных и щелочноземельных металлов, или можно наблюдать корреляцию с увеличением валентности элементов. (Технические детали: http://www.pnas.org/content/early/2018/06/25/1801181115)
4. Насколько я могу судить по результатам быстрого поиска, подобные техники начали активно использоваться в том числе для предсказания возможных свойств новых соединений. Вот, например, немецкий проект Mol2vec, направленный как раз на эту задачу: https://github.com/samoturk/mol2vec (кстати, по внешним признакам, кажется, что это очень похоже на американскую работу, но не так распиарено).
5. Также это хорошо согласуется с темой векторного представления различных соединений, белковых последовательностей и т.п. + описания "отпечатков" соединений. См., например, проект Deep Proteomics: https://github.com/ehsanasgari/Deep-Proteomics
#ai #ml #chemistry #biology #genetics #deep #learning
Я уже писал про возможности трекинга тела на изображениях прямо в браузере. Теперь очередь за распознаванием лиц, определением контрольных точек и т.п.: face-api.js — библиотека для распознавания лиц на базе tensorflow.js
https://itnext.io/face-api-js-javascript-api-for-face-recognition-in-the-browser-with-tensorflow-js-bcc2a6c4cf07 #ai #ml #javascript #face
https://itnext.io/face-api-js-javascript-api-for-face-recognition-in-the-browser-with-tensorflow-js-bcc2a6c4cf07 #ai #ml #javascript #face
Medium
face-api.js — JavaScript API for Face Recognition in the Browser with tensorflow.js
A JavaScript API for Face Detection, Face Recognition and Face Landmark Detection
Andrej Karpathy из Tesla рассказывает о новом софтверном стеке на базе автоматической оптимизации кода (сети) - Software 2.0. Про концепцию, кажется, я уже писал — идея в том, что это новый тип софта, в котором человек задает данные и критерии эффективности, а внутренняя структура и веса нейронной сети (или кода) подбираются автоматически.
Отдельный интересный вопрос отсюда, сформулированный, как открытый запрос и что-то над чем активно работают в Tesla для своих нужно, — это уславная IDE для таких задач.
https://www.figure-eight.com/building-the-software-2-0-stack-by-andrej-karpathy-from-tesla/ #ai #ml #software
Отдельный интересный вопрос отсюда, сформулированный, как открытый запрос и что-то над чем активно работают в Tesla для своих нужно, — это уславная IDE для таких задач.
https://www.figure-eight.com/building-the-software-2-0-stack-by-andrej-karpathy-from-tesla/ #ai #ml #software
Appen
Blog - Appen
The latest insights about training data, artificial intelligence, machine learning, and our company
Во многих сценариях создания диалоговых интерфейсов разработчики сталкиваются с одной и той же задачей: как отобразить естественные языковые запросы на API конкретных используемых сервисов? Обычно это требует разработки нескольких промежуточных слоев, включая "понимание" речи с разбором на намерения (intent) и отображение намерений на конкретные вызовы API с учетом некоторой логики (например, состояний).
Группа исследователей из Microsoft Research задается в этом контексте таким вопросом: можно ли сделать общий подход для создания NL2API — прослойки между естественными запросами и API конкретных сервисов. В работе по ссылке ниже детально описывается архитектура такого решения, использующая модульный подход, в котором каждый блок имеет свою нейронную сеть, вычленяющую нужные параметры из оргинального запроса + общий контроллер, определяющий, какие модули нужно активировать.
Подобная архитектура, как пишут исследователи, также упрощает создание интерактивных систем, позволяющих пользователям легко уточнять запросы.
Общее описание: https://www.microsoft.com/en-us/research/blog/democratizing-apis-with-natural-language-interfaces/
Публикация: https://www.microsoft.com/en-us/research/uploads/prod/2018/04/sigir18_nl2api.pdf
#ai #ml #conversational #ui
Группа исследователей из Microsoft Research задается в этом контексте таким вопросом: можно ли сделать общий подход для создания NL2API — прослойки между естественными запросами и API конкретных сервисов. В работе по ссылке ниже детально описывается архитектура такого решения, использующая модульный подход, в котором каждый блок имеет свою нейронную сеть, вычленяющую нужные параметры из оргинального запроса + общий контроллер, определяющий, какие модули нужно активировать.
Подобная архитектура, как пишут исследователи, также упрощает создание интерактивных систем, позволяющих пользователям легко уточнять запросы.
Общее описание: https://www.microsoft.com/en-us/research/blog/democratizing-apis-with-natural-language-interfaces/
Публикация: https://www.microsoft.com/en-us/research/uploads/prod/2018/04/sigir18_nl2api.pdf
#ai #ml #conversational #ui
Microsoft Research
Democratizing APIs with Natural Language Interfaces - Microsoft Research
Benefiting from a confluence of factors, such as service-oriented architecture, cloud computing, and Internet-of-Things (IoT), application program interfaces – APIs – are playing an increasingly important role in both the virtual and the physical world. For…