Quantum Quintum
1.63K subscribers
330 photos
7 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
Если вы смотрели Google IO или просто следили за новостями, навряд ли мимо вас прошла тема с Google Duplex (потрясающая демонстрация, когда цифровой помощник звонит в парикмахерскую или ресторан, чтобы забронировать стрижку или столик для своего клиента, общаясь при этом весьма человечным голосом).

Надо отметить, что Google не единственная компания, которая копает в эту сторону (чего уж там!), поэтому отсылки ниже, хотя и относятся к этому примеру как самому яркому за последнее время, носят обобщающий характер, применимый и к Microsoft, и к Amazon и десятку другому крупных компаний и разного размера стартапов.

Сразу после презентации в очередной раз возникла волна обсуждений этичности всего происходящего, потому что будущее, в котором массово доступна технология неотличимой от человеческой синтезированной речи с голосом известного человека, — это страшноватое будущее, в котором на каждый позитивный сценарий в голове сразу вылезает десяток негативных.

Chris Noessel пишет о том, почему так происходит и что с этим всем делать. Ключевой момент в том, что такая технология сегодня (и еще долго, потому что сильного AI как не было, так и не предвидится пока что) попадает в так называемую зловещую долину. Зловещая долина — это когда технология достигла такого уровня человекоподобия, что мы начинаем хотеть ее воспринимать именно как человека, но в этот момент в ней обнаруживаются какие-то мелкие отклонения, которые разворачивают нашу интерпретацию в сторону совершенно нездорового человека, что вызывает отторжение. Грубо говоря, если бы в любом из озвученных скриптов что-то пошло не так (а наверняка были и такие, просто нам их не показали), то у человека на том конце возникло бы ощущение, что с ним говорит какой-то ненормальный человек (непонимающий, неслышащий, заучивший скрипт, тупой и т.п.).

Исходя из этого и общего понимания опасности технологии Крис предлагает остановиться. Не в смысле развития технологии, а в смысле не падать в эту плоскость, но для этого вместо мимикрии под человека надо договориться, что мы делаем человеко-подобное. Применительно к голосу это означает две вещи:
1) Во всех таких коммуникациях машина должна сообщать явно, что она машина. И у нее должен быть план Б, если человек не хочет или не может говорить с машиной.
2) Не надо пытаться сделать неотличимую от человеческой речь. Речь должна явно показывать, что она синтезирована. Она не обязана быть топорной, с механической нарезкой звуков и т.п., она вполне может быть плавной, но не человеческой. Например, она может быть мультяшной по своим интонациям. Главное, чтобы человеку было комфортно ее слушать, но он каждый момент понимал, что с ним говорит не человек.

И вот это, последнее, тот еще вызов для проектировщиков таких систем. Повторить человека кажется в чем-то даже проще.

https://uxdesign.cc/the-canny-rise-a-ux-pattern-921e400b26ed #ai #human #uncannyvalley #voice
Продолжаем тему распознавания реальности. Команда исследователей из Института Макса Планка научились восстанавливать трехмерную модель человека по монокулярному видео (посмотрите ролик). Вся схема работает в несколько шагов:
1. Сделать базовую трехмерную модель (отсканировать человека в одежде), включая скелет.
2. По видео предсказать расположение (видимых) опорных точек, перенести это на полную модель скелета, включая предсказание движений и учет ограничений.
3. Восстановить движение модели с разных точек обзора.

http://gvv.mpi-inf.mpg.de/projects/wxu/MonoPerfCap #video #analysis #ml #ai
Хороших размеченных датасетов мало не бывает. Команда исследователей из Facebook, DigitalGlobe и MIT (и других университетов) запустила соревнование DeepGlobe Satellite Challenge по анализу спутниковых снимков поверхности земли. Участникам предлагается автоматизировать выделение трех типов информации: дорожная сеть, строения и использование земли.

Чтобы вам было проще обучать сеточки, организаторы предоставили три достаточно больших размеченных датасата: 9000 изображений с маской дорог, 24000 изображений с полигонами зданий и 1000 изображений с сегментированными масками типов земли/поверхности.

https://www.technologyreview.com/s/611198/the-machine-vision-challenge-to-better-analyze-satellite-images-of-earth/ #ai #ml #dataset #image #segmentation
Хотя я не уверен, зачем вам может понадобиться анализировать позы людей по изображениям в браузере, тут ребята из Google рассказывают, как это сделать, используя TensorFlow.js и PoseNet.

Почему не уверен? Потому что все мои "очевидные" сценарии сводятся к трем: проверка фотографий до загрузки, наложение эффектов в трансляции (например, представьте себе стрим футбольного матча, в котором поверх "скелетов" футболистов накладывают какие-то эффекты) и для той же трансляции автоматическое отслеживание положения (например, в телемедицине можно автоматически анализировать удовлетворение нужному условию, ака "согните руку, поверните голову направо"). Пока ни один не кажется массовым, но вдруг? Может, быть еще что-то важное, что я упускаю?

Тем не менее! Прогресс возможностей вычисления в браузере поражает! Еще лет десять-пятнадцать назад мы только и умели, что события на кнопочки писать и делать зачатки анимации.

https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5 #ai #ml #javascript #browser
Коллеги вместе с O'Reilly опубликовали бесплатную книжку: A Developer’s Guide to Building AI Applications. Налетай!

Внутри:
* Understand how the intersection of cloud, data, and AI is enabling organizations to build intelligent systems.
* Learn the tools, infrastructure, and services available as part of the Microsoft AI Platform for developing AI applications.
* Teach the Conference Buddy application new AI skills, using pre-built AI capabilities such as vision, translation, and speech.
* Learn about the Open Neural Network Exchange.

https://blogs.technet.microsoft.com/machinelearning/2018/06/04/free-e-book-a-developers-guide-to-building-ai-applications/ #ai #ml #book
Футбольное, пятнично-субботнее: Chintan Trivedi рассказывает, как использовать обучение с подкреплением, чтобы научить бота забивать угловые в FIFA2018. https://towardsdatascience.com/using-deep-q-learning-in-fifa-18-to-perfect-the-art-of-free-kicks-f2e4e979ee66 #ai #ml #sport #esport
Еще футбола! Помните, я тут выше писал про восстановление (реконструкцию) 3D-сцены по 2D-съемки? Группа исследователей из университета Вашингтона (+Google, +Facebook) сделали еще один шаг в этом направлении:
* взяли ролики игры в FIFA2017
* обучили сеточки распознавать поле, игроков и т.п.
* транслировали движения фигур в движения скелетов и карты глубины
* реконструировали игру в 3D
* перевели сцену в MR (Hololens)

А теперь представьте, что вы можете смотреть чемпионат мира по футболу на своем столе в 3D, как будто у вас на поверхности стола копия футбольного поля, вокруг которой вы можете ходить, приближаться и т.п.

http://www.i-programmer.info/news/190-augmentedvirtual-reality-arvr/11868-watch-soccer-games-in-3d-on-your-table-top-.html

Детали и публикация: https://arxiv.org/pdf/1806.00890.pdf

#ai #ml #mr #vision
Сегодня пара ссылок про генерацию графики.

Начнем с NVidia. Исследователи компании натренировали сеточки для генерации недостающих кадров для создания супер-медленного видео. В итоге видео в 30fps становится замедленным видео в 240fps. Хотя, в принципе, с некоторых смартфонов можно снимать видео со схожей частотой кадров, AI-решение, как говорят ученые, позволяет 1) обрабатывать существующие видео и 2) получить удовлетворительный результат, не тратя ценное место и вычислительные мощности на стороне смартфона.

Кажется, сценарий из фильмов с анализом кадров из съемки в духе "ну-ка замедли этот фрагмент" становится вполне реалистичным.

Обзор на The Verge: https://www.theverge.com/2018/6/19/17478110/fake-slow-motion-ai-nvidia-research
Технические детали: https://arxiv.org/pdf/1712.00080.pdf

#ai #image #video #generation
Вторая история — от исследователей из Microsoft и китайского Института науки и технологий о том, как генерировать изображения человеческих лиц. Фактически, команда научилась разделять идентичность (identity), специфичные свойства конкретного лица, и атрибуты, переносимые параметры вроде эмоции. На стыке получается делать трансформацию исходного лица в нужное состояние.

Мне тут видятся также большие перспективы как с точки зрения биометрии, так и с точки зрения консьюмерских применений вроде генерации аватаров и реалистичных изображений в кино и играх. Ну и еще один кирпичик в области фейкового контента, конечно.

https://www.microsoft.com/en-us/research/blog/believing-is-seeing-insightful-research-illuminates-the-newly-possible-in-the-realm-of-natural-and-synthetic-images/ #ai #image #face #generation
How to Change Teams Background