Quantum Quintum
1.62K subscribers
342 photos
8 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
Bloomberg пишет о планах Facebook наладить разработку собственных чипсетов. Хотя потенциальные направления применения понятны (и это все спекулятивно): от VR-шлемов до специализированных AI-чипсетов для собственных дата-центров, интересно другое!

Это своего рода публичный инсайт, то есть информация, лежащая на поверхности, если знать где искать. Журналисты и, уверен, конкуренты давно научились мониторить как разделы вакансий на сайтах крупных технологических компаний, так и объявления о поиске сотрудников в социальных сетях. На этот раз ребята из Facebook просто написали, что ищут менеджера для "end-to-end SoC/ASIC, firmware and driver development organization". SoC/ASIC — это и есть специализиронный чипсет.

https://www.bloomberg.com/news/articles/2018-04-18/facebook-is-forming-a-team-to-design-its-own-chips #ai #hardware #insight
Про обучение нейронных сетей и аппаратные решения. Группа исследователей из IBM Research продемонстрировала, что нейронные сети можно обучать целиком в пямяти на базе PCM-устройств (около 1 млн ячеек).

PCM (Phase-change memory) - это тип памяти с изменением фазового состояния, который IBM и ряд других компаний уже много лет разрабатывают, пытась создать энерогонезависимый носитель памяти, в котором данные хранятся за счет изменения фазового состояния материала.

В ходе работы команда обучила пару алгоритмов машинного обучения без учителя, которые успешно выявили временные корреляции в неизвестных ему потоках данных. Конкретный алгоритм тут играет малое значение, потому что фокус работы — на ускорении и снижении энергозатрат. Полученное решение показало примерно 200-кратное улучшение по сравнению с классическими компьютерами.

Почему это круто?
1. Фактически речь идет не просто об еще одном носителе памяти, а о весьма специфичной вычислительной модели, отличающейся от классической фон-Неймановской — "accumulation-based computation". PCM-устройства позволяют работать не просто с 0 и 1, но и промежуточными состояниями (кристаллизации), отсюда возникают накопительные эффекты, которые в свою очередь можно использовать для вычислительных задач.
2. Ранее IBM демонстрировала применимость PCM-устройств для организации "нейроморфных вычислений", в которых на уровне железа пытаются смоделировать работу реальных нервных сетей. Тонкость в том, что живые нейроны как раз реализуют в себе обе функции - хранения информации и вычисления, в то время как классическая компьютерная модель разделяет их в отдельные блоки.
3. Когда (или если) это все дойдет до промышленных масштабов, мы получим устройства, способные обучаться существенно быстрее и с меньшим потреблением энергии. Это все капает на мельницу переноса интеллектуальности на конечные устройства все меньшего и меньшего размера.

Анонс: https://www.ibm.com/blogs/research/2017/10/ibm-scientists-demonstrate-memory-computing-1-million-devices-applications-ai

Подробности: https://www.nature.com/articles/s41467-017-01481-9

#ai #inmemory #computing #hardware #pcm
Скоро Build! Написал по этому поводу на выходных для коллег обзор всех прошлых конференций с точки зрения эволюции технологий (облако, естественные интерфейсы и искусственный интеллект).

В удивительное время мы живем! Пока пересматривал открытия конференции 2011-2017, пустил скупую слезу, вспомнил молодость и подумал, что IT — это все ж очень круто. На глазах Microsoft из корпоративного монстра, замкнутого на себе и своей платформе, превратилась в компанию, для которой партнерство = открытость. Открытость кода, открытость к новым партнерствам, открытость к сообществу, открытость к новым возможностям. Не все еще идеально, но мы боремся. :)

https://news.microsoft.com/ru-ru/features/trendy-tehnologij/
Немножко прикладного кода в ленту. Тут коллеги рассказывают, как использовать Tiramisu (это вариация сверточной сеточки на DenseNet-архитектуре) для задачи сегментации изображений.

Если точнее, то сценарий такой: в ритейл-магазин приходит новая партия товара (одежды), нужно быстро сопоставить ее с существующим каталогом. Альтернативно: сотруднику или покупателю нужно быстро найти информацию по предмету одежды, находящемуся перед глазами. Фактически, нужно реализовать визуальный поиск, в котором сотрудник сможет по фотке с мобильника, найти соответствующую вещь в каталоге.

Тонкость в том, что фотка с мобильного может быть зашумлена фоном, поэтому для корректного сравнения желательно на лету сделать обтравку изображения. А это и есть один из вариантов задачи сегментации.

Обзор: https://www.microsoft.com/developerblog/2018/04/18/deep-learning-image-segmentation-for-ecommerce-catalogue-visual-search/
Исходный код: https://github.com/CatalystCode/image-segmentation-using-tiramisu/

#ai #ml #practice
Зубодробительная смесь: квантовая физика, запутывание во времени и блокчейн. Если вы следите за темой распределенных реестров, то, наверняка, слышали про (пока) спекулятивные разговоры о том, что с приходом массовых квантовых вычислений классическая криптография, на которой в частности сидит блокчейн, падет.

Очевидно, что есть группы ученых, которые над этой проблемой уже работают. Исследования ведутся как минимум в двух направлениях: 1) поиск "пост-квантовой" криптографии — алгоритмов, устойчивых перед квантовыми вычислениями (см., например, ссылку в конце) и 2) поиск альтернативных "физических" решений, о чем пойдет речь в этой заметке.

В 2011 исследователи из австралийского Университета Квинсленда опубликовали работу по квантовому запутыванию во времени. В "традиционном" квантовом запутывании наблюдаются связанные частицы, разделенные в пронстранстве. Измерение одной из них, изменяет состояние второй, независимо от расстояния.

Джей Ослон и Тимоти Ральф показали, что теоретически частицы могут "запутываться" не только в пространственном измерении, но и во временном. В работе ученые описывают гипотетический эксперимент, в котором частица из настоящего оказывается связанной с частицей в будущем, которая может даже еще не существовать. Соответственно, между детектором в настоящем и детектором в будущем можно установить связь и использовать ее для передачи сообщений. Это своего рода "телепортация во времени". Фокус в том, что второе измерение в будущем возможно только в определенный момент времени и его невозможно "перехватить" в промежутке.

И вот теперь к квантовому блокчейну. Дел Райжан и Мэтт Виссер из новозеландского Университета Веллингтона предлагают использовать те самые запутанные во времени частицы для построения блокчейна. Так как все операции, записываемые в блоки, раскладываются по времени, то теоретически запись в блок можно заменить на изменение состояния квантовой частицы. Частица в свою очередь оказывается связана с некоторой частицей из будущего, которая используется для создания следующего блока. Незаметно изменить состояние таких частиц невозможно в силу физических ограничений. Более того, в силу запутывания во времени, частицы из прошлого не нужны, их можно разрушить, а вся нужная информация будет воссоздана в будущем.

Квантовый блокчейн:
— обзор: https://www.technologyreview.com/s/611022/if-quantum-computers-threaten-blockchains-quantum-blockchains-could-be-the-defense?
— публицация: https://arxiv.org/pdf/1804.05979.pdf

Пост-квантовая криптография:
— обзор: https://www.microsoft.com/en-us/research/blog/cryptography-quantum-computing-intersect
— библиотека LatticeCrypto: https://www.microsoft.com/en-us/research/project/lattice-cryptography-library

Квантовое запутывание во времени:
— обзор: https://www.technologyreview.com/s/422428/new-type-of-entanglement-allows-teleportation-in-time-say-physicists
— публикация: https://arxiv.org/pdf/1101.2565.pdf
Я уже как-то писал про движение Bose в сторону аудио-дополненной реальности, включая выпуск специальных очков со встроенными динамиками. Одно из самых очевидных применений подобных технологий — это туры по городам. Поэтому не удивительно, что Bose пошла в это направление, прикупив наработки стартапа Detour.

TechCrunch пишет немного о странностях данной покупки. Detour взлетел в 2015 году с гидами по Сан-Франциско, выпустив интерактивные туры по городу, привязанные к гео-локациям. Внутри команда Detour не просто готовила нарезку аудио-фрагментов и делала мобильные приложения для персональных гидов, но и сделала специальные инструменты для подготовки таких гидов. Одна из наработок - инструмент для редактирования аудио-фрагментов через транскрибированные тексты, которая в конечном счете вылилась в новый стартап - Descript.

В общем, Bose оказалась как раз вовремя заинтересованной в контенте для своей новой платформы Bose AR и выкупила у основателей Detour гиды и часть тулинга. А команда последнего продолжила независимо заниматься развитием Descript.

Почему это интересно?
1. Пока основной фокус индустрии крутится вокруг зрительного канала, много интересного происходит в остальных направлениях - дополнение аудио, запахов, ощущений и т.п. Мне кажется, тут огромный потенциал сам по себе, не говоря уже о том, что AR/MR, без этих каналов, будет неполноценной.
2. С точки зрения стартап-индустрии, эта история является хорошей иллюстрации паттерна перехода от узкого интереса к более массовому рынку. Команда начала с узкой собственной боли: как готовить аудио-гиды быстрее. Для этого они сделали простой тулинг, позволяющий редактировать аудио через текст. Дальше оказалось, что эта потребность расширяется и на другие ниши - подкасты, аудио-версии статей, расшифровка интервью и т.п. В этот момент команда решила полностью сконцентрироваться на самом тулинге, а не конечном продукте.

https://techcrunch.com/2018/04/24/bose-acquires-andrew-masons-walking-tour-startup-detour/
#audio #ar #mr #tooling
Полезное и познавательное про голоса в голове. Rébecca Kleinberger из MIT Media Lab рассказывает о различиях между тремя типами "голосов", которые сливаются в нашей голове: внешние голоса (outward voice), собственный голос (inward voice) и внутренний голос (inner voice).

Разделение в данном случае механическое. Например, внешний и собственный голоса мы воспринимаем через разные системы, поэтому собственный голос в записи мы слышим иначе, чем воспринимаем его при говорении, когда звук проходит через кости. Эта разница может давать эффект неприятия: наш голос в записи нам кажется непривычным, и может даже вовсе не нравиться. Внутренний голос невербализуем, но мы его также "слышим". И вот это "слышим" иногда становится проблемой, если в силу тех или иных заболеваний мы теряем способность различать источники голоса (такое, в частности, случается при шизофрении).

Почему это все важно для IT?
1. В экстремальных случаях (при той же шизофрении), если мы сможем помочь пациенту четко дифференциировать источник голоса, это может стать частью лечения. Сегодня в том же MIT уже учатся считывать тот самый внутренний голос. Я писал об этом ранее.
2. Мы пока не понимаем, что случится с нашим сознанием и какие могут быть отклонения, если в наушнике или окружающем пространстве поселится еще один голос цифрового помощника (Alexa, Siri, Cortana, Alisa и т.п.).

p.s. В выступлении еще вскользь рассказывается о разных "веселых" возможностях анализа голоса вроде определения депрессии, беременности и отношения к тем или иным людям. Условно, активная колонка у вас дома потенциально может не только различать голоса, но и построить граф отношений и даже предсказать расширение семейства. А уж что там с этими данными будет делать большой брат, отдельный вопрос.

https://www.ted.com/talks/rebecca_kleinberger_our_three_voices/ #voice #recognition #inner
Пока я пишу большой обзор новостей про проходящий в Сиэттле Build, не могу не поделиться пояснением от Алекса Кипмана про Project Kinect for Azure.

На конференции Сатья Наделла анонсировал новое устройство, даже скорее, плату с сенсорами от Microsoft под условным названием "Project Kinect for Azure". Тут журналисты уже успели пошутить, что Kinect жив и все такое. Но причем тут Azure?

1. Сама плата еще не доступна, но можно подписаться на новости и заявить о своем интересе получить образец для своего проекта.
2. Фактически речь идет об уже 4м поколении Kinect. Этот же набор сенсоров станет основой следующего поколения Hololens!
3. Продвинутая камера глубины, Time-of-Flight (ToF), позволяет вывести на новый уровень алгоритмы компьютерного зрения и их прикладное применение. По сравнению с обычными камерами мы получаем более точную пространственную картину, может использовать сетки меньшего размера или выдающие повышенную точность, и все это более энергоэффективно.
4. Обучение таких сеточек можно делать в Azure, и, учитывая, что Алекс теперь возглавляет отдел Perception Services в команде Скотта Гатри (Cloud + AI), можно ожидать появление специализированных предобученных сервисов для обработки данных с камер. Не исключая, конечно, автономных сценариев, например, в виде решений на базе Azure IoT Edge (в параллельной истории с DJI рассказывали о размещении алгоритмов Custom Vision непосредственно на дронах).

В общем, ждем выхода устройств на рынок!

Обзор от Alex Kipman: https://www.linkedin.com/pulse/introducing-project-kinect-azure-alex-kipman
Подписаться на анонсы: https://azure.microsoft.com/en-us/campaigns/kinect
Записаться в программу раннего доступа: https://microsoft.qualtrics.com/jfe/form/SV_e9dCT1s9C5CwUkJ
А вот и первая часть анонсов с Build 2018. В этом выпуске рассказываю про 1) визионерское выступление Сатьи Наделлы, 2) железячные анонсы perception-устройств, 3) Project Brainwave для ускорения AI-вычислений в облаке и 4) обновления на фронте инструментов разработки.

https://habr.com/company/microsoft/blog/358068/
Если вы делаете проекты под Windows Mixed Reality, то, наверняка, вы сталкиваетесь постоянно с одними и теми же задачами, вроде "а как привязать объект к контроллеру" или "как сделать управляющий бокс для манипуляций с объектами". Возможно, вы даже начали писать собственные компоненты для таких типовых задач.

Так вот, у нас есть открытый Mixed Reality ToolKit (MRTK) под Unity, покрывающий большую часть того, с чем вы сталкиваетесь каждый день. Вот тут выложили отличный обзор возможностей: https://medium.com/@dongyoonpark/open-source-building-blocks-for-windows-mixed-reality-experiences-hololens-mixedrealitytoolkit-28a0a16ebb61

MRTK @ GitHub: https://github.com/Microsoft/MixedRealityToolkit-Unity

p.s. Не забудьте проверить ветку v-next: https://github.com/Microsoft/MixedRealityToolkit-Unity/tree/MRTK-Version-Next, там готовится много вкусного, включая поддержку дополнительных платформ (Steam VR и платформы OpenXR).

#MR #OpenSource #Unity #Toolkit
Не могу не поделиться. У нас тут пополнение в семействе Surface - Surface Hub 2. https://www.youtube.com/watch?v=7DbslbKsQSk

Подробности: https://blogs.windows.com/devices/2018/05/15/meet-surface-hub-2/
Важный анонс: мы представили еще одно устройство. Игровой контроллер для Xbox с фокусом на людей с ограниченными возможностями - Xbox Adaptive Controller, на базе которого можно собрать комбинацию удобную для себя.

Видео: https://youtu.be/9fcK19CAjWM
Анонс: https://www.xbox.com/en-US/xbox-one/accessories/controllers/xbox-adaptive-controller
Обзор: https://news.microsoft.com/stories/xbox-adaptive-controller/
Хотя многие дизайнеры не работают с данными пользователей напрямую, кажется, европейский GDPR (General Data Protection Regilation), заденет всех.

Fast Co.Design описывает ключевые моменты, которые надо держать в голове разработчикам в связи с новым регулированием.

Основы
1. Жители (EU) имеют право быть уведомленными в течение 72 часов, если компания была взломана, и их персональные данные оказались под угрозой.
2. Пользователи имеют право узнать, какая именно информация о них собрана в компании и как она используется.
3. Пользователи имеют право на забвение -- можно запросить удаление конкретной или всей персональной информации.
4. Компании должны удалять данные, которые более не релевантны, даже если их не спрашивали это делать.
5. Запрос на получение данных пользователей должен быть доступным и понятным.
6. Пользователи имеют право скачать все данные в одном месте в машинно-читаемом формате (например, CSV).

Как это коснется работы дизайнеров?
1. Больше нельзя делать вид, что "данные нас не касаются". Придется разрабраться, что такое базы данных, что они делают и какие именно данные в них отправляются. Отдельный вопрос -- в системе уведомлений пользователей о том, как удалить данные из системы. И дальше научиться понимать и отслеживать, как состояние данных влияет на пользовательский опыт.
2. Приватность должна стать частью дизайн-процесса. Вариант "сделать как получится, и за две недели до запуска прийти к юристам на проверку" не прокатит. О приватности надо думать сильно заранее. С самого начала. Прямо на этапе брейншторма новых идей.
3. Плохой дизайн будет стоить больше денег. Многие компании собирают данные и не знаю, что они на самом деле с ними делают. Надо перестать это делать. Если данные не улучшают опыт, они, скорее всего, не нужны. Более того, собирать больше (лишних) данных с пользователя будет потенциально означать большие риски с приватностью. Отдельный вопрос -- бизнес-модели, построенные на сборе данных: риски и цена вопроса могут оказаться слишком высоки. Скорее всего, многие такие стартапы закроются за год-два.
4. Большой вызов: создать внятный опыт понимания приватных данных для пользователей. Обычно настройки приватности запрятаны подальше, политики написаны юристами невнятным языком, а разбираться в сырой выгрузке пользователю приходится самостоятельно. Возможно, пора перестать, думать, что приватность -- это еще один пункт в настройках, и нужно выделить ее в отдельную опцию -- центральный дашбоард для пользователя для управления своими данными. Обратная сторона -- помочь понять пользователю, как каждый элемент его персональных данных влияет на его собственный опыт.
5. Смена дизайн-культуры. Одного закона не достаточно (при всей весомости денежных штрафов). Нужна новая волна поиска хороших и плохих практик работы с данными, нужно бороться с манипулятивными интерфейсами. Параллельный вопрос: показывать пробелы в законе и решать, что с ними делать с точки зрения опыта. Например, как удалять данные, завязанные также на других пользователей. Закон это не описывает, нужна общая практика.
6. GDPR -- это только начало. Может показаться, что это просто еще одно ограничение (дизайнеры любят ограничения). Но это больше. Надо начать с того, что логика закона несет новое понимание, что такое "хороший дизайн". Вы помогаете пользователю разобраться, чем именно занимается ваше приложение. Любое движение к увеличению прозрачности -- это хорошо. Наконец, может показаться, что GDPR -- это только про Европейский союз. Но это не так. Многие глобальные компании говорят, что будут следовать правилам регулирования даже в странах вне этого региона. Хотя некоторые просто перестают работать в EU или вводят отдельные вариации своих сервисов, кажется, что это временный шаг, потому что регуляторы в США уже думают над введением аналогичных правил. И это глобальная тенденция.

https://www.fastcodesign.com/90171699/what-is-gdpr-and-why-should-designers-care #gdpr #regulation
Про квантовые вычисления, которые еще массово не доступны, но уже приносят результаты. По ссылке ниже замечательный кейс парнерства Case Western Reserve University с нашей "квантовой" командой. В одном из сценариев, над которым работает университет, необходимо по снимкам МРТ находить раковые опухоли. Для этого используется метод магнитно-резонансных отпечатков, в котором в свою очередь есть большая вычислительная задача подбора оптимальных комбинаций частот. Тут-то и появляется тема квантовых вычислений, а точнее (пока) алгоритмов, вдохновленных квантовыми вычислениями, которые дальше можно обсчитывать в уже существуещем в облаке симуляторе. Подобный подход позволяет подготовить алгоритмическую базу уже сейчас и заодно понять инструментальные потребности в решении прикладных задач с квантовыми компьютерами.

Само собой, результат 3D-сканирования удобно показывать в Hololens.

Анонс: https://blogs.microsoft.com/blog/2018/05/18/microsoft-quantum-helps-case-western-reserve-university-advance-mri-research/
Подробности кейса: http://case.edu/mrf/
Если вы смотрели Google IO или просто следили за новостями, навряд ли мимо вас прошла тема с Google Duplex (потрясающая демонстрация, когда цифровой помощник звонит в парикмахерскую или ресторан, чтобы забронировать стрижку или столик для своего клиента, общаясь при этом весьма человечным голосом).

Надо отметить, что Google не единственная компания, которая копает в эту сторону (чего уж там!), поэтому отсылки ниже, хотя и относятся к этому примеру как самому яркому за последнее время, носят обобщающий характер, применимый и к Microsoft, и к Amazon и десятку другому крупных компаний и разного размера стартапов.

Сразу после презентации в очередной раз возникла волна обсуждений этичности всего происходящего, потому что будущее, в котором массово доступна технология неотличимой от человеческой синтезированной речи с голосом известного человека, — это страшноватое будущее, в котором на каждый позитивный сценарий в голове сразу вылезает десяток негативных.

Chris Noessel пишет о том, почему так происходит и что с этим всем делать. Ключевой момент в том, что такая технология сегодня (и еще долго, потому что сильного AI как не было, так и не предвидится пока что) попадает в так называемую зловещую долину. Зловещая долина — это когда технология достигла такого уровня человекоподобия, что мы начинаем хотеть ее воспринимать именно как человека, но в этот момент в ней обнаруживаются какие-то мелкие отклонения, которые разворачивают нашу интерпретацию в сторону совершенно нездорового человека, что вызывает отторжение. Грубо говоря, если бы в любом из озвученных скриптов что-то пошло не так (а наверняка были и такие, просто нам их не показали), то у человека на том конце возникло бы ощущение, что с ним говорит какой-то ненормальный человек (непонимающий, неслышащий, заучивший скрипт, тупой и т.п.).

Исходя из этого и общего понимания опасности технологии Крис предлагает остановиться. Не в смысле развития технологии, а в смысле не падать в эту плоскость, но для этого вместо мимикрии под человека надо договориться, что мы делаем человеко-подобное. Применительно к голосу это означает две вещи:
1) Во всех таких коммуникациях машина должна сообщать явно, что она машина. И у нее должен быть план Б, если человек не хочет или не может говорить с машиной.
2) Не надо пытаться сделать неотличимую от человеческой речь. Речь должна явно показывать, что она синтезирована. Она не обязана быть топорной, с механической нарезкой звуков и т.п., она вполне может быть плавной, но не человеческой. Например, она может быть мультяшной по своим интонациям. Главное, чтобы человеку было комфортно ее слушать, но он каждый момент понимал, что с ним говорит не человек.

И вот это, последнее, тот еще вызов для проектировщиков таких систем. Повторить человека кажется в чем-то даже проще.

https://uxdesign.cc/the-canny-rise-a-ux-pattern-921e400b26ed #ai #human #uncannyvalley #voice
Обожаю такие истории. Казалось бы, в электронике уже изобрели все базовые элементы для микросхем (это сильное упрощение!), и в целом вся индустрия нацелена уже на одну цель: придуманное уменьшить, повысить эффективность, пересобрать в другой конфигурации и т.п., но никому в голову не приходит, что надо что-то радикальное сделать с транзисторами, скажем. Потому что не понятно, а что именно.

Потом вдруг кто-то (в данном случае Sungsik Lee из Pusan National University в Южной Корее) проводит исследование, причем скорее даже математическое моделирование, и находит пробел в условной матрице. В упрощенном виде, транзистор можно назвать переключателем силы тока (on/off), который под воздействием управляющего сигнала (тока или напряжения), либо пропускает основной сигнал, либо нет.

Сангсик задает вопрос: а что является аналогом для переключения напряжения? И готового ответа, оказывается, нет. Но ясно, что подобное устройство является своего рода комбинацией переноса воздействия через конденсатор, поэтому он предлагает назвать его trancitor (transfer + capacitor, условно, трансатор), и, в некотором смысле, его можно назвать инверсией транзистора.

Далее он описывает (теоретически) возможные свойства такого устройства и, как оно вписывается в сущестующие микросхемы (на уровне логики). Вписывается замечательно, потому что позволяет существенно снизить количество участвующих устройств (в работе приводится пример замены схемы из четырех транзисторов на транзистор + трансатор), повысить энергоэффективность схемы и, как следствие, продолжить миниатюризацию электроники.

Есть только одна проблема: сделать такое устройство. Сам автор исследования предлагает начать с использования эффекта Холла, однако, для этого надо научиться проектировать электронику на субатомном уровне. Это задача на несколько лет вперед. В общем, кажется, закон Мура будет еще долго жить.

https://www.technologyreview.com/s/611184/another-missing-component-could-revolutionize-electronics/ #hardware #electronics

Сама работа: https://arxiv.org/ftp/arxiv/papers/1805/1805.05842.pdf
Продолжаем тему распознавания реальности. Команда исследователей из Института Макса Планка научились восстанавливать трехмерную модель человека по монокулярному видео (посмотрите ролик). Вся схема работает в несколько шагов:
1. Сделать базовую трехмерную модель (отсканировать человека в одежде), включая скелет.
2. По видео предсказать расположение (видимых) опорных точек, перенести это на полную модель скелета, включая предсказание движений и учет ограничений.
3. Восстановить движение модели с разных точек обзора.

http://gvv.mpi-inf.mpg.de/projects/wxu/MonoPerfCap #video #analysis #ml #ai
Продолжаем рассказывать про новости Build 2018. Во второй статье я рассказываю про анонсы в Azure и ботах. Ну и приятным бонусом -- рассказ про архитектуру нашего облака от Марка Руссиновича. https://habr.com/company/microsoft/blog/359044/
Еще один кусочек будущего, в котором системы компьютерного зрения понимают мир вокруг и могут перевести его в нужный для человека формат. Группа исследователей из Калтеха и Университета Южной Калифорнии используют Hololens, чтобы динамично анализировать пространство вокруг слепого человека и для распознанных объектов (от стен до предметов интерьера) давать человеку аудио-подсказки в виде звуков (что-то похожее не белый шум от стен) или названий ("стул"). За счет пространственного звучания устройство также может давать аудио-подсказки: например, "следуй за мной" звучит впереди человека, позволяя ему действительно следовать за звуком. https://techcrunch.com/2018/05/29/hololens-acts-as-eyes-for-blind-users-and-guides-them-with-audio-prompts/ #mr #audio #accessibility
Хороших размеченных датасетов мало не бывает. Команда исследователей из Facebook, DigitalGlobe и MIT (и других университетов) запустила соревнование DeepGlobe Satellite Challenge по анализу спутниковых снимков поверхности земли. Участникам предлагается автоматизировать выделение трех типов информации: дорожная сеть, строения и использование земли.

Чтобы вам было проще обучать сеточки, организаторы предоставили три достаточно больших размеченных датасата: 9000 изображений с маской дорог, 24000 изображений с полигонами зданий и 1000 изображений с сегментированными масками типов земли/поверхности.

https://www.technologyreview.com/s/611198/the-machine-vision-challenge-to-better-analyze-satellite-images-of-earth/ #ai #ml #dataset #image #segmentation
The Art of Instagram Captions: Writing Engaging and Authentic Descriptions