Про аудио-измерение AR/MR/VR. Я уже несколько раз писал о том, что spatial audio (пространственный звук) в опыте погружения в любую реальность не менее важно, чем видео канал. Вот еще один взгляд на это от Bilboard в контексте запуска Pixel Buds от Google. По началу может показаться, что речь идет просто о более удобном формфакторе: сделали вкладыши беспроводными, значит не нужно путаться в проводах, плюс получили "цифровой" звук по bluetooth. Но тут же оказывается, что в дополнение идет подавление звука (noise canceling), позволяющее в нужной пропорции фильтровать или смешивать внешние и подаваемые звуки, плюс микрофон для общения. И вот в этом миксе появляются фантастические (ранее) идеи о том, что можно "дополнять" или изменять звуковую картину вокруг. Хотите слышать шумы, но чуть потише? Пожалуйста. Хотите отфильтровать в метро звук колес? Давайте попробуем. Хотите смешать звук на концерте с более "чистым" звучанием? Почему бы и нет. Сюда же все идеи перевода на лету, подстройки музыки под ритм бега и т.п. Большая тема, в общем! :) www.billboard.com/articles/business/7998347/how-augmented-reality-audio-soundtrack-your-life #ar #mr #vr #audio #spatial
Billboard
How Augmented Reality Audio Will Let You Soundtrack Your Life
It’s easy to grasp how users will see AR content through screens, and later glasses, but how will they hear augmented reality?
Инструкция от наших коллег по использованию DSVM (Data Science Virtual Machine в Azure) в обучении нейронной сети для обработки аудио-информации. От использования быстрого преобразования Фурье для фичеризации потока и генерации спектрограмм до обучения CNN (на базе CNTK или TensorFlow). https://blogs.technet.microsoft.com/machinelearning/2018/01/30/hearing-ai-getting-started-with-deep-learning-for-audio-on-azure/ #ai #audio
p.s. Jupiter-ноутбуки на Github: https://github.com/Azure/DataScienceVM/tree/master/Tutorials/DeepLearningForAudio
p.s. Jupiter-ноутбуки на Github: https://github.com/Azure/DataScienceVM/tree/master/Tutorials/DeepLearningForAudio
GitHub
Azure/DataScienceVM
Tools and Docs on the Azure Data Science Virtual Machine (http://aka.ms/dsvm) - Azure/DataScienceVM
2. Как на счет обработки audio-информации (например, команд) в браузере? Boris Smus из Google рассказывает, как на базе библиотеки deeplearn.js (от команды Google Brain) построить CNN для обработки аудио-команд: от извлечения фич на базе WebAudio API до хранения обученной модели в IndexedDB.
Статья #1 (про извлечение фич и генерацию спектрограмм): https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
Статья #2 (про обучение и распознавание команд): https://towardsdatascience.com/web-based-voice-command-recognition-58a9bb1ec8db
Исходный код: https://github.com/google/web-audio-recognition/tree/master/audio-features
#ai #ml #web #audio
Статья #1 (про извлечение фич и генерацию спектрограмм): https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
Статья #2 (про обучение и распознавание команд): https://towardsdatascience.com/web-based-voice-command-recognition-58a9bb1ec8db
Исходный код: https://github.com/google/web-audio-recognition/tree/master/audio-features
#ai #ml #web #audio
Towards Data Science
Audio features for web-based ML
One of the first problems presented to students of deep learning is to classify handwritten digits in the MNIST dataset. This was recently…
Интересная новость из мира дополненной реальности. Bose также входит на этот рынок, выпуская очки дополненной реальности. Но! Это не то, о чем большинство могло бы подумать, вспоминая Google Glass и другие похожие проекты. Bose специализируется на аудио, поэтому это очки для дополненной звуковой реальности.
Интересно также, что очки — это просто прототип реализации, а сама компания целится в платформенную историю с амбицией сделать именно Audio AR платформу. Помимо работы с аудио-информацией платформа также учитывает сигналы от сенсоров движения головы (например, для управления жестами) и работает с локационными сервисами подключенного смартфона (например, данными GPD). Желающие могут подать заявку на ранний доступ к SDK для Bose AR.
https://www.theverge.com/circuitbreaker/2018/3/9/17100410/bose-ar-platform-audio-augmented-reality-glasses-headphones-sxsw #audio #AR #platform
Интересно также, что очки — это просто прототип реализации, а сама компания целится в платформенную историю с амбицией сделать именно Audio AR платформу. Помимо работы с аудио-информацией платформа также учитывает сигналы от сенсоров движения головы (например, для управления жестами) и работает с локационными сервисами подключенного смартфона (например, данными GPD). Желающие могут подать заявку на ранний доступ к SDK для Bose AR.
https://www.theverge.com/circuitbreaker/2018/3/9/17100410/bose-ar-platform-audio-augmented-reality-glasses-headphones-sxsw #audio #AR #platform
The Verge
Bose is developing augmented reality glasses with a focus on sound
“The world’s first audio augmented reality platform”
Я уже как-то писал про движение Bose в сторону аудио-дополненной реальности, включая выпуск специальных очков со встроенными динамиками. Одно из самых очевидных применений подобных технологий — это туры по городам. Поэтому не удивительно, что Bose пошла в это направление, прикупив наработки стартапа Detour.
TechCrunch пишет немного о странностях данной покупки. Detour взлетел в 2015 году с гидами по Сан-Франциско, выпустив интерактивные туры по городу, привязанные к гео-локациям. Внутри команда Detour не просто готовила нарезку аудио-фрагментов и делала мобильные приложения для персональных гидов, но и сделала специальные инструменты для подготовки таких гидов. Одна из наработок - инструмент для редактирования аудио-фрагментов через транскрибированные тексты, которая в конечном счете вылилась в новый стартап - Descript.
В общем, Bose оказалась как раз вовремя заинтересованной в контенте для своей новой платформы Bose AR и выкупила у основателей Detour гиды и часть тулинга. А команда последнего продолжила независимо заниматься развитием Descript.
Почему это интересно?
1. Пока основной фокус индустрии крутится вокруг зрительного канала, много интересного происходит в остальных направлениях - дополнение аудио, запахов, ощущений и т.п. Мне кажется, тут огромный потенциал сам по себе, не говоря уже о том, что AR/MR, без этих каналов, будет неполноценной.
2. С точки зрения стартап-индустрии, эта история является хорошей иллюстрации паттерна перехода от узкого интереса к более массовому рынку. Команда начала с узкой собственной боли: как готовить аудио-гиды быстрее. Для этого они сделали простой тулинг, позволяющий редактировать аудио через текст. Дальше оказалось, что эта потребность расширяется и на другие ниши - подкасты, аудио-версии статей, расшифровка интервью и т.п. В этот момент команда решила полностью сконцентрироваться на самом тулинге, а не конечном продукте.
https://techcrunch.com/2018/04/24/bose-acquires-andrew-masons-walking-tour-startup-detour/
#audio #ar #mr #tooling
TechCrunch пишет немного о странностях данной покупки. Detour взлетел в 2015 году с гидами по Сан-Франциско, выпустив интерактивные туры по городу, привязанные к гео-локациям. Внутри команда Detour не просто готовила нарезку аудио-фрагментов и делала мобильные приложения для персональных гидов, но и сделала специальные инструменты для подготовки таких гидов. Одна из наработок - инструмент для редактирования аудио-фрагментов через транскрибированные тексты, которая в конечном счете вылилась в новый стартап - Descript.
В общем, Bose оказалась как раз вовремя заинтересованной в контенте для своей новой платформы Bose AR и выкупила у основателей Detour гиды и часть тулинга. А команда последнего продолжила независимо заниматься развитием Descript.
Почему это интересно?
1. Пока основной фокус индустрии крутится вокруг зрительного канала, много интересного происходит в остальных направлениях - дополнение аудио, запахов, ощущений и т.п. Мне кажется, тут огромный потенциал сам по себе, не говоря уже о том, что AR/MR, без этих каналов, будет неполноценной.
2. С точки зрения стартап-индустрии, эта история является хорошей иллюстрации паттерна перехода от узкого интереса к более массовому рынку. Команда начала с узкой собственной боли: как готовить аудио-гиды быстрее. Для этого они сделали простой тулинг, позволяющий редактировать аудио через текст. Дальше оказалось, что эта потребность расширяется и на другие ниши - подкасты, аудио-версии статей, расшифровка интервью и т.п. В этот момент команда решила полностью сконцентрироваться на самом тулинге, а не конечном продукте.
https://techcrunch.com/2018/04/24/bose-acquires-andrew-masons-walking-tour-startup-detour/
#audio #ar #mr #tooling
TechCrunch
Bose acquires Andrew Mason’s walking tour startup, Detour
Groupon founder Andrew Mason’s audio tour startup Detour has been sold to Bose. The acquisition, which involves only the software and tour content — not the team — was quietly announced on Detour’s blog a few days ago, followed by an email to customers. Bose…
Еще один кусочек будущего, в котором системы компьютерного зрения понимают мир вокруг и могут перевести его в нужный для человека формат. Группа исследователей из Калтеха и Университета Южной Калифорнии используют Hololens, чтобы динамично анализировать пространство вокруг слепого человека и для распознанных объектов (от стен до предметов интерьера) давать человеку аудио-подсказки в виде звуков (что-то похожее не белый шум от стен) или названий ("стул"). За счет пространственного звучания устройство также может давать аудио-подсказки: например, "следуй за мной" звучит впереди человека, позволяя ему действительно следовать за звуком. https://techcrunch.com/2018/05/29/hololens-acts-as-eyes-for-blind-users-and-guides-them-with-audio-prompts/ #mr #audio #accessibility
TechCrunch
HoloLens acts as eyes for blind users and guides them with audio prompts
Microsoft's HoloLens has an impressive ability to quickly sense its surroundings, but limiting it to displaying emails or game characters on them would show a lack of creativity. New research shows that it works quite well as a visual prosthesis for the vision…
Я много пишу про звуковую дополненную реальность. Вот еще два кирпичика в тему:
По слухам, Apple работает над наушниками AirPods с шумо-подавлением.
Почему это важно:
1) Маленький носимый беспроводной формат, в котором можно "менять" звуковую составляющую реальности, то есть гасить ненужные шумы/звуки (например, от транспорта) и повышать или добавлять нужные (например, навигацию в городе).
2) Маркетинг Apple в связке с качеством может вывести продукт в массы, в том числе в связке с картами и ARKit.
https://www.theverge.com/circuitbreaker/2018/6/25/17500490/apple-airpods-noise-cancellation-2019-over-ear-headphones-homepod
Amazon сделал специальную версию Alexa для отелей.
Соответственно, в вашей следующей комнате отеля может появиться колонка Echo, фактически, заменяющая стандартный телефон для связи с ресепшеном (заказ уборки, напоминалки, и т.п.) + управление разными объектами (освещение, кондиционер, жалюзи и т.п.).
Почему это интересно:
1) Это логичный следующий шаг в распространении сервиса от Amazon. Ведь туда же можно подключать музыку, доставку и т.п. + Канал для рекламы.
2) Для параноиков и лиц, озабоченных собственной приватностью, это визуализированный и опредмеченный вопрос: "а вот эта штука в моей приватной комнате меня записывает?"
https://www.theverge.com/2018/6/19/17476688/amazon-alexa-for-hospitality-announced-hotels-echo
#audio #AR
По слухам, Apple работает над наушниками AirPods с шумо-подавлением.
Почему это важно:
1) Маленький носимый беспроводной формат, в котором можно "менять" звуковую составляющую реальности, то есть гасить ненужные шумы/звуки (например, от транспорта) и повышать или добавлять нужные (например, навигацию в городе).
2) Маркетинг Apple в связке с качеством может вывести продукт в массы, в том числе в связке с картами и ARKit.
https://www.theverge.com/circuitbreaker/2018/6/25/17500490/apple-airpods-noise-cancellation-2019-over-ear-headphones-homepod
Amazon сделал специальную версию Alexa для отелей.
Соответственно, в вашей следующей комнате отеля может появиться колонка Echo, фактически, заменяющая стандартный телефон для связи с ресепшеном (заказ уборки, напоминалки, и т.п.) + управление разными объектами (освещение, кондиционер, жалюзи и т.п.).
Почему это интересно:
1) Это логичный следующий шаг в распространении сервиса от Amazon. Ведь туда же можно подключать музыку, доставку и т.п. + Канал для рекламы.
2) Для параноиков и лиц, озабоченных собственной приватностью, это визуализированный и опредмеченный вопрос: "а вот эта штука в моей приватной комнате меня записывает?"
https://www.theverge.com/2018/6/19/17476688/amazon-alexa-for-hospitality-announced-hotels-echo
#audio #AR
The Verge
Apple reportedly working on noise-canceling AirPods for 2019 release
Along with a pair of previously rumored over-ear headphones
Небольшая важная новость. Я как-то пропустил, а оказывается HTC Vive анонсировала 3DSP audio SDK для работы с пространственным звуком. Внутри много облегчающего жизнь рабработчиков VR (если, конечно, вы хотите создать по-настоящему погружающий опыт ;).
https://www.vrfocus.com/2018/06/htc-vive-introduce-spatial-audio-sdk/
#vr #spatial #audio
https://www.vrfocus.com/2018/06/htc-vive-introduce-spatial-audio-sdk/
#vr #spatial #audio
VRFocus
HTC Vive Introduce Spatial Audio SDK
HTC Vive offer developers a new software development kit to make developing immersive audio easier.