Quantum Quintum
1.63K subscribers
330 photos
7 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
Про аудио-измерение AR/MR/VR. Я уже несколько раз писал о том, что spatial audio (пространственный звук) в опыте погружения в любую реальность не менее важно, чем видео канал. Вот еще один взгляд на это от Bilboard в контексте запуска Pixel Buds от Google. По началу может показаться, что речь идет просто о более удобном формфакторе: сделали вкладыши беспроводными, значит не нужно путаться в проводах, плюс получили "цифровой" звук по bluetooth. Но тут же оказывается, что в дополнение идет подавление звука (noise canceling), позволяющее в нужной пропорции фильтровать или смешивать внешние и подаваемые звуки, плюс микрофон для общения. И вот в этом миксе появляются фантастические (ранее) идеи о том, что можно "дополнять" или изменять звуковую картину вокруг. Хотите слышать шумы, но чуть потише? Пожалуйста. Хотите отфильтровать в метро звук колес? Давайте попробуем. Хотите смешать звук на концерте с более "чистым" звучанием? Почему бы и нет. Сюда же все идеи перевода на лету, подстройки музыки под ритм бега и т.п. Большая тема, в общем! :) www.billboard.com/articles/business/7998347/how-augmented-reality-audio-soundtrack-your-life #ar #mr #vr #audio #spatial
Инструкция от наших коллег по использованию DSVM (Data Science Virtual Machine в Azure) в обучении нейронной сети для обработки аудио-информации. От использования быстрого преобразования Фурье для фичеризации потока и генерации спектрограмм до обучения CNN (на базе CNTK или TensorFlow). https://blogs.technet.microsoft.com/machinelearning/2018/01/30/hearing-ai-getting-started-with-deep-learning-for-audio-on-azure/ #ai #audio

p.s. Jupiter-ноутбуки на Github: https://github.com/Azure/DataScienceVM/tree/master/Tutorials/DeepLearningForAudio
2. Как на счет обработки audio-информации (например, команд) в браузере? Boris Smus из Google рассказывает, как на базе библиотеки deeplearn.js (от команды Google Brain) построить CNN для обработки аудио-команд: от извлечения фич на базе WebAudio API до хранения обученной модели в IndexedDB.

Статья #1 (про извлечение фич и генерацию спектрограмм): https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae

Статья #2 (про обучение и распознавание команд): https://towardsdatascience.com/web-based-voice-command-recognition-58a9bb1ec8db

Исходный код: https://github.com/google/web-audio-recognition/tree/master/audio-features

#ai #ml #web #audio
Интересная новость из мира дополненной реальности. Bose также входит на этот рынок, выпуская очки дополненной реальности. Но! Это не то, о чем большинство могло бы подумать, вспоминая Google Glass и другие похожие проекты. Bose специализируется на аудио, поэтому это очки для дополненной звуковой реальности.

Интересно также, что очки — это просто прототип реализации, а сама компания целится в платформенную историю с амбицией сделать именно Audio AR платформу. Помимо работы с аудио-информацией платформа также учитывает сигналы от сенсоров движения головы (например, для управления жестами) и работает с локационными сервисами подключенного смартфона (например, данными GPD). Желающие могут подать заявку на ранний доступ к SDK для Bose AR.

https://www.theverge.com/circuitbreaker/2018/3/9/17100410/bose-ar-platform-audio-augmented-reality-glasses-headphones-sxsw #audio #AR #platform
Я уже как-то писал про движение Bose в сторону аудио-дополненной реальности, включая выпуск специальных очков со встроенными динамиками. Одно из самых очевидных применений подобных технологий — это туры по городам. Поэтому не удивительно, что Bose пошла в это направление, прикупив наработки стартапа Detour.

TechCrunch пишет немного о странностях данной покупки. Detour взлетел в 2015 году с гидами по Сан-Франциско, выпустив интерактивные туры по городу, привязанные к гео-локациям. Внутри команда Detour не просто готовила нарезку аудио-фрагментов и делала мобильные приложения для персональных гидов, но и сделала специальные инструменты для подготовки таких гидов. Одна из наработок - инструмент для редактирования аудио-фрагментов через транскрибированные тексты, которая в конечном счете вылилась в новый стартап - Descript.

В общем, Bose оказалась как раз вовремя заинтересованной в контенте для своей новой платформы Bose AR и выкупила у основателей Detour гиды и часть тулинга. А команда последнего продолжила независимо заниматься развитием Descript.

Почему это интересно?
1. Пока основной фокус индустрии крутится вокруг зрительного канала, много интересного происходит в остальных направлениях - дополнение аудио, запахов, ощущений и т.п. Мне кажется, тут огромный потенциал сам по себе, не говоря уже о том, что AR/MR, без этих каналов, будет неполноценной.
2. С точки зрения стартап-индустрии, эта история является хорошей иллюстрации паттерна перехода от узкого интереса к более массовому рынку. Команда начала с узкой собственной боли: как готовить аудио-гиды быстрее. Для этого они сделали простой тулинг, позволяющий редактировать аудио через текст. Дальше оказалось, что эта потребность расширяется и на другие ниши - подкасты, аудио-версии статей, расшифровка интервью и т.п. В этот момент команда решила полностью сконцентрироваться на самом тулинге, а не конечном продукте.

https://techcrunch.com/2018/04/24/bose-acquires-andrew-masons-walking-tour-startup-detour/
#audio #ar #mr #tooling
Еще один кусочек будущего, в котором системы компьютерного зрения понимают мир вокруг и могут перевести его в нужный для человека формат. Группа исследователей из Калтеха и Университета Южной Калифорнии используют Hololens, чтобы динамично анализировать пространство вокруг слепого человека и для распознанных объектов (от стен до предметов интерьера) давать человеку аудио-подсказки в виде звуков (что-то похожее не белый шум от стен) или названий ("стул"). За счет пространственного звучания устройство также может давать аудио-подсказки: например, "следуй за мной" звучит впереди человека, позволяя ему действительно следовать за звуком. https://techcrunch.com/2018/05/29/hololens-acts-as-eyes-for-blind-users-and-guides-them-with-audio-prompts/ #mr #audio #accessibility
Я много пишу про звуковую дополненную реальность. Вот еще два кирпичика в тему:

По слухам, Apple работает над наушниками AirPods с шумо-подавлением.
Почему это важно:
1) Маленький носимый беспроводной формат, в котором можно "менять" звуковую составляющую реальности, то есть гасить ненужные шумы/звуки (например, от транспорта) и повышать или добавлять нужные (например, навигацию в городе).
2) Маркетинг Apple в связке с качеством может вывести продукт в массы, в том числе в связке с картами и ARKit.
https://www.theverge.com/circuitbreaker/2018/6/25/17500490/apple-airpods-noise-cancellation-2019-over-ear-headphones-homepod

Amazon сделал специальную версию Alexa для отелей.
Соответственно, в вашей следующей комнате отеля может появиться колонка Echo, фактически, заменяющая стандартный телефон для связи с ресепшеном (заказ уборки, напоминалки, и т.п.) + управление разными объектами (освещение, кондиционер, жалюзи и т.п.).

Почему это интересно:
1) Это логичный следующий шаг в распространении сервиса от Amazon. Ведь туда же можно подключать музыку, доставку и т.п. + Канал для рекламы.
2) Для параноиков и лиц, озабоченных собственной приватностью, это визуализированный и опредмеченный вопрос: "а вот эта штука в моей приватной комнате меня записывает?"
https://www.theverge.com/2018/6/19/17476688/amazon-alexa-for-hospitality-announced-hotels-echo

#audio #AR
Небольшая важная новость. Я как-то пропустил, а оказывается HTC Vive анонсировала 3DSP audio SDK для работы с пространственным звуком. Внутри много облегчающего жизнь рабработчиков VR (если, конечно, вы хотите создать по-настоящему погружающий опыт ;).

https://www.vrfocus.com/2018/06/htc-vive-introduce-spatial-audio-sdk/

#vr #spatial #audio
The Art of Tweeting: Crafting Engaging and Shareable Content on Twitter