Quantum Quintum

Новый пример использования готовых кирпичиков AI-сервисов (вместо создания технологии с нуля): BBC планирует использовать в iPlayer наши когнитивные сервисы, чтобы распознавать пользователя по голосу и произнесенной фразе (вместо логина/пароля). И, как следствие, на будущее прорабатываются возможности голосового управления интерфейсом. http://www.bbc.co.uk/blogs/internet/entries/ea9e1c3b-d588-4ff8-bfd0-3685bdcba456 #ai #voice #recognition

196 views06:37

Quantum Quintum

Будущее из фильма "Она" (не путать с "Оно") все ближе. Google и Bose договорились, что в обновленной версии наушников QC35 будет встроен Google Assistant, это примерно то, о чем Google намекала на последнем IO, представив соответствующий SDK. Отдельный, конечно, вопрос — это privacy, то есть наличие или отсутствие гарантий того, что подобные решения не используют аудио-контекст (например, голос), для подстройки рекламы и т.п. (я ж не говорю о шпионском потенциале :). https://www.engadget.com/2017/09/21/bose-qc35-headphones-google-assistant/ #headphones #ai #assistant #voice

Engadget

Google Assistant is definitely part of Bose's new QC35 headphones

Bose introduced a new QC35 model and a pair of wire-free Bluetooth earbuds.

164 viewsedited 16:57

Quantum Quintum

Неожиданная ниша для AI, которая еще несколько лет назад казалась фантастикой из-за недоразвитости технологий, а уже завтра может встать на поток в медиа-индустрии.

Стартап Voicery, поддержанный Y-Combinator, предлагает компаниям сформировать свой уникальный (сгенерированный) голос, который будет дополнением к общему бренду.

Почему это интересно компаниям? Потому что такой голос можно использовать во внешних коммуникациях, он всегда будет один и тот же и не требует дополнительных контактов с человеческим носителем (со всеми вытекающими в виде зависимости от поведения того или иного персонажа). Конечно, есть тонкость в том, что (пока) для изначальной генерации голоса все же требуется "живой" образец, скажем, нанятый вами актер.

Помимо атрибута бренда у таких технологий есть еще несколько перспективных ниш. Первая — это возможность актерам или дикторам "сдавать" в аренду свой голос. Представьте, что вы могли бы купить 5 минут голосом вашего любимого артиста/певца/оратора и т.п., например, чтобы озвучить мультфильм? Вторая — это возможность "продлить" жизнь узнаваемым гососам, в том числе после смерти актера. Ну и третья — это, конечно, всевозможные фейки, пранкерство и т.п.

https://www.fastcodesign.com/90166206/the-future-of-branding-synthetic-voices-that-sound-100-human #ai #voice

Fast Company

AI Is Giving Brands Eerily Human Voices

The Y Combinator-backed startup Voicery uses AI to develop bespoke, synthetic voices for brands.

492 views06:02

Quantum Quintum

В Guardian вышла очень крутая новость. Это просто неимоверно круто. Я как-то около года назад ходил со схожей идеей, рассказывал коллегам, что у них связки, язык и т.п. шевелятся, а мышцы напрягаются, когда они говорят про себя (удивительно, но не все про это догадываются!). И что, в теории это все можно померить, обучить сеточку и использовать как ввод.

Но если я просто ходил с идеей (сейчас расскажу, почему это круто), то тут прямо уже работающий прототип. Ребята крутые. Не знаю, что там с патентами, но если вы хотите делать что-то железячное, про ИИ и нейроинтерфейсы, то это вот прямо очень горячий пирожок. Хватай и делай. Да, много вопросов: как сделать sexy, чтобы как у Apple, как сделать адаптивным, мультиязычным и т. п. Но это будет огромный рынок.

Во всей истории с голосовым интерфейсами, будь то ассистенты, умные колонки, общение по скайпу или мультиплеер в игре, есть огромная дыра в UX. Имя этой дыре: необходимость говорить публично голосом. Мало того, что многие этого просто не могу это делать, ещё больше людей оказываются скованными от такого опыта сиюминутными ограничениями. От не хочется шуметь до стесняюсь говорить вслух. От очень личного до совершенное секретного. Да что там многие. Все!

Да, я тут умалчиваю о рекламных, шпионских и военных применениях. Speechless - это будущее голосового рынка. https://www.theguardian.com/technology/2018/apr/06/researchers-develop-device-that-can-hear-your-internal-voice #speechless #ai #interface #voice #silent #speech

Научная статья от авторов: https://dam-prod.media.mit.edu/x/2018/03/23/p43-kapur_BRjFwE6.pdf

the Guardian

Researchers develop device that can 'hear' your internal voice

New headset can listen to internal vocalisation and speak to the wearer while appearing silent to the outside world

555 views19:46

Quantum Quintum

Полезное и познавательное про голоса в голове. Rébecca Kleinberger из MIT Media Lab рассказывает о различиях между тремя типами "голосов", которые сливаются в нашей голове: внешние голоса (outward voice), собственный голос (inward voice) и внутренний голос (inner voice).

Разделение в данном случае механическое. Например, внешний и собственный голоса мы воспринимаем через разные системы, поэтому собственный голос в записи мы слышим иначе, чем воспринимаем его при говорении, когда звук проходит через кости. Эта разница может давать эффект неприятия: наш голос в записи нам кажется непривычным, и может даже вовсе не нравиться. Внутренний голос невербализуем, но мы его также "слышим". И вот это "слышим" иногда становится проблемой, если в силу тех или иных заболеваний мы теряем способность различать источники голоса (такое, в частности, случается при шизофрении).

Почему это все важно для IT?
1. В экстремальных случаях (при той же шизофрении), если мы сможем помочь пациенту четко дифференциировать источник голоса, это может стать частью лечения. Сегодня в том же MIT уже учатся считывать тот самый внутренний голос. Я писал об этом ранее.
2. Мы пока не понимаем, что случится с нашим сознанием и какие могут быть отклонения, если в наушнике или окружающем пространстве поселится еще один голос цифрового помощника (Alexa, Siri, Cortana, Alisa и т.п.).

p.s. В выступлении еще вскользь рассказывается о разных "веселых" возможностях анализа голоса вроде определения депрессии, беременности и отношения к тем или иным людям. Условно, активная колонка у вас дома потенциально может не только различать голоса, но и построить граф отношений и даже предсказать расширение семейства. А уж что там с этими данными будет делать большой брат, отдельный вопрос.

https://www.ted.com/talks/rebecca_kleinberger_our_three_voices/ #voice #recognition #inner

Ted

Why you don't like the sound of your own voice

Your voice is indistinguishable from how other people see you, but your relationship with it is far from obvious. Rébecca Kleinberger studies how we use and understand our voices and the voices of others. She explains why you may not like the sound of your…

450 views10:16

Quantum Quintum

Если вы смотрели Google IO или просто следили за новостями, навряд ли мимо вас прошла тема с Google Duplex (потрясающая демонстрация, когда цифровой помощник звонит в парикмахерскую или ресторан, чтобы забронировать стрижку или столик для своего клиента, общаясь при этом весьма человечным голосом).

Надо отметить, что Google не единственная компания, которая копает в эту сторону (чего уж там!), поэтому отсылки ниже, хотя и относятся к этому примеру как самому яркому за последнее время, носят обобщающий характер, применимый и к Microsoft, и к Amazon и десятку другому крупных компаний и разного размера стартапов.

Сразу после презентации в очередной раз возникла волна обсуждений этичности всего происходящего, потому что будущее, в котором массово доступна технология неотличимой от человеческой синтезированной речи с голосом известного человека, — это страшноватое будущее, в котором на каждый позитивный сценарий в голове сразу вылезает десяток негативных.

Chris Noessel пишет о том, почему так происходит и что с этим всем делать. Ключевой момент в том, что такая технология сегодня (и еще долго, потому что сильного AI как не было, так и не предвидится пока что) попадает в так называемую зловещую долину. Зловещая долина — это когда технология достигла такого уровня человекоподобия, что мы начинаем хотеть ее воспринимать именно как человека, но в этот момент в ней обнаруживаются какие-то мелкие отклонения, которые разворачивают нашу интерпретацию в сторону совершенно нездорового человека, что вызывает отторжение. Грубо говоря, если бы в любом из озвученных скриптов что-то пошло не так (а наверняка были и такие, просто нам их не показали), то у человека на том конце возникло бы ощущение, что с ним говорит какой-то ненормальный человек (непонимающий, неслышащий, заучивший скрипт, тупой и т.п.).

Исходя из этого и общего понимания опасности технологии Крис предлагает остановиться. Не в смысле развития технологии, а в смысле не падать в эту плоскость, но для этого вместо мимикрии под человека надо договориться, что мы делаем человеко-подобное. Применительно к голосу это означает две вещи:
1) Во всех таких коммуникациях машина должна сообщать явно, что она машина. И у нее должен быть план Б, если человек не хочет или не может говорить с машиной.
2) Не надо пытаться сделать неотличимую от человеческой речь. Речь должна явно показывать, что она синтезирована. Она не обязана быть топорной, с механической нарезкой звуков и т.п., она вполне может быть плавной, но не человеческой. Например, она может быть мультяшной по своим интонациям. Главное, чтобы человеку было комфортно ее слушать, но он каждый момент понимал, что с ним говорит не человек.

И вот это, последнее, тот еще вызов для проектировщиков таких систем. Повторить человека кажется в чем-то даже проще.

https://uxdesign.cc/the-canny-rise-a-ux-pattern-921e400b26ed #ai #human #uncannyvalley #voice

UX Collective

Google Duplex and the canny rise: a UX pattern

Given recent events, it looks like it’s time in the grand evolutionary arc of technology to establish this as a pattern.

385 views14:55

About

Blog

Apps

Platform