Quantum Quintum
1.62K subscribers
340 photos
8 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
Новый пример использования готовых кирпичиков AI-сервисов (вместо создания технологии с нуля): BBC планирует использовать в iPlayer наши когнитивные сервисы, чтобы распознавать пользователя по голосу и произнесенной фразе (вместо логина/пароля). И, как следствие, на будущее прорабатываются возможности голосового управления интерфейсом. http://www.bbc.co.uk/blogs/internet/entries/ea9e1c3b-d588-4ff8-bfd0-3685bdcba456 #ai #voice #recognition
Будущее из фильма "Она" (не путать с "Оно") все ближе. Google и Bose договорились, что в обновленной версии наушников QC35 будет встроен Google Assistant, это примерно то, о чем Google намекала на последнем IO, представив соответствующий SDK. Отдельный, конечно, вопрос — это privacy, то есть наличие или отсутствие гарантий того, что подобные решения не используют аудио-контекст (например, голос), для подстройки рекламы и т.п. (я ж не говорю о шпионском потенциале :). https://www.engadget.com/2017/09/21/bose-qc35-headphones-google-assistant/ #headphones #ai #assistant #voice
Неожиданная ниша для AI, которая еще несколько лет назад казалась фантастикой из-за недоразвитости технологий, а уже завтра может встать на поток в медиа-индустрии.

Стартап Voicery, поддержанный Y-Combinator, предлагает компаниям сформировать свой уникальный (сгенерированный) голос, который будет дополнением к общему бренду.

Почему это интересно компаниям? Потому что такой голос можно использовать во внешних коммуникациях, он всегда будет один и тот же и не требует дополнительных контактов с человеческим носителем (со всеми вытекающими в виде зависимости от поведения того или иного персонажа). Конечно, есть тонкость в том, что (пока) для изначальной генерации голоса все же требуется "живой" образец, скажем, нанятый вами актер.

Помимо атрибута бренда у таких технологий есть еще несколько перспективных ниш. Первая — это возможность актерам или дикторам "сдавать" в аренду свой голос. Представьте, что вы могли бы купить 5 минут голосом вашего любимого артиста/певца/оратора и т.п., например, чтобы озвучить мультфильм? Вторая — это возможность "продлить" жизнь узнаваемым гососам, в том числе после смерти актера. Ну и третья — это, конечно, всевозможные фейки, пранкерство и т.п.

https://www.fastcodesign.com/90166206/the-future-of-branding-synthetic-voices-that-sound-100-human #ai #voice
В Guardian вышла очень крутая новость. Это просто неимоверно круто. Я как-то около года назад ходил со схожей идеей, рассказывал коллегам, что у них связки, язык и т.п. шевелятся, а мышцы напрягаются, когда они говорят про себя (удивительно, но не все про это догадываются!). И что, в теории это все можно померить, обучить сеточку и использовать как ввод.

Но если я просто ходил с идеей (сейчас расскажу, почему это круто), то тут прямо уже работающий прототип. Ребята крутые. Не знаю, что там с патентами, но если вы хотите делать что-то железячное, про ИИ и нейроинтерфейсы, то это вот прямо очень горячий пирожок. Хватай и делай. Да, много вопросов: как сделать sexy, чтобы как у Apple, как сделать адаптивным, мультиязычным и т. п. Но это будет огромный рынок.

Во всей истории с голосовым интерфейсами, будь то ассистенты, умные колонки, общение по скайпу или мультиплеер в игре, есть огромная дыра в UX. Имя этой дыре: необходимость говорить публично голосом. Мало того, что многие этого просто не могу это делать, ещё больше людей оказываются скованными от такого опыта сиюминутными ограничениями. От не хочется шуметь до стесняюсь говорить вслух. От очень личного до совершенное секретного. Да что там многие. Все!

Да, я тут умалчиваю о рекламных, шпионских и военных применениях. Speechless - это будущее голосового рынка. https://www.theguardian.com/technology/2018/apr/06/researchers-develop-device-that-can-hear-your-internal-voice #speechless #ai #interface #voice #silent #speech

Научная статья от авторов: https://dam-prod.media.mit.edu/x/2018/03/23/p43-kapur_BRjFwE6.pdf
Полезное и познавательное про голоса в голове. Rébecca Kleinberger из MIT Media Lab рассказывает о различиях между тремя типами "голосов", которые сливаются в нашей голове: внешние голоса (outward voice), собственный голос (inward voice) и внутренний голос (inner voice).

Разделение в данном случае механическое. Например, внешний и собственный голоса мы воспринимаем через разные системы, поэтому собственный голос в записи мы слышим иначе, чем воспринимаем его при говорении, когда звук проходит через кости. Эта разница может давать эффект неприятия: наш голос в записи нам кажется непривычным, и может даже вовсе не нравиться. Внутренний голос невербализуем, но мы его также "слышим". И вот это "слышим" иногда становится проблемой, если в силу тех или иных заболеваний мы теряем способность различать источники голоса (такое, в частности, случается при шизофрении).

Почему это все важно для IT?
1. В экстремальных случаях (при той же шизофрении), если мы сможем помочь пациенту четко дифференциировать источник голоса, это может стать частью лечения. Сегодня в том же MIT уже учатся считывать тот самый внутренний голос. Я писал об этом ранее.
2. Мы пока не понимаем, что случится с нашим сознанием и какие могут быть отклонения, если в наушнике или окружающем пространстве поселится еще один голос цифрового помощника (Alexa, Siri, Cortana, Alisa и т.п.).

p.s. В выступлении еще вскользь рассказывается о разных "веселых" возможностях анализа голоса вроде определения депрессии, беременности и отношения к тем или иным людям. Условно, активная колонка у вас дома потенциально может не только различать голоса, но и построить граф отношений и даже предсказать расширение семейства. А уж что там с этими данными будет делать большой брат, отдельный вопрос.

https://www.ted.com/talks/rebecca_kleinberger_our_three_voices/ #voice #recognition #inner
Если вы смотрели Google IO или просто следили за новостями, навряд ли мимо вас прошла тема с Google Duplex (потрясающая демонстрация, когда цифровой помощник звонит в парикмахерскую или ресторан, чтобы забронировать стрижку или столик для своего клиента, общаясь при этом весьма человечным голосом).

Надо отметить, что Google не единственная компания, которая копает в эту сторону (чего уж там!), поэтому отсылки ниже, хотя и относятся к этому примеру как самому яркому за последнее время, носят обобщающий характер, применимый и к Microsoft, и к Amazon и десятку другому крупных компаний и разного размера стартапов.

Сразу после презентации в очередной раз возникла волна обсуждений этичности всего происходящего, потому что будущее, в котором массово доступна технология неотличимой от человеческой синтезированной речи с голосом известного человека, — это страшноватое будущее, в котором на каждый позитивный сценарий в голове сразу вылезает десяток негативных.

Chris Noessel пишет о том, почему так происходит и что с этим всем делать. Ключевой момент в том, что такая технология сегодня (и еще долго, потому что сильного AI как не было, так и не предвидится пока что) попадает в так называемую зловещую долину. Зловещая долина — это когда технология достигла такого уровня человекоподобия, что мы начинаем хотеть ее воспринимать именно как человека, но в этот момент в ней обнаруживаются какие-то мелкие отклонения, которые разворачивают нашу интерпретацию в сторону совершенно нездорового человека, что вызывает отторжение. Грубо говоря, если бы в любом из озвученных скриптов что-то пошло не так (а наверняка были и такие, просто нам их не показали), то у человека на том конце возникло бы ощущение, что с ним говорит какой-то ненормальный человек (непонимающий, неслышащий, заучивший скрипт, тупой и т.п.).

Исходя из этого и общего понимания опасности технологии Крис предлагает остановиться. Не в смысле развития технологии, а в смысле не падать в эту плоскость, но для этого вместо мимикрии под человека надо договориться, что мы делаем человеко-подобное. Применительно к голосу это означает две вещи:
1) Во всех таких коммуникациях машина должна сообщать явно, что она машина. И у нее должен быть план Б, если человек не хочет или не может говорить с машиной.
2) Не надо пытаться сделать неотличимую от человеческой речь. Речь должна явно показывать, что она синтезирована. Она не обязана быть топорной, с механической нарезкой звуков и т.п., она вполне может быть плавной, но не человеческой. Например, она может быть мультяшной по своим интонациям. Главное, чтобы человеку было комфортно ее слушать, но он каждый момент понимал, что с ним говорит не человек.

И вот это, последнее, тот еще вызов для проектировщиков таких систем. Повторить человека кажется в чем-то даже проще.

https://uxdesign.cc/the-canny-rise-a-ux-pattern-921e400b26ed #ai #human #uncannyvalley #voice
Best Bluetooth Speaker Sound Quality