Quantum Quintum
1.63K subscribers
330 photos
7 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
Коллеги вместе с O'Reilly опубликовали бесплатную книжку: A Developer’s Guide to Building AI Applications. Налетай!

Внутри:
* Understand how the intersection of cloud, data, and AI is enabling organizations to build intelligent systems.
* Learn the tools, infrastructure, and services available as part of the Microsoft AI Platform for developing AI applications.
* Teach the Conference Buddy application new AI skills, using pre-built AI capabilities such as vision, translation, and speech.
* Learn about the Open Neural Network Exchange.

https://blogs.technet.microsoft.com/machinelearning/2018/06/04/free-e-book-a-developers-guide-to-building-ai-applications/ #ai #ml #book
Футбольное, пятнично-субботнее: Chintan Trivedi рассказывает, как использовать обучение с подкреплением, чтобы научить бота забивать угловые в FIFA2018. https://towardsdatascience.com/using-deep-q-learning-in-fifa-18-to-perfect-the-art-of-free-kicks-f2e4e979ee66 #ai #ml #sport #esport
Еще футбола! Помните, я тут выше писал про восстановление (реконструкцию) 3D-сцены по 2D-съемки? Группа исследователей из университета Вашингтона (+Google, +Facebook) сделали еще один шаг в этом направлении:
* взяли ролики игры в FIFA2017
* обучили сеточки распознавать поле, игроков и т.п.
* транслировали движения фигур в движения скелетов и карты глубины
* реконструировали игру в 3D
* перевели сцену в MR (Hololens)

А теперь представьте, что вы можете смотреть чемпионат мира по футболу на своем столе в 3D, как будто у вас на поверхности стола копия футбольного поля, вокруг которой вы можете ходить, приближаться и т.п.

http://www.i-programmer.info/news/190-augmentedvirtual-reality-arvr/11868-watch-soccer-games-in-3d-on-your-table-top-.html

Детали и публикация: https://arxiv.org/pdf/1806.00890.pdf

#ai #ml #mr #vision
Сегодня пара ссылок про генерацию графики.

Начнем с NVidia. Исследователи компании натренировали сеточки для генерации недостающих кадров для создания супер-медленного видео. В итоге видео в 30fps становится замедленным видео в 240fps. Хотя, в принципе, с некоторых смартфонов можно снимать видео со схожей частотой кадров, AI-решение, как говорят ученые, позволяет 1) обрабатывать существующие видео и 2) получить удовлетворительный результат, не тратя ценное место и вычислительные мощности на стороне смартфона.

Кажется, сценарий из фильмов с анализом кадров из съемки в духе "ну-ка замедли этот фрагмент" становится вполне реалистичным.

Обзор на The Verge: https://www.theverge.com/2018/6/19/17478110/fake-slow-motion-ai-nvidia-research
Технические детали: https://arxiv.org/pdf/1712.00080.pdf

#ai #image #video #generation
Вторая история — от исследователей из Microsoft и китайского Института науки и технологий о том, как генерировать изображения человеческих лиц. Фактически, команда научилась разделять идентичность (identity), специфичные свойства конкретного лица, и атрибуты, переносимые параметры вроде эмоции. На стыке получается делать трансформацию исходного лица в нужное состояние.

Мне тут видятся также большие перспективы как с точки зрения биометрии, так и с точки зрения консьюмерских применений вроде генерации аватаров и реалистичных изображений в кино и играх. Ну и еще один кирпичик в области фейкового контента, конечно.

https://www.microsoft.com/en-us/research/blog/believing-is-seeing-insightful-research-illuminates-the-newly-possible-in-the-realm-of-natural-and-synthetic-images/ #ai #image #face #generation
Несколько интересных размышлений на тему технологий.

Первое - от Justin Lee в TheStarup о том, что с чатботами что-то пошло не так. Два года назад про них говорили, как "the next big thing", но этого явно не случилось. Почему?

Изначальный запал ожиданий объясним. Мессенджеры были на взлете, диалоговый маркетинг (conversational marketing) был новым баззвордом, успех WeChat в Китае не мог не вдохновлять. На фоне хаоса и застоя в мобильных приложениях это все казалось свежей спасительной струей.

Самый главный вопрос, который задавали в сообществе и медиа: "кто же будет игроком номер один, монополизирующим тему вокруг себя", но никак не, "будут ли чатботы успешны в принципе"?

Поэтому ответ на вопрос "будет ли единая платформа, доминирующая в экосистеме чатботов и первональных ассистентов", простой: "Нет". По крайней мере пока трудно говорить о сколь-нибудь существенной экосистеме.

Мы все попали в ловушку хайпа. Итан Блох из Digit говорит так: "Я даже не уверен, можем ли мы говорить, что чатботы мертвы, потому что я не знаю, были ли они на самом деле живы." Дейв Филдман из Heap описывает ситуацию не менее жестко: "Чатботы не просто попробовали взять какую-то одну сложную проблему и провалили ее, они замахнулись на несколько и провалили их все".

--
Ну а за деталями, как так получилось, и почему это не так уж и плохо, приглашаю в статью Джастина. (Краткий вывод: мы набили как индустрия достаточное большое число шишок, чтобы теперь последовательно внедрять чатботов там, где работает как с точки зрения технологий, так и с точки зрения адекватности сценариев.)

https://medium.com/swlh/chatbots-were-the-next-big-thing-what-happened-5fc49dd6fa61

#chatbots #ai #hype
Большая новость от Microsoft Research - коллеги запустили проект MSR Open Data, большую коллекцию готовых датасетов, которые вы можете использовать для обучения своих моделей. Всего на сегодня доступно около 50 наборов данных, разбитых на 9 категорий: от биологии до городских данных.

Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)

Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/

#ai #ml #open #data #dataset
В нескольких американских околонаучных медиа вышла новость о том, что ИИ воссоздал с нуля периодическую систему элементов. Несколько интересных моментов:
1. Группа исследователей из Стэнфорда решила проверить, что будет, если в механике word2vec заменить в учебной выборке предложения на химические формулы, рассматривая отдельные химические элементы, как слова. В результате получился проект Atom2vec. (Анонс: https://news.stanford.edu/press-releases/2018/06/25/ai-recreates-chemistrys-periodic-table-elements)

2. Как следствие, сеточка научилась самостоятельно выводить классы близости элементов, например, предсказывая, что калий и натрий - похожие по свойствам элементы, способные оброзовывать соединения с хлором. Это позволило пиарщикам раструбить мысль о воссоздании периодической системы, что, конечно, не так. Например, Менделееву в свое время хватило ума не только упорядочить известные элементы, но и предположить существование еще не открытых так, где образовывались пробелы.

3. Тем не менее, сама мысль, что простая нейронная сеть может выводить скрытые связи, близость элементов и т.п. просто по анализу существующих наблюдений, очень крута. В случае с химическими элементами сеточка смогла "вывести" наличие нескольких "свойств" атомов -- измерений в многомерных векторах, по которым можно делать группировку элементов. Например, явно выделяются кластеры щелочных и щелочноземельных металлов, или можно наблюдать корреляцию с увеличением валентности элементов. (Технические детали: http://www.pnas.org/content/early/2018/06/25/1801181115)

4. Насколько я могу судить по результатам быстрого поиска, подобные техники начали активно использоваться в том числе для предсказания возможных свойств новых соединений. Вот, например, немецкий проект Mol2vec, направленный как раз на эту задачу: https://github.com/samoturk/mol2vec (кстати, по внешним признакам, кажется, что это очень похоже на американскую работу, но не так распиарено).

5. Также это хорошо согласуется с темой векторного представления различных соединений, белковых последовательностей и т.п. + описания "отпечатков" соединений. См., например, проект Deep Proteomics: https://github.com/ehsanasgari/Deep-Proteomics

#ai #ml #chemistry #biology #genetics #deep #learning
Я уже писал про возможности трекинга тела на изображениях прямо в браузере. Теперь очередь за распознаванием лиц, определением контрольных точек и т.п.: face-api.js — библиотека для распознавания лиц на базе tensorflow.js

https://itnext.io/face-api-js-javascript-api-for-face-recognition-in-the-browser-with-tensorflow-js-bcc2a6c4cf07 #ai #ml #javascript #face
Очередное поглощение прогрессивных команд (лабораторий, стартапов) крупными компаниями: Facebook купила Bloomsbury AI из Лондона (https://www.theverge.com/2018/7/3/17531506/facebook-acquires-bloomsbury-ai-human-speech-natural-language-processing). [Для сравнения подхода - в мае Microsoft купила компанию Semantic Machines в той же нише.]

Понимание человеческого языка машинными интеллектами (NLP) — это один из ключевых барьеров в построении следующего поколения чат-ботов, цифровых ассистентов и в целом систем, понимающих человеческий контекст.

Причем сложность задачи и широта поляны таковы, что, с одной стороны, задачу очень трудно поднять самостоятельно даже таким гигантам как Google, Microsoft, Facebook, ..., — отсюда огромный запрос на поиск внешних решений, наработок, команды и т.п., а с другой, есть множество ниш, в которых можно независимо развить уникальную экспертизу (понятно, что все поглощаемые компании/лаборатории не вчера родились), так как единый универсальный ответ навряд ли возможен.

#ai #language #processing
Интересно наблюдать, как Китай (или точнее китайские компании) отстраивают шаг за шагом независимую от США AI-экосистему - свои сервисы, свои фреймворки, и свои чипсеты теперь.



Список компаний, выпускающих кастомные AI-чипсеты пополнился Baidu. Новый процессор Kunlun базируется на FPGA, подходит для использования как в дата-центрах, так и на конечных устройствах (хотя компания пока не готова к массовому производству).

Аналогично другим поисковым компаниями, Baidu ориентируется прежде всего на сценарии ранжирования, а также на интеграцию с собственным фреймворком для машинного обучения PaddlePaddle.

https://www.zdnet.com/article/baidu-creates-kunlun-silicon-for-ai/

#ai #hardware #chipset
Poppy Crum рассказывает в TED о том, как современные компьютерные устройства и сенсоры уже умеют "считывать" людей лучше самих людей, и почему это может быть как хорошо (развитие эмпатии), так и плохо (слежка, выявление скрываемых чувств и т.п.).

https://www.ted.com/talks/poppy_crum_technology_that_knows_what_you_re_feeling

#ai #emotions #sensors
Andrej Karpathy из Tesla рассказывает о новом софтверном стеке на базе автоматической оптимизации кода (сети) - Software 2.0. Про концепцию, кажется, я уже писал — идея в том, что это новый тип софта, в котором человек задает данные и критерии эффективности, а внутренняя структура и веса нейронной сети (или кода) подбираются автоматически.

Отдельный интересный вопрос отсюда, сформулированный, как открытый запрос и что-то над чем активно работают в Tesla для своих нужно, — это уславная IDE для таких задач.

https://www.figure-eight.com/building-the-software-2-0-stack-by-andrej-karpathy-from-tesla/ #ai #ml #software
Во многих сценариях создания диалоговых интерфейсов разработчики сталкиваются с одной и той же задачей: как отобразить естественные языковые запросы на API конкретных используемых сервисов? Обычно это требует разработки нескольких промежуточных слоев, включая "понимание" речи с разбором на намерения (intent) и отображение намерений на конкретные вызовы API с учетом некоторой логики (например, состояний).

Группа исследователей из Microsoft Research задается в этом контексте таким вопросом: можно ли сделать общий подход для создания NL2API — прослойки между естественными запросами и API конкретных сервисов. В работе по ссылке ниже детально описывается архитектура такого решения, использующая модульный подход, в котором каждый блок имеет свою нейронную сеть, вычленяющую нужные параметры из оргинального запроса + общий контроллер, определяющий, какие модули нужно активировать.

Подобная архитектура, как пишут исследователи, также упрощает создание интерактивных систем, позволяющих пользователям легко уточнять запросы.

Общее описание: https://www.microsoft.com/en-us/research/blog/democratizing-apis-with-natural-language-interfaces/
Публикация: https://www.microsoft.com/en-us/research/uploads/prod/2018/04/sigir18_nl2api.pdf

#ai #ml #conversational #ui
Продолжаем тему "вот еще одна крупная компания, которая делает кастомные AI-чипсеты". На этот раз очередь дошла до Tesla. Компания планирует в течение года начать переходить на собственное железо для обсчета нейронных сетей. Какими бы прекрасными не были видео-карты Nvidia, Илон обещает, что переход к реальному вычислению нейронок "в металле" должен дать порядковый прирост в вычислительной мощности.

Интересная деталь: компания шла к этому 2-3 года, постепенно формируя детальное понимание, как их нейронные сети будут эволюционировать в будущем. Тонкость ситуации в том, что обновить железо на машине гораздо сложнее, чем софт. Поэтому, если GPU, фактически, выступало как обобщенное всеядное железо, то в случае с кастомными AI-чипами обычно речь идет о достаточно жесткой заточке под конкретную структуру сети, точнее необходимые для ее исполнения вычислительные блоки.

https://techcrunch.com/2018/08/01/tesla-is-building-its-own-ai-chips-for-self-driving-cars/ #ai #hardware
Начнем сегодня с AI и генерации видео. Тут ребята из университета Berkeley развлекаются и пытаются научить людей танцевать. Точнее так: сделать перенос стилей с видео танцующего человека на подопытного пытающегося. Пока хромает в мелких деталях, но в целом трекинг скелета по контрольным точкам вполне кажется неплохим: https://www.youtube.com/watch?v=PCBTZh41Ris

Обзор на Engadget: https://www.engadget.com/2018/08/26/ai-alters-video-to-make-people-dance/ #ai #video #generation
В продолжение темы и отлично на фоне ожидаемых 11-тысячных сокращений в Microsoft:

Вчерашнее интервью Сатьи Наделлы для Wall Street Journey: https://www.youtube.com/watch?v=UNbyT7wPwk4

И сегодняшняя (прямо сейчас) дискуссия на Davos с примерное теми же тезисами и примерами, но чуть подробнее: https://www.youtube.com/watch?v=DS1sdsn7rTg

(Смотреть оба не имеет смысла, будет дежавю.)

Отмечу несколько моментов, которые MSFT озвучивает уже публично (хотя и витиевато, и не так прямолинейно, как я 😄):

💤 Экспоненциальный рост облаков/мобилки закончен, все, вышли в мачурность. Дальше только внедрения, больше внедрений. Все низкие фрукты съедены, дальше зарабатывать будут те, кто готов идти в долгие тяжелые проекты, масштабировать в длинный хвост партнерской сетью или идти прямо в какие-то нишевые истории и бизнес-модели. Глобальное окно возможностей закрыто.

🔝 Хотя ИИ стопятьсот лет, мы только-только со штуками вроде DALL*E и ChatGPT подобрались к началу экспоненциального роста, но с переходом к платформам. Не миллион кастомных сеточек сделают погоду, а миллион адаптаций и решений поверх платформ вроде ChatGPT. Конкретно для майков: вся история с ИИ — это второе дыхание для роста облаков.

🤔 Майкрософт будет перекладывать СВОЕ позеленение на плечи клиентов. Выключат ваши искбоксы, пока вы не играете. Опа, заработали себе зеленых кредитов. Заложили вам в ажурную подписку затраты углерода: теперь любая ваша экономия — это экономия Microsoft.
Please open Telegram to view this post
VIEW IN TELEGRAM
The Psychology of TikTok Duets: Analyzing Collaborative Content