Quantum Quintum
1.63K subscribers
330 photos
7 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
Хороших размеченных датасетов мало не бывает. Команда исследователей из Facebook, DigitalGlobe и MIT (и других университетов) запустила соревнование DeepGlobe Satellite Challenge по анализу спутниковых снимков поверхности земли. Участникам предлагается автоматизировать выделение трех типов информации: дорожная сеть, строения и использование земли.

Чтобы вам было проще обучать сеточки, организаторы предоставили три достаточно больших размеченных датасата: 9000 изображений с маской дорог, 24000 изображений с полигонами зданий и 1000 изображений с сегментированными масками типов земли/поверхности.

https://www.technologyreview.com/s/611198/the-machine-vision-challenge-to-better-analyze-satellite-images-of-earth/ #ai #ml #dataset #image #segmentation
Хотя я не уверен, зачем вам может понадобиться анализировать позы людей по изображениям в браузере, тут ребята из Google рассказывают, как это сделать, используя TensorFlow.js и PoseNet.

Почему не уверен? Потому что все мои "очевидные" сценарии сводятся к трем: проверка фотографий до загрузки, наложение эффектов в трансляции (например, представьте себе стрим футбольного матча, в котором поверх "скелетов" футболистов накладывают какие-то эффекты) и для той же трансляции автоматическое отслеживание положения (например, в телемедицине можно автоматически анализировать удовлетворение нужному условию, ака "согните руку, поверните голову направо"). Пока ни один не кажется массовым, но вдруг? Может, быть еще что-то важное, что я упускаю?

Тем не менее! Прогресс возможностей вычисления в браузере поражает! Еще лет десять-пятнадцать назад мы только и умели, что события на кнопочки писать и делать зачатки анимации.

https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5 #ai #ml #javascript #browser
Чем может заниматья мозг евангелиста за 3.5 часа до выезда на очередное мероприятие в воскресенье ночью?
Правильно! Дописывать очередную безумную статью!

Встречайте, моя новая исповедь про будущее, коридор сингулярности (не спрашивайте!), матрицы Кипмана (почти того самого!), лаборатории антиболи (хорошо, что не наоборот!) и барьеры инертности (надеюсь, что не про вас с нами!).

https://medium.com/@kichinsky/коридор-сингулярности-матрица-кипмана-барьеры-инертности-и-лаборатории-антиболи-bf10e46b7d6b #future #foresight #matrix
Коллеги вместе с O'Reilly опубликовали бесплатную книжку: A Developer’s Guide to Building AI Applications. Налетай!

Внутри:
* Understand how the intersection of cloud, data, and AI is enabling organizations to build intelligent systems.
* Learn the tools, infrastructure, and services available as part of the Microsoft AI Platform for developing AI applications.
* Teach the Conference Buddy application new AI skills, using pre-built AI capabilities such as vision, translation, and speech.
* Learn about the Open Neural Network Exchange.

https://blogs.technet.microsoft.com/machinelearning/2018/06/04/free-e-book-a-developers-guide-to-building-ai-applications/ #ai #ml #book
Футбольное, пятнично-субботнее: Chintan Trivedi рассказывает, как использовать обучение с подкреплением, чтобы научить бота забивать угловые в FIFA2018. https://towardsdatascience.com/using-deep-q-learning-in-fifa-18-to-perfect-the-art-of-free-kicks-f2e4e979ee66 #ai #ml #sport #esport
Еще футбола! Помните, я тут выше писал про восстановление (реконструкцию) 3D-сцены по 2D-съемки? Группа исследователей из университета Вашингтона (+Google, +Facebook) сделали еще один шаг в этом направлении:
* взяли ролики игры в FIFA2017
* обучили сеточки распознавать поле, игроков и т.п.
* транслировали движения фигур в движения скелетов и карты глубины
* реконструировали игру в 3D
* перевели сцену в MR (Hololens)

А теперь представьте, что вы можете смотреть чемпионат мира по футболу на своем столе в 3D, как будто у вас на поверхности стола копия футбольного поля, вокруг которой вы можете ходить, приближаться и т.п.

http://www.i-programmer.info/news/190-augmentedvirtual-reality-arvr/11868-watch-soccer-games-in-3d-on-your-table-top-.html

Детали и публикация: https://arxiv.org/pdf/1806.00890.pdf

#ai #ml #mr #vision
Две новости про стикеры, фильтры и т.п. как платформу.

1. Snap запускает платформу разработки (SDK) -- Snap Kit для расширения функциональности камеры Snapchat и интеграции сервиса в свои приложения. Фактически, речь идет о четырех направлениях: 1) дать возможность расширить камеру собственными стикерами, фильтрами и ссылками, 2) позволить создавать динамичные стикеры (открытки), 3) расширить использование аватаров снэпа, Bitmoji, в других приложениях, и 4) разрешить сторонним приложениям искать и встраивать публичные истории из снэпа в свои приложения.

Ну и само собой, возможность залогиниться в чужое приложение с помощью аккаунта снэпчата.

Анонс на TheVerge: https://www.theverge.com/2018/1/30/16949402/bitmoji-deluxe-snapchat-customization
Snap Kit: https://kit.snapchat.com

2. Google (потихоньку) расширяет AR-стикеры на дополнительные устройства. Функция "дополненных" стикеров позволяла накладывать трехмерные объекты и текста на фотографии, но до сих пор была доступна только на собственных устройствах - Google Pixel. Сейчас компания расширала доступность приложения на флагман от LG - G7 ThinQ.

Анонс на TheVerge: https://www.theverge.com/2018/6/12/17453296/lg-google-pixel-ar-stickers-thinq-g7

--
Что связывает эти две истории?
Обычно про AR думают как о чем-то, происходящем в реальном времени с экрана смартфона/планшета, очков и т.п., но в сущности тема AR столько же актуальна и для отложенного взаимодействия с реальностью -- через фотографии, истории, стикеры и т.п.

В этом смысле два примера выше бьют в нишу между профессиональным производством контента (кино, спецэффекты и т.п.) и "дополнением" в реальном времени. И есть позозрение, что эта ниша будет постепенно складываться в континуум: как платформенно-инструментальный (например, AR стикеры используют тот же ARCore), так и контентный (я, например, жду в ближайшие 2-3 года первого фантастического фильма со спецэффектами, снятого и смонтированного целиком на iPhone/Android).

#ar #mr #image #camera
Не могу пройти мимо! Новый VR-кейс от LeapMotion - эксплорер кота! Помимо того, что это просто классно и интерактивно сделано (я уже писал выше, что LM может пробить новую планку в качестве VR-интерфейсов), важен сюжет: рассматривать внутренности котов даже интереснее, чем людей.

p.s. Я теперь мечтаю, чтобы такое же было в AR/MR, когда можно навести камеру/очки на котика и получить анимированные подробности внутреннего устройства животинки. #vr #mr #ar #case #ux #cat #education

http://blog.leapmotion.com/designing-cat-explorer/
Немножно в сторону от прямого обзора технологий. В HackerNoon вышла очень крутая статья про разницу в восприятии (ожиданий) между венчурными фондами и основателями стартапов: в целом, на разных стадиях, между США и Европой и т.п.

В качестве тизера - веселый факт: по шкале от 1 до 10 — VC оценивают пользу своей поддержки на 7, а основатели стартапов на 5.3. В то же время VC считают, что они ведут еженедельные коммуникации с поддерживаемыми стартапами в три (!) раза больше, чем это ощущают стартаперы. Нестыковочка, в общем.

Это все не значит, что фонды и т.п. плохие, а стартапы хорошие, или наоборот. Просто есть понятное пространство для улучшения, оптимизации, коррекции т.п.

https://hackernoon.com/do-vcs-really-add-value-founders-say-sometimes-f27bb956eb8c #startups #vc
Сегодня пара ссылок про генерацию графики.

Начнем с NVidia. Исследователи компании натренировали сеточки для генерации недостающих кадров для создания супер-медленного видео. В итоге видео в 30fps становится замедленным видео в 240fps. Хотя, в принципе, с некоторых смартфонов можно снимать видео со схожей частотой кадров, AI-решение, как говорят ученые, позволяет 1) обрабатывать существующие видео и 2) получить удовлетворительный результат, не тратя ценное место и вычислительные мощности на стороне смартфона.

Кажется, сценарий из фильмов с анализом кадров из съемки в духе "ну-ка замедли этот фрагмент" становится вполне реалистичным.

Обзор на The Verge: https://www.theverge.com/2018/6/19/17478110/fake-slow-motion-ai-nvidia-research
Технические детали: https://arxiv.org/pdf/1712.00080.pdf

#ai #image #video #generation
Вторая история — от исследователей из Microsoft и китайского Института науки и технологий о том, как генерировать изображения человеческих лиц. Фактически, команда научилась разделять идентичность (identity), специфичные свойства конкретного лица, и атрибуты, переносимые параметры вроде эмоции. На стыке получается делать трансформацию исходного лица в нужное состояние.

Мне тут видятся также большие перспективы как с точки зрения биометрии, так и с точки зрения консьюмерских применений вроде генерации аватаров и реалистичных изображений в кино и играх. Ну и еще один кирпичик в области фейкового контента, конечно.

https://www.microsoft.com/en-us/research/blog/believing-is-seeing-insightful-research-illuminates-the-newly-possible-in-the-realm-of-natural-and-synthetic-images/ #ai #image #face #generation
Несколько интересных размышлений на тему технологий.

Первое - от Justin Lee в TheStarup о том, что с чатботами что-то пошло не так. Два года назад про них говорили, как "the next big thing", но этого явно не случилось. Почему?

Изначальный запал ожиданий объясним. Мессенджеры были на взлете, диалоговый маркетинг (conversational marketing) был новым баззвордом, успех WeChat в Китае не мог не вдохновлять. На фоне хаоса и застоя в мобильных приложениях это все казалось свежей спасительной струей.

Самый главный вопрос, который задавали в сообществе и медиа: "кто же будет игроком номер один, монополизирующим тему вокруг себя", но никак не, "будут ли чатботы успешны в принципе"?

Поэтому ответ на вопрос "будет ли единая платформа, доминирующая в экосистеме чатботов и первональных ассистентов", простой: "Нет". По крайней мере пока трудно говорить о сколь-нибудь существенной экосистеме.

Мы все попали в ловушку хайпа. Итан Блох из Digit говорит так: "Я даже не уверен, можем ли мы говорить, что чатботы мертвы, потому что я не знаю, были ли они на самом деле живы." Дейв Филдман из Heap описывает ситуацию не менее жестко: "Чатботы не просто попробовали взять какую-то одну сложную проблему и провалили ее, они замахнулись на несколько и провалили их все".

--
Ну а за деталями, как так получилось, и почему это не так уж и плохо, приглашаю в статью Джастина. (Краткий вывод: мы набили как индустрия достаточное большое число шишок, чтобы теперь последовательно внедрять чатботов там, где работает как с точки зрения технологий, так и с точки зрения адекватности сценариев.)

https://medium.com/swlh/chatbots-were-the-next-big-thing-what-happened-5fc49dd6fa61

#chatbots #ai #hype
Большая новость от Microsoft Research - коллеги запустили проект MSR Open Data, большую коллекцию готовых датасетов, которые вы можете использовать для обучения своих моделей. Всего на сегодня доступно около 50 наборов данных, разбитых на 9 категорий: от биологии до городских данных.

Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)

Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/

#ai #ml #open #data #dataset
Второе обещанное размышление на тему технологий.

Jeffrey Zeldman делится в "A List Apart" своими соображениями о сложившимся в индустрии "культе сложного". Хотя основной акцент заметки лежит в плоскости клиентских веб-технологий (CSS, HTML, etc.), мне кажется, проблема касается всей IT-отрасли.

С начала 200х веб-технологии прошли длинный путь. Возможно, вы еще помните выражение "табличная верстка", когда, чтобы сделать сколь-нибудь сложный макет, разработчики вставляли table при каждом удобном случае, а структуру страницы сложно было назвать семантичной.

Потом пошла волна "отказа" от таблиц в сторону использования возможностей CSS. Казалось, что верстка станет лучше, но то ли в силу существовавших ограничений, то ли в силу недопонимания логики, заложенной в систему тегов HTML и CSS, сознательно или бессознательно, толпы разработчиков и, особенно, разработчиков фреймворков, начали делать одну и ту же "странную" вещь. Они начали везде использовать div и span элементы. Вместо параграфов (p) мы видели блочные элементы, вместо заголовков (h1-h5), div с классом "h2", вместо внутренних (inline) элементов, блоки, которым насильно через css приписали inline-свойство и т.п.

Если вы откроете какой-нибудь популярный большой сайт и посмотрите на его код, вы можете ужаснуться глубине вложенности некоторых div-цепочек.

И это все происходило и происходит несмотря на общий хайп вокруг HTML5, веб-стандартов, важности семантической разметки и т.п. Порой даже может показаться, что разметка классами (css) победила разметку смыслами (семантикой html).

Если вы зашли в веб-разработку или веб-дизайн в последние несколько лет, вы почти наверняка в своей работе опираетесь на какие-то готовые фреймворки, большинство из которых построены на базе манипуляций множеством div и span элементов. И если задуматься, почему так происходит, то ключевой ответ -- это JavaScript, все больше и больше JavaScript.

И, в принципе, если вы понимаете, что вы делаете (!), в этом нет ничего плохого. Вы достаточно быстро можете получить хороший результат и выпилить те элементы, которые делают ваш продукт хуже с точки зрения пользователя (например, генерируют излишнее количество блоков, утяжеляя страницы или рендеринг).

Сегодня мы получили ситуацию, когда большинство разработчиков не представляют себе запуск нового проекта без добавления нескольких пакетов из NPM или Composer, не будучи при этом уверенными, чем занимается вносимый код. Фактически, мы оказались в условиях, когда мы научили целое поколение разработчиков учить создавать и запускать проекты с недоверенным кодом (!).

Причем как факт деятельности, а не как ее осознание. Вы скорее найдете вакансию, в которой от вас требуют знания конкретных новых, модных фреймворков, нежели спросят о способности написать с нуля чистый и безопасный код.

Когда эта резиновая конструкция из пятнадцати слоев кода, который мы не понимаем и который писали не мы, начинает натягиваться и лопаться по швам, мы обвиняем HTML и CSS в ошибках разработчиков. Это приводит к созданию новых культов сложности -- более специализированных CSS, как правило, натянутых на JavaScript.

И снова, проблема не в JavaScript, а в том, что за счет усложнения технологии мы получаем сиюминутное (массовое) решение проблемы вместо намеренного воздействия на точку ее возникновения. Массовый workaround становится нормой разработчиков, но никто не замечает, что она вся стянута кусками изоленты.

Часто оказывается, что для проблемы даже есть готовое решение (вроде CSS Grid для управления позиционирвоанием блоками), но... ведь уже есть неплохой фреймворк? Да, придется инвестировать с обучение (изучение нового), но часто оказывается, что это полезная инвестиция, открывающая в том числе те возможности, которые в фреймворк не были заложены в принципе.
Тем не менее, пока возможность использовать "сложность", как способ убеждения людей в том, что вашу работу нельзя делать проще, побеждает "простоту", как возможность сделать жизнь лучше для всех остальных.

Коммуникация всегда выигрывает от простоты. Самый лучши дизайн -- самый очевидный и самый простой. Задача, которую мы ставим дизайнерам, никогда не должна звучать как "насколько сложным мы можем это сделать". Но именно так это происходит сегодня.

Когда разговариваешь со множеством разработчиков, использующих Angular. Ember, React и другие прикольные JS-библитеки, их легко можно поставить в ступор вопросом: а как теперь ту мешанину функций, которые написал джуниор-разработчик, мы можем обернуть в расширяемый объект, который мы сможем использовать в других проектах, не тяня за собой груза библиитек?

В создании хорошего дизайна много сложности. Технической, UX, контентной, производительной и т.п. Это никогда не будет простой работой. Но это сложность создания простоты для конечных пользователей.

Вопрос не в том, чтобы отказаться от имеющихся достижений веб-разработки (от CDN до GitHub, включая все библиотеки), а в том, чтобы помнить, зачем мы все это делаем, и нести осознаваемую ответственность за принимаемые решения.

http://alistapart.com/article/cult-of-the-complex #web #design #complexity #simplicity
Хорошая разминка для ума в понедельник. Ran Raz из университета Принсетона и Avishay Tal из Стэнфорда показали, что существует класс задач, которые эффективно размеришимы квантовыми компьютерами, но принципиально не разрешими классическими (даже если вдруг окажется, что P=NP). Фактически, это означает не только существенное ускорение (уже доказано, что принципиально квантовый компьютер может эффективно решать все P-задачи), но и вообще заход на новые типы задач, которые еще нужно научиться формулировать.

В статье ниже Wired дает кратку вводную для тех, кто подзабыл о классах алгоритмической сложности, и описывает пример такой задачи.

p.s. Важное уточнение: разделение на классы в задаче происходит в постановке с оракулом.

https://www.wired.com/story/finally-a-problem-only-quantum-computers-will-ever-be-able-to-solve/ #quantum #computing
How to Make a Poster on Word