Quantum Quintum
1.63K subscribers
330 photos
7 videos
49 files
1.62K links
Авторский канал Константина Кичинского про информационные технологии и науку: новости, запуски, мнения, исследования противоречия и комментарии.

😶‍🌫️ Вопросы и предложения (кроме рекламы) — @constantinkichinsky.
Download Telegram
Daniel Elizalde из TechProductManagement рассказывает, о своем опыте построения IoT-решений. "Некоторые оправдывают внедрение IoT-систем тем, что они позволяют производить и собирать большие объемы данных. Мой опыт показывает, что IoT-продукты должны давать инсайты." Любая компания, которая внедряет IoT-решение должна иметь стратегию работы с данными, а стратегия начинается с цели — для чего нужны собираемые данные. Если же просто исходить из того, что нам нужно "увидеть, что там происходит", то легко можно прийти к ситуации, когда внедренная система генерирует гигабайты данных в секунду, мы "видим данные", но не понимаем, что с этим знанием делать. https://medium.com/iotforall/provide-insights-not-data-e6498f0d5b71 #iot #data #strategy #digital #transformation
Кратко: DataVizProject — большая коллекция типов диаграмм с пояснениями, какие для чего подходят. Ну, и с примерами, конечно. http://datavizproject.com/ #data #visualization #infographics
В продолжение темы обучения моделей. Из статьи в предыдущем посте про распознавание птичек вы могли заметить, что на предварительную обработку (то есть разметку данных) ушло около 20 часов со специальным инструментом, и это еще хороший вариант.

Я, к примеру, вчера потратил полдня на посекундную разметку видео с камеры наблюдения, а до этого еще полдня, и будет еще раза два по полдня. И это все просто для того, чтобы иметь минимальную выборку для сборки пайплайна обучения модели... с каким-то (еще неизвестным) качеством. И вот только после того, как вся цепочка заработает, можно будет двигаться к расширению данных, подстройке модели и т.п.

Как говорят, коллеги, активно занимающиеся машинным обучением, важно две вещи: 1) данные, если их нет, никакого интеллекта не будет и 2) процесс, его нужно выстроить как можно быстрее, чтобы потом улучшать, а не толкаться в одной точке.

#ai #data #process
Про GDRP (General Data Protection Regulation). Я уже несколько раз упоминал эту аббревиатуру, и, возможно, вы думаете, что просто какая-то очередная ерунда европейских регуляторов, которая имеет малое отношение к нашей действительности.

Как-то летом на нашей партнерской конференции, президент и CLO Microsoft Бред Смитт высказался на эту тему примерно так: "Eсли вы работаете в Европе (EU), GDRP касается вас, если у вас есть лиенты (пользователи) из Европы, GDRP касается вас. Даже если вы просто слышали про Европу, GDRP касается вас." Почему? Потому что интернет, online-сервисы и магазины глобальны.

В самом простом варианте вам нужно про GDRP думать так: "О черт, у меня есть пользователи из Европейского союза. Черт, черт!" Оставляя за скобками, как именно европейские регуляторы будут дотягиваться до вас в случае нарушения, теперь вам нужно быть готовым оперативно реагировать на запросы о потоке данных таких пользователей (в течение 30 дней) и сообщать о всех утечках и взломах (в трехдневный срок).

Хороший обзор GDRP для разработчиков от Bryan Soltis по этой ссылке: https://hackernoon.com/im-a-developer-and-general-data-protection-regulation-gdpr-is-no-big-deal-or-is-it-2f2b7b3f124

#data #protection #privacy #regulation
Сегодня немного пост-праздничного чтения (да, я знаю, что уже вторую неделю, как работаем, а кто-то и больше) про данные и ИИ.

Первая (можно рассматривать как короткий чекл-лист "знаю-знаю-почитать-..."): 10 самых популярных алгоритмов для анализа данных: от линейной регрессии до градиентного бустинга. https://towardsdatascience.com/10-machine-learning-algorithms-you-need-to-know-77fb0055fe0 #ai #data #science
Большая новость от Microsoft Research - коллеги запустили проект MSR Open Data, большую коллекцию готовых датасетов, которые вы можете использовать для обучения своих моделей. Всего на сегодня доступно около 50 наборов данных, разбитых на 9 категорий: от биологии до городских данных.

Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)

Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/

#ai #ml #open #data #dataset
Внезапные откровения от аналитиков Gartner: оказывается (!), многие предыдущие годы нам лили лапшу на уши. Следите за руками — как внезапно снова нужны толпы экспертов и аналитиков!

— Big data уже не big, а просто бесполезная data. Погоня за собрать все, что можно, показала, что мы (индустрия) собирали кучу мусора, с которой не знаем, что делать. А будущее теперь за small data, meta data (ака разметка) и generated data (ака дата по моделям).
Data Science как бы наука, но вообще нет, скорее Data Art, но еще не Science Fiction. Оказывается, надо уметь задавать правильные вопросы, знать, когда остановиться (пресловутое гуд инаф), и вообще аналитика, внимание, СУБЪЕКТИВНА. А раздутые бюджеты и сроки на дата-команды вредны, лучше их делать тайм-боксед, — так люди быстрее откидывают то, что не получается, вместо подгонки под свои предубеждения.
Data, как правило, не приводит к Decisions, потому что управленцы не готовы делать дисижены, им проще сидеть на попе ровно, хотя это тоже дисижн. Поэтому в арсенал дата-команды должен добавиться дисижн-дизайн: вы должны уметь подсунуть дату в нужный момент в правильной упаковке, еще лучше прийти к автоматизации дисиженов, чтобы исключить этот белковый суррогат мышления. И еще лучше, но для этого нужны консультанты из бигфор, строить из даты бигпикчу, которую не видит (и не понимает) никто из управленцев. Дата как манипуляция, простите, искусство, простите, наука.
— А вообще, ребята, не парьтесь. Берите большие амбициозные цели, мыслите шире! Но помните, что свобода без управления — это анархия. Навряд ли вы хотите анархию. Но контроль, простите, управление — это важно. Просто помимо управления контролем нужно управлять еще стратегией и гибкостью. Ой, все ваши модели данных и показателей про контроль? Тогда мы идем к вам!

Это был вольный пересказ открытия слета адептов хайп-цикла гартнера: https://www.youtube.com/watch?v=bXob4SMBguM
Twitter Analytics: Measuring and Optimizing Your Social Media Impact