Daniel Elizalde из TechProductManagement рассказывает, о своем опыте построения IoT-решений. "Некоторые оправдывают внедрение IoT-систем тем, что они позволяют производить и собирать большие объемы данных. Мой опыт показывает, что IoT-продукты должны давать инсайты." Любая компания, которая внедряет IoT-решение должна иметь стратегию работы с данными, а стратегия начинается с цели — для чего нужны собираемые данные. Если же просто исходить из того, что нам нужно "увидеть, что там происходит", то легко можно прийти к ситуации, когда внедренная система генерирует гигабайты данных в секунду, мы "видим данные", но не понимаем, что с этим знанием делать. https://medium.com/iotforall/provide-insights-not-data-e6498f0d5b71 #iot #data #strategy #digital #transformation
Medium
Provide Insights, Not Data
How I discovered the importance of having a data strategy the hard way.
Кратко: DataVizProject — большая коллекция типов диаграмм с пояснениями, какие для чего подходят. Ну, и с примерами, конечно. http://datavizproject.com/ #data #visualization #infographics
В продолжение темы обучения моделей. Из статьи в предыдущем посте про распознавание птичек вы могли заметить, что на предварительную обработку (то есть разметку данных) ушло около 20 часов со специальным инструментом, и это еще хороший вариант.
Я, к примеру, вчера потратил полдня на посекундную разметку видео с камеры наблюдения, а до этого еще полдня, и будет еще раза два по полдня. И это все просто для того, чтобы иметь минимальную выборку для сборки пайплайна обучения модели... с каким-то (еще неизвестным) качеством. И вот только после того, как вся цепочка заработает, можно будет двигаться к расширению данных, подстройке модели и т.п.
Как говорят, коллеги, активно занимающиеся машинным обучением, важно две вещи: 1) данные, если их нет, никакого интеллекта не будет и 2) процесс, его нужно выстроить как можно быстрее, чтобы потом улучшать, а не толкаться в одной точке.
#ai #data #process
Я, к примеру, вчера потратил полдня на посекундную разметку видео с камеры наблюдения, а до этого еще полдня, и будет еще раза два по полдня. И это все просто для того, чтобы иметь минимальную выборку для сборки пайплайна обучения модели... с каким-то (еще неизвестным) качеством. И вот только после того, как вся цепочка заработает, можно будет двигаться к расширению данных, подстройке модели и т.п.
Как говорят, коллеги, активно занимающиеся машинным обучением, важно две вещи: 1) данные, если их нет, никакого интеллекта не будет и 2) процесс, его нужно выстроить как можно быстрее, чтобы потом улучшать, а не толкаться в одной точке.
#ai #data #process
Про GDRP (General Data Protection Regulation). Я уже несколько раз упоминал эту аббревиатуру, и, возможно, вы думаете, что просто какая-то очередная ерунда европейских регуляторов, которая имеет малое отношение к нашей действительности.
Как-то летом на нашей партнерской конференции, президент и CLO Microsoft Бред Смитт высказался на эту тему примерно так: "Eсли вы работаете в Европе (EU), GDRP касается вас, если у вас есть лиенты (пользователи) из Европы, GDRP касается вас. Даже если вы просто слышали про Европу, GDRP касается вас." Почему? Потому что интернет, online-сервисы и магазины глобальны.
В самом простом варианте вам нужно про GDRP думать так: "О черт, у меня есть пользователи из Европейского союза. Черт, черт!" Оставляя за скобками, как именно европейские регуляторы будут дотягиваться до вас в случае нарушения, теперь вам нужно быть готовым оперативно реагировать на запросы о потоке данных таких пользователей (в течение 30 дней) и сообщать о всех утечках и взломах (в трехдневный срок).
Хороший обзор GDRP для разработчиков от Bryan Soltis по этой ссылке: https://hackernoon.com/im-a-developer-and-general-data-protection-regulation-gdpr-is-no-big-deal-or-is-it-2f2b7b3f124
#data #protection #privacy #regulation
Как-то летом на нашей партнерской конференции, президент и CLO Microsoft Бред Смитт высказался на эту тему примерно так: "Eсли вы работаете в Европе (EU), GDRP касается вас, если у вас есть лиенты (пользователи) из Европы, GDRP касается вас. Даже если вы просто слышали про Европу, GDRP касается вас." Почему? Потому что интернет, online-сервисы и магазины глобальны.
В самом простом варианте вам нужно про GDRP думать так: "О черт, у меня есть пользователи из Европейского союза. Черт, черт!" Оставляя за скобками, как именно европейские регуляторы будут дотягиваться до вас в случае нарушения, теперь вам нужно быть готовым оперативно реагировать на запросы о потоке данных таких пользователей (в течение 30 дней) и сообщать о всех утечках и взломах (в трехдневный срок).
Хороший обзор GDRP для разработчиков от Bryan Soltis по этой ссылке: https://hackernoon.com/im-a-developer-and-general-data-protection-regulation-gdpr-is-no-big-deal-or-is-it-2f2b7b3f124
#data #protection #privacy #regulation
Hacker Noon
I’m a Developer and General Data Protection Regulation (GDPR) is no big deal. Or is it?
I’ve been a developer for nearly 20 years. Over that time, I have weathered my share of regulations and standards. I’ve seen PCI and HIPAA…
Сегодня немного пост-праздничного чтения (да, я знаю, что уже вторую неделю, как работаем, а кто-то и больше) про данные и ИИ.
Первая (можно рассматривать как короткий чекл-лист "знаю-знаю-почитать-..."): 10 самых популярных алгоритмов для анализа данных: от линейной регрессии до градиентного бустинга. https://towardsdatascience.com/10-machine-learning-algorithms-you-need-to-know-77fb0055fe0 #ai #data #science
Первая (можно рассматривать как короткий чекл-лист "знаю-знаю-почитать-..."): 10 самых популярных алгоритмов для анализа данных: от линейной регрессии до градиентного бустинга. https://towardsdatascience.com/10-machine-learning-algorithms-you-need-to-know-77fb0055fe0 #ai #data #science
Medium
10 Machine Learning Algorithms You need to Know
We live in a start of revolutionized era due to development of data analytics, large computing power, and cloud computing. Machine learning…
Большая новость от Microsoft Research - коллеги запустили проект MSR Open Data, большую коллекцию готовых датасетов, которые вы можете использовать для обучения своих моделей. Всего на сегодня доступно около 50 наборов данных, разбитых на 9 категорий: от биологии до городских данных.
Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)
Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/
#ai #ml #open #data #dataset
Помимо того, что хороших данных мало не бывает, я бы подчеркнул еще один момент. Наличие таких открытых наборов данных делает возможным воспроизведение, перепроверку, коррекцию и развитие научных результатов. (Большая часть опубликованных датасетов — это то, что используют внутри наши исследовательские команды.)
Анонс: https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Портал с датасетами: https://msropendata.com/
#ai #ml #open #data #dataset
Microsoft Research
Announcing Microsoft Research Open Data - Datasets by Microsoft Research now available in the cloud - Microsoft Research
The Microsoft Research Outreach team has worked extensively with the external research community to enable adoption of cloud-based research infrastructure over the past few years. Through this process, we experienced the ubiquity of Jim Gray’s fourth paradigm…
Внезапные откровения от аналитиков Gartner: оказывается (!), многие предыдущие годы нам лили лапшу на уши. Следите за руками — как внезапно снова нужны толпы экспертов и аналитиков!
— Big data уже не big, а просто бесполезная data. Погоня за собрать все, что можно, показала, что мы (индустрия) собирали кучу мусора, с которой не знаем, что делать. А будущее теперь за small data, meta data (ака разметка) и generated data (ака дата по моделям).
— Data Science как бы наука, но вообще нет, скорее Data Art, но еще не Science Fiction. Оказывается, надо уметь задавать правильные вопросы, знать, когда остановиться (пресловутое гуд инаф), и вообще аналитика, внимание, СУБЪЕКТИВНА. А раздутые бюджеты и сроки на дата-команды вредны, лучше их делать тайм-боксед, — так люди быстрее откидывают то, что не получается, вместо подгонки под свои предубеждения.
— Data, как правило, не приводит к Decisions, потому что управленцы не готовы делать дисижены, им проще сидеть на попе ровно, хотя это тоже дисижн. Поэтому в арсенал дата-команды должен добавиться дисижн-дизайн: вы должны уметь подсунуть дату в нужный момент в правильной упаковке, еще лучше прийти к автоматизации дисиженов, чтобы исключить этот белковый суррогат мышления. И еще лучше, но для этого нужны консультанты из бигфор, строить из даты бигпикчу, которую не видит (и не понимает) никто из управленцев. Дата какманипуляция, простите, искусство, простите, наука.
— А вообще, ребята, не парьтесь. Берите большие амбициозные цели, мыслите шире! Но помните, что свобода без управления — это анархия. Навряд ли вы хотите анархию. Ноконтроль, простите, управление — это важно. Просто помимо управления контролем нужно управлять еще стратегией и гибкостью. Ой, все ваши модели данных и показателей про контроль? Тогда мы идем к вам!
Это был вольный пересказ открытия слета адептов хайп-цикла гартнера: https://www.youtube.com/watch?v=bXob4SMBguM
— Big data уже не big, а просто бесполезная data. Погоня за собрать все, что можно, показала, что мы (индустрия) собирали кучу мусора, с которой не знаем, что делать. А будущее теперь за small data, meta data (ака разметка) и generated data (ака дата по моделям).
— Data Science как бы наука, но вообще нет, скорее Data Art, но еще не Science Fiction. Оказывается, надо уметь задавать правильные вопросы, знать, когда остановиться (пресловутое гуд инаф), и вообще аналитика, внимание, СУБЪЕКТИВНА. А раздутые бюджеты и сроки на дата-команды вредны, лучше их делать тайм-боксед, — так люди быстрее откидывают то, что не получается, вместо подгонки под свои предубеждения.
— Data, как правило, не приводит к Decisions, потому что управленцы не готовы делать дисижены, им проще сидеть на попе ровно, хотя это тоже дисижн. Поэтому в арсенал дата-команды должен добавиться дисижн-дизайн: вы должны уметь подсунуть дату в нужный момент в правильной упаковке, еще лучше прийти к автоматизации дисиженов, чтобы исключить этот белковый суррогат мышления. И еще лучше, но для этого нужны консультанты из бигфор, строить из даты бигпикчу, которую не видит (и не понимает) никто из управленцев. Дата как
— А вообще, ребята, не парьтесь. Берите большие амбициозные цели, мыслите шире! Но помните, что свобода без управления — это анархия. Навряд ли вы хотите анархию. Но
Это был вольный пересказ открытия слета адептов хайп-цикла гартнера: https://www.youtube.com/watch?v=bXob4SMBguM
YouTube
How Data and Analytics Unleash Innovation & Transform Uncertainty | Gartner Full Keynote
For more insights, explore Gartner Data & Analytics Conferences:
https://gtnr.it/DA
Data and analytics executives are expanding their area of influence and impact on the company as a result of the significant changes that have occurred within our businesses…
https://gtnr.it/DA
Data and analytics executives are expanding their area of influence and impact on the company as a result of the significant changes that have occurred within our businesses…