Ivan Begtin – Telegram

Ivan Begtin

8.06K subscribers

1.47K photos

3 videos

99 files

4.2K links

I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
—
Contact @NMBabina for ads proposals

Download Telegram

About

Blog

Apps

Platform

8.06K subscribers

Вышли два свежих европейских документов про работу с данными. Оба опубликованы Joint Research Centre (JRC) при Еврокомиссии.
Первый документ Application Programming Interfaces in Governments: Why, what and how [1] о том как важно чтобы в рамках цифровых правительств развивались сервисы API. С большим числом примером в странах ЕС, включая, например, Французский национальный реестр API [2]. В документе много разных сторон работы API рассмотрено и, что важно, использование программных интерфейсов рассматривается как часть государственной политики.

Второй документ The economics of Business to Government data sharing [3] посвящён тому как работает экономика предоставления данных государству коммерческими компаниями. Это технический отчет с указанием на возможности и ограничения того как бизнес может передавать данные государственным органам и как это может развиваться. Там есть несколько чисто европейских допущений что государства не конкурируют с бизнесом, с ними можно поспорить. В остальном полезное чтение, хотя и короткое.

Ссылки:
[1] https://ec.europa.eu/jrc/en/publication/eur-scientific-and-technical-research-reports/application-programming-interfaces-governments-why-what-and-how
[2] https://api.gouv.fr/
[3] https://ec.europa.eu/jrc/en/publication/eur-scientific-and-technical-research-reports/economics-business-government-data-sharing

#opendata #api #government #digital

EU Science Hub - European Commission

Application Programming Interfaces in Governments: Why, what and how - EU Science Hub - European Commission

Application programming interfaces (APIs) are a 50-year-old technology that can be applied to many fields and that, for some years, the public sector has used to implement its digital transformation (e.g. for the publication of public sector information and…

1.5K viewsIvan Begtin, 03:29

Слухи давно ходили и вот теперь официальное подтверждение, закрывается Sunlight Foundation [1], некогда чуть ли не первое НКО задававшее стандарты работы с данными государства, запустившие десятки разных проектов. Но 4 года назад они закрыли свою лабораторию Sunlight Labs [2] и раздали свои проекты другим НКО, некоторым госорганам и исследовательским центрам [3]

Истинные причины закрытия Sunlight Foundation мне неизвестны, но всё хорошее, действительно, не вечно.

Ссылки:
[1] https://sunlightfoundation.com/2020/09/24/a-note-from-the-sunlight-foundations-board-chair/
[2] https://sunlightfoundation.com/2016/09/21/whats-next-for-sunlight-labs/
[3] https://sunlightfoundation.com/2016/11/01/sunlight-labs-update-nonprofits-step-up-to-preserve-tools-for-transparency/

#opendata #opensource #sunlight

Sunlightfoundation

A Note from the Sunlight Foundation’s Board Chair : Sunlight Foundation

Sunlight is said to be the best of disinfectants…

1.6K viewsIvan Begtin, 05:48

После довольно долгих размышлений, я, всё таки, решил активировать аккаунт Substack и использовать этот формат для регулярных больших заметок и рассуждение на темы о которых думаю давно. Substack - это формат для больших текстов, с некоторой рефлексией и не обязательно завершёнными размышлениями, но с некоторой их зрелостью.

Это будет сильно отличаться от моего канала в телеграм и от личного блога. Как и во всех текстах основанных на профессиональной и иногда личной рефлексии, здесь я не буду претендовать на точность мысли, но буду вкладывать в написанной столько последовательности сколько смогу.

Первая email рассылка ушла с темой "Размышления конца сентября 2020. Будущее государственного и общественного аудита и контроля, обнаружение данных и многое другое".

Следующая рассылка будет не раньше конца октября.

#substack #texts

Ivan’s Begtin Newsletter on digital, open and preserved government | Ivan Begtin | Substack

Digital government can't be without openness, preservation, plain language and data, for sure. Click to read Ivan’s Begtin Newsletter on digital, open and preserved government, by Ivan Begtin, a Substack publication with hundreds of subscribers.

1.5K viewsIvan Begtin, 04:28

Ещё в 2015 году ЮНЕСКО объявили 28 сентября Международным днём универсального доступа к информации [1], в этом году на русском об этом в послании Генерального директора ЮНЕСКО Одрэ Азуле. [2]. Конференция IDUAI и мероприятия в этом году отложены из-за COVID-19, но 28-30 сентября идут онлайн вебинары посвященные открытости информации и идущие под эгидой ЮНЕСКО.

Ссылки;
[1] https://en.unesco.org/commemorations/accesstoinformationday/
[2] https://unesdoc.unesco.org/ark:/48223/pf0000374375_rus.locale=en

#opendata #openness #transparency #unesco

International Day for Universal Access to Information

1.5K viewsIvan Begtin, 06:18

Правительство РФ, в лице Минстроя инициировало создание Единого государственного заказчика в строительстве, по оценке СМИ его бюджет может составить до 5 триллионов рублей [1]. В законопроекте указано что он создаётся в форме публично-правовой компании (код ОКОПФ - 71600), а то есть некоммерческой организации в прямом подчинении Правительства, через Минстрой РФ.

До окончания независимой антикоррупционной экспертизы законопроекта остался один день и до окончания общественного обсуждения 9 дней [2].

Судя по полномочиям единого государственного заказчика, сумма там, всё же, менее 5 триллионов поскольку в его ведении будут только объекты культурного наследия, поэтому точные масштабы его деятельности и охвата пока измерить сложно.

Какие вопросы в этой ситуации необходимо задать самим себе?
1. По какому ФЗ будут проводится закупки единым заказчиком? 44-ФЗ? 223-ФЗ? Или по 615-ПП. Например Фонд реновации (Москвы) размещает закупки по 223-ФЗ [3]. Другие АНОшки созданные Правительством Москвы по благоустройству города и тд, вообще не подпадают ни под один из ФЗ
2. Ограничится ли только культурным наследием как это прописаны в законопроекте или полномочия публично-правовой компании будут расширять?

Можно сразу утверждать что это будет не по 44-ФЗ, иначе не было бы смысла создавать публично-правовую компанию и выводить из под системы бюджетных учреждений. Проблема в том что 44-ФЗ объединяет, и совершенно жуткие и неприятные процедуры закупок, в которых наиболее комфортно себя чувствуют как раз наиболее коррумпированные заказчики и поставщики-рейдеры и одновременно все вопросы открытости госконтрактации заложены в том же 44-ФЗ.

Ссылки:
[1] http://ancb.ru/publication/read/10185
[2] https://regulation.gov.ru/projects#npa=108688
[3] https://spending.gov.ru/goscontracts/contracts/?productsearch=&regnum=&daterange=&price_from=&price_to=&customerregion=&address=&budgetlevel=&okdp_okpd=&fz=&customerinn=7703434808&customerkpp=&supplierinn=&supplierkpp=

#procurement #spending #contracts

Единый государственный заказчик в строительстве с бюджетом в 5 трлн рублей появится 1 января

3.1K viewsIvan Begtin, edited 07:10

В Nature статья о переосмыслении научных статей, и перевод их в формат "исполняемых статей" (executable papers) [1] идея в том что электронная научная публикация должна иметь формат аналогичный цифровым записным книжкам таким как Jupyter Notebook или Wolfram Notebook и должна включать всё необходимое, исходный код и данные для её перепроверки. Эта концепция не нова, и давно присутствует, например, в Codalab [2], но пока ещё она не стала всеобъемлющей.

Автор приводит пример с его статьей с анализом данных температуры земли, опубликованными данными и кодом [3]. А также множество примеров проектов готовых шаблонов воспроизводимых проектов [4].

Основной и важнейший, можно сказать инновационный, подход в том что научная статья/публикация - это не документ, а некий интерактивный открытый цифровой продукт, включающий как описания и выводы, так и исходный код, данные и формулы организованные таким образом чтобы можно было максимально упросить работу по воспроизведению результатов.

Определение из CodaLab звучит как
A CodaLab executable paper is a worksheet that contains the code, data, main experiments, tables, and graphs used in a published paper (think of it as an appendix or supplementary material).

Ещё в 2013 году об этом писали в Elsevier Labs [6], а ещё в 2011 году запускали конкурс "исполняемых статей" [7] [8], но мир изменился с тех пор и сейчас главным приоритетом является именно открытость таких публикаций и использование свободных и открытых инструментов и сервисов хранения данных.

Практика публикации исполняемых статей есть, например, в журнале eLife [9], а обзор открытых инструментов для их подготовки есть в статье Publishing computational research - a review of infrastructures for reproducible and transparent scholarly communication [8]. Если вкратце, существует как минимум 11 сервисов, большая часть, но не все из которых основаны на Jupiter Notebook.

Больше публикаций об этом можно найти, например, в результатах проекта Open Reproducible Research II [11] в Universität Münster

По всем впечатлениям скоро исполняемые статьи станут мейнстримом во всех работах где есть работа с данными и создание кода, а в течение нескольких лет, а может и быстрее, появятся формальные стандарты на основе существующих стандартов де-факто.

Ссылки:
[1] https://www.nature.com/articles/s42005-020-00403-4
[2] https://codalab-worksheets.readthedocs.io/en/latest/Executable-Papers/
[3] https://zenodo.org/record/3831237#.X3QQDO1n1hE
[4] https://gitlab.com/makhlaghi/reproducible-paper
[5] https://codalab-worksheets.readthedocs.io/en/latest/Executable-Papers/
[6] https://www.elsevier.com/connect/executable-papers-in-computer-science-go-live-on-sciencedirect
[7] https://www.journals.elsevier.com/pattern-recognition-letters/news/introducing-executable-papers
[8] https://www.slideshare.net/anitawaard/executable-papers
[9] https://elifesciences.org/for-the-press/eb096af1/elife-launches-executable-research-articles-for-publishing-computationally-reproducible-results
[10] https://arxiv.org/ftp/arxiv/papers/2001/2001.00484.pdf
[11] https://www.uni-muenster.de/forschungaz/project/12343?lang=en

#data #opendata #openscience #openaccess

Creating an executable paper is a journey through Open Science

Communications Physics - Executable papers take transparency and openness in research communication one step further. In this comment, an early career researcher reports her experience of creating...

1.9K viewsIvan Begtin, 05:20

Краткий дайджест статей и публикаций про данные:
- обзор материалов прошедшей конференции RecSys 20202 о рекомендательных системах https://eugeneyan.com/writing/recsys2020/
- о том как устроен хайп вокруг данных с точки зрения инвестфонда https://medium.com/northzone/unpacking-the-data-hype-8c3a0ae63564
- HarbrData, сервис для тех кто хочет строить свои маркетплейсы на данных https://www.harbrdata.com/
- много интересного про данные на Open Source Strategy Forum https://events.linuxfoundation.org/open-source-strategy-forum/program/schedule/

#data #datatools #dbs

RecSys 2020 - Takeaways and Notable Papers

Emphasis on bias, more sequential models & bandits, robust offline evaluation, and recsys in the wild.

1.5K viewsIvan Begtin, 08:42

AI Localism - это когда регулирование алгоритмических систем осуществляется на уровне города, муниципального образования, с охватом жизни людей на четко очерченной территории. Об этом Stefaan Verhulst писал ещё в феврале 2020 [1], а вот и подоспели живые примеры такого регулирования.

Городские власти Амстердама и Хельсинки ввели реестры алгоритмических систем / ИИ [3] [4]. Пока систем там немного и информации о них также немного, сами реестры работают на платформе Saidot [5], создателей которой вместе с представителями городов Амстердама и Хельсинки описывает то почему и зачем это делается в документе Public AI Registers [6]

Ссылки:
[1] https://medium.com/data-stewards-network/realizing-the-potential-of-ai-localism-c3d8b4c751ca
[2] https://news.cision.com/fi/city-of-helsinki/r/helsinki-and-amsterdam-first-cities-in-the-world-to-launch-open-ai-register,c3204076
[3] http://ai.hel.fi/
[4] https://algoritmeregister.amsterdam.nl/
[5] https://www.saidot.ai/
[6] https://uploads-ssl.webflow.com/5c8abedb10ed656ecfb65fd9/5f6f334b49d5444079726a79_AI%20Registers%20-%20White%20paper%201.0.pdf

#ai #transparency

Realizing the Potential of AI Localism

With national innovation strategies focused primarily on achieving dominance in artificial intelligence, the problem of actually…

1.7K viewsIvan Begtin, 07:32

Я реже чем надо пишу о том чем, в том числе, занимается Инфокультура. Например, помощью НКО

1.3K viewsIvan Begtin, 11:45

Forwarded from Открытые данные НКО

На ютуб-канале Инфокультуры опубликована серия видеоуроков для сотрудников некоммерческих организаций. В роликах социологи и эксперты по работе с данными рассказывают, с чего начать изучение социальной проблемы, как правильно сформулировать методологическую часть исследования, выбрать методы, построить выборочную совокупность, а также какие нюансы важно знать при сборе и обработке персональных данных.

Смотрите ролики на нашем канале:
🔹 Проблема, объект и предмет, цель, задачи и гипотезы исследования. Владимир Звоновский https://youtu.be/e3Lq7jW7kBU
🔹 Методы исследования. Часть 1. Анна Ипатова https://youtu.be/faeTxscIMHI
🔹 Методы исследования. Часть 2. Анна Ипатова https://youtu.be/LPNsiOWDstU
🔹 Как грамотно построить выборочную совокупность? Владимир Звоновский https://youtu.be/Dk-9LucK7pQ
🔹 Особенности работы с персональными данными. Иван Бегтин https://youtu.be/qd4aZmBzCM8

1.3K viewsIvan Begtin, 11:45

Kostas Stathoulopoulos, стажёр в Фонде Mozilla создал [1] инструмент с открытым кодом Orion [2] в котором с помощью машинного обучения производится поиск перспективных научных направлений и областей научных знаний с большими пробелами.

Подробнее о разработке в блоге автора [3].

Основным источником материалов был BioArxiv, поэтому большой акцент на биологии, но авторы обещают что проиндексировать могут любые статьи, так что, видимо, проект ещё будет развиваться.

Ссылки:
[1] https://foundation.mozilla.org/en/blog/open-source-tool-accelerate-scientific-knowledge-discovery/
[2] https://www.orion-search.org/
[3] https://medium.com/@kstathou/a-walkthrough-of-orions-backend-data-and-design-decisions-f60c01b507aa
[4] https://www.biorxiv.org/

#openscience #opendata

4.8K viewsIvan Begtin, 20:04

Для тех кто хочет поработать с большими данными или, например, ищет учебные задачи для студентов ИТ специальностей, обратите внимание на DBLP [1]. Это огромная библиографическая база из более чем 5 миллионов 284 тысяч публикаций, включая публикации в журналах, по итогам конференций, книг и тезисов. Для всех кто пишет научные статьи - это огромная база метаданных необходимая для работы.

Но, конечно, такой объём данных интересен не только для выбора тем для научных статей и исследований, он практически идеально подходит для создания инструментов вроде Orion [2], в котором сейчас статьи по биологии и биоинформатики (источник - bioarxiv.org).

Дампы DBLP обновляются ежемесячно, их можно скачать в XML формате [3]. Это 560 мегабайт в сжатом виде и 3 гигабайта в распакованном виде. Впрочем, опять же, главное не только объём в байтах, а сами данные и возможность строить множество различных сервисов на их основе.

Ссылки:
[1] https://dblp.org
[2] https://teleg.eu/begtin/2152
[3] https://dblp.org/xml/

#opendata #data #openaccess

dblp: computer science bibliography

The dblp computer science bibliography is the online reference for open bibliographic information on major computer science journals and proceedings.

1.6K viewsIvan Begtin, 19:05

IBM добавили открытые данные в их облачный сервис IBM SQL Query [1]. Это включает геоданные и данные о демографии из таких источников как: US Census, Eurostat Census, UNdata, OpenStreetMap и Natural Earth.

Фактически, это справочные данные которые можно совместить с собственными данными для создания новых наборов данных. Подход вполне логичный, постепенно все облачные сервисы с инструментами работы с большими данными подключают многие наборы данных "из коробки' для снижения расходов клиентов.

Ссылки:
[1] https://cloud.ibm.com/docs/sql-query?topic=sql-query-what-s-new#october-2020

#opendata #data #ibm

2.3K viewsIvan Begtin, 19:14

Думал делать обзорную рассылку ежемесячно, но получается еженедельно. Очередной пост на Substack https://begtin.substack.com/p/2- "#2. Наблюдаемость данных, государство - это формы, как учёные работают с данными"

Ivan’s Begtin Newsletter on digital, open and preserved government

#2. Наблюдаемость данных, государство - это формы, как учёные работают с данными

Несмотря на моё желание писать большие тексты с рефлексией на профессиональные темы лишь раз в месяц, но получается чаще. Скорее к радости, чем к сожалению, больше тем для размышления в последнее время. Data Observability Источник: https://medium.com/@co…

1.4K viewsIvan Begtin, 19:08

В США на портале USASpending.gov теперь есть отдельный раздел COVID-19 Spending [1] где собраны все контракты, субсидии, гранты, строки бюджета, бюджетные обязательства и кредиты направленные на борьбу с COVID-19.

Как это реализуется? Для чрезвычайных ситуаций в системе контрактации США есть специальные Disaster Emergency Fund Codes (DEFC) [2], коды финансирования при чрезвычайных ситуациях, заполняемые только в случаях если расходы идут для ликвидации последствий, предупреждения или мерам реагирования при чрезвычайной ситуации.

И, в целом, у USASPending хорошо описана методология работы с этими данными [3].

Наш, российский портал Госрасходы, spending.gov.ru [4] похож на портал в США, с тем лишь различием что в России раскрытие сведений о контрактах - это побочный результат раскрытия сведений о процедурах закупок, а в США, наоборот, сведения о закупках и раскрытие информации о расходах разнесены между информационными системами. Их USASpending охватывает не только закупки и субсидии, но и все прямые платежи из федерального бюджета, а Госрасходах охватываются контракты всех уровней в России, но нет охвата транзакций.

В, принципе, российская система раскрытия информации о госфинансах одна из самых открытых в мире, даже несмотря на закрытие информации о поставщикам по контрактам по 223-ФЗ в 2018 году, принятое в рамках антисанкционных мер.

Ссылки:
[1] https://www.usaspending.gov/disaster/covid-19
[2] https://www.whitehouse.gov/wp-content/uploads/2020/04/Implementation-Guidance-for-Supplemental-Funding-Provided-in-Response.pdf
[3] https://www.usaspending.gov/disaster/covid-19/data-sources
[4] https://spending.gov.ru

#spending #usa

1.6K viewsIvan Begtin, 06:07

Незаслуженно пропущенная мной новость о том что Mozilla опубликовали исследования в направлении Data Futures [1], например, отчет Shifting Power Through Data Governance [2] о 7 подходах в управлении данными, это такие подходы как:
- data cooperative (кооператив данных)
- data commons (общие данные)
- data collaborative (совместные данные)
- data trust (фонд данных)
- data fiduciary (дата-опека)
- Indigenous data sovereignty (автохонный суверенитет над данными)
- data marketplace (маркетплейс данных)

Исследование более чем полезное для всех кто хочет понимать как будет развиваться дальнейшее регулирование работы с данными в ЕС, США и других странах. Как будет устроено управление данными в некоммерческих организациях.

Ссылки:
[1] https://foundation.mozilla.org/en/initiatives/data-futures/
[2] https://drive.google.com/file/d/1OB9iXHFCxk4Dc-1E5B_O48LKCC6mWtcT/view

#data #datapolicy

2.5K viewsIvan Begtin, 10:22

Для тех кто интересуется как исследуют госзакупки в других странах, европейский проект TheyBuyForYou.eu [1] финансируется в рамках исследовательской программы Horizon 2020 и нацелен на построение Knowledge Graph (графа знаний) на данных о закупках в Евросоюзе с использованием онтологий OCDS и euBusinessGraph.

В том числе исследователи проекта занимаются поиском типовых шаблонов и аномалий [2], правда, если честно и на мой взгляд, то они это делают довольно наивно. Для глубокого анализа и выявления разного рода "аномалий" не обойтись без работы с данными которые относятся к персональным, выявления конфликтов интересов, аффиляции участвующих поставщиков и многое другое.

Ссылки:
[1] https://theybuyforyou.eu/
[2] https://theybuyforyou.eu/detecting-patterns-and-anomalies-in-spending-data/

#opendata #procurement #eu

They Buy For You

Home - They Buy For You

3.0K viewsIvan Begtin, 06:55

Если коротко про последний указ мэра Москвы Собянина об обязанности работодателей передавать персональные данные о сотрудниках, то в России появилась новая спецслужба, это Мэрия Москвы. Почему, кто, как и зачем это им позволил, вопрос отдельный, но важно помнить что федеральные законы эта спецслужба игнорирует.

Об этом я ранее комментировал в Коммерсант.FM https://teleg.eu/kommersant/15349

#privacy #moscow #bigbrother

Коммерсантъ

#Мнение: директор некоммерческой организации «Информационная культура» Иван Бегтин — об инициативе властей обязать работодателей передавать данные переведенных на удаленку сотрудников

У нас есть специального рода службы, агентства и так далее, деятельность…

1.8K viewsIvan Begtin, 16:30

В канале TAdviser (https://teleg.eu/tadviser) просто потоком список сотрудников ПФР связанных с цифровизацией отправленных в СИЗО в последние сутки, спасибо Циниксу за наводку (https://teleg.eu/CynExp).

Хотелось бы надеяться, но нет, слишком много денег погрузили в национальную программу Цифровая экономика, слишком много денег тратят на ИТ. Сложно поверить что не вскроются ситуации и похуже чем то что происходит в ПФР.

#procurement

Новостной канал портала TAdviser.ru. Здесь только главные события ИТ-рынка и никакого информационного шума. Связь с нами по e-mail: [email protected]

1.5K viewsIvan Begtin, 17:29

Два очень разных и по разному интересных публичных доклада State of AI 2020 [1] от команды State of AI и 2020 State of the API report [2] от разработчиков сервиса проектирования и тестирования API - Postman.

В обоих случаях вопрос о развитии рынка, сервисов, направлений, потребителей. В State of AI важные прогнозы, сбывшиеся и будущие и поведение игроков на рынке. State of API куда больше про технологии и изменение в их применении потребителями и разработчиками API.

Ссылки:
[1] https://www.stateof.ai/
[2] https://www.postman.com/state-of-api
#reports

State of AI Report 2023

The State of AI Report analyses the most interesting developments in AI. Read and download here.

1.5K viewsIvan Begtin, 21:45

Для тех кто интересуется созданием и развитием государственных информационных систем в России, обратите внимание на последний бюллетень Счетной палаты [1], где на 105-107 страниц есть любопытные подробности по государственной информационной системе учета твердых коммунальных отходов (ГИС УТКО). Не без ссылки на наш аналитический доклад [2] по открытости ГИСов.

Ссылки:
[1] https://ach.gov.ru/upload/iblock/462/46234b3e3624fcccbb8bace5c892f2f4.pdf#page=105
[2] https://ach.gov.ru/upload/pdf/%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D1%81%D1%82%D0%B8%20%D0%93%D0%98%D0%A1%202020.pdf

#opendata #gis #data

1.8K viewsIvan Begtin, 14:07