Ivan Begtin
8.06K subscribers
1.47K photos
3 videos
99 files
4.2K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Contact @NMBabina for ads proposals
Download Telegram
Вышли два свежих европейских документов про работу с данными. Оба опубликованы Joint Research Centre (JRC) при Еврокомиссии.
Первый документ Application Programming Interfaces in Governments: Why, what and how [1] о том как важно чтобы в рамках цифровых правительств развивались сервисы API. С большим числом примером в странах ЕС, включая, например, Французский национальный реестр API [2]. В документе много разных сторон работы API рассмотрено и, что важно, использование программных интерфейсов рассматривается как часть государственной политики.

Второй документ The economics of Business to Government data sharing [3] посвящён тому как работает экономика предоставления данных государству коммерческими компаниями. Это технический отчет с указанием на возможности и ограничения того как бизнес может передавать данные государственным органам и как это может развиваться. Там есть несколько чисто европейских допущений что государства не конкурируют с бизнесом, с ними можно поспорить. В остальном полезное чтение, хотя и короткое.

Ссылки:
[1] https://ec.europa.eu/jrc/en/publication/eur-scientific-and-technical-research-reports/application-programming-interfaces-governments-why-what-and-how
[2] https://api.gouv.fr/
[3] https://ec.europa.eu/jrc/en/publication/eur-scientific-and-technical-research-reports/economics-business-government-data-sharing

#opendata #api #government #digital
Слухи давно ходили и вот теперь официальное подтверждение, закрывается Sunlight Foundation [1], некогда чуть ли не первое НКО задававшее стандарты работы с данными государства, запустившие десятки разных проектов. Но 4 года назад они закрыли свою лабораторию Sunlight Labs [2] и раздали свои проекты другим НКО, некоторым госорганам и исследовательским центрам [3]

Истинные причины закрытия Sunlight Foundation мне неизвестны, но всё хорошее, действительно, не вечно.

Ссылки:
[1] https://sunlightfoundation.com/2020/09/24/a-note-from-the-sunlight-foundations-board-chair/
[2] https://sunlightfoundation.com/2016/09/21/whats-next-for-sunlight-labs/
[3] https://sunlightfoundation.com/2016/11/01/sunlight-labs-update-nonprofits-step-up-to-preserve-tools-for-transparency/

#opendata #opensource #sunlight
После довольно долгих размышлений, я, всё таки, решил активировать аккаунт Substack и использовать этот формат для регулярных больших заметок и рассуждение на темы о которых думаю давно. Substack - это формат для больших текстов, с некоторой рефлексией и не обязательно завершёнными размышлениями, но с некоторой их зрелостью.

Это будет сильно отличаться от моего канала в телеграм и от личного блога. Как и во всех текстах основанных на профессиональной и иногда личной рефлексии, здесь я не буду претендовать на точность мысли, но буду вкладывать в написанной столько последовательности сколько смогу.

Первая email рассылка ушла с темой "Размышления конца сентября 2020. Будущее государственного и общественного аудита и контроля, обнаружение данных и многое другое".

Следующая рассылка будет не раньше конца октября.

#substack #texts
Ещё в 2015 году ЮНЕСКО объявили 28 сентября Международным днём универсального доступа к информации [1], в этом году на русском об этом в послании Генерального директора ЮНЕСКО Одрэ Азуле. [2]. Конференция IDUAI и мероприятия в этом году отложены из-за COVID-19, но 28-30 сентября идут онлайн вебинары посвященные открытости информации и идущие под эгидой ЮНЕСКО.

Ссылки;
[1] https://en.unesco.org/commemorations/accesstoinformationday/
[2] https://unesdoc.unesco.org/ark:/48223/pf0000374375_rus.locale=en

#opendata #openness #transparency #unesco
Правительство РФ, в лице Минстроя инициировало создание Единого государственного заказчика в строительстве, по оценке СМИ его бюджет может составить до 5 триллионов рублей [1]. В законопроекте указано что он создаётся в форме публично-правовой компании (код ОКОПФ - 71600), а то есть некоммерческой организации в прямом подчинении Правительства, через Минстрой РФ.

До окончания независимой антикоррупционной экспертизы законопроекта остался один день и до окончания общественного обсуждения 9 дней [2].

Судя по полномочиям единого государственного заказчика, сумма там, всё же, менее 5 триллионов поскольку в его ведении будут только объекты культурного наследия, поэтому точные масштабы его деятельности и охвата пока измерить сложно.

Какие вопросы в этой ситуации необходимо задать самим себе?
1. По какому ФЗ будут проводится закупки единым заказчиком? 44-ФЗ? 223-ФЗ? Или по 615-ПП. Например Фонд реновации (Москвы) размещает закупки по 223-ФЗ [3]. Другие АНОшки созданные Правительством Москвы по благоустройству города и тд, вообще не подпадают ни под один из ФЗ
2. Ограничится ли только культурным наследием как это прописаны в законопроекте или полномочия публично-правовой компании будут расширять?

Можно сразу утверждать что это будет не по 44-ФЗ, иначе не было бы смысла создавать публично-правовую компанию и выводить из под системы бюджетных учреждений. Проблема в том что 44-ФЗ объединяет, и совершенно жуткие и неприятные процедуры закупок, в которых наиболее комфортно себя чувствуют как раз наиболее коррумпированные заказчики и поставщики-рейдеры и одновременно все вопросы открытости госконтрактации заложены в том же 44-ФЗ.


Ссылки:
[1] http://ancb.ru/publication/read/10185
[2] https://regulation.gov.ru/projects#npa=108688
[3] https://spending.gov.ru/goscontracts/contracts/?productsearch=&regnum=&daterange=&price_from=&price_to=&customerregion=&address=&budgetlevel=&okdp_okpd=&fz=&customerinn=7703434808&customerkpp=&supplierinn=&supplierkpp=

#procurement #spending #contracts
В Nature статья о переосмыслении научных статей, и перевод их в формат "исполняемых статей" (executable papers) [1] идея в том что электронная научная публикация должна иметь формат аналогичный цифровым записным книжкам таким как Jupyter Notebook или Wolfram Notebook и должна включать всё необходимое, исходный код и данные для её перепроверки. Эта концепция не нова, и давно присутствует, например, в Codalab [2], но пока ещё она не стала всеобъемлющей.

Автор приводит пример с его статьей с анализом данных температуры земли, опубликованными данными и кодом [3]. А также множество примеров проектов готовых шаблонов воспроизводимых проектов [4].

Основной и важнейший, можно сказать инновационный, подход в том что научная статья/публикация - это не документ, а некий интерактивный открытый цифровой продукт, включающий как описания и выводы, так и исходный код, данные и формулы организованные таким образом чтобы можно было максимально упросить работу по воспроизведению результатов.

Определение из CodaLab звучит как
A CodaLab executable paper is a worksheet that contains the code, data, main experiments, tables, and graphs used in a published paper (think of it as an appendix or supplementary material).

Ещё в 2013 году об этом писали в Elsevier Labs [6], а ещё в 2011 году запускали конкурс "исполняемых статей" [7] [8], но мир изменился с тех пор и сейчас главным приоритетом является именно открытость таких публикаций и использование свободных и открытых инструментов и сервисов хранения данных.

Практика публикации исполняемых статей есть, например, в журнале eLife [9], а обзор открытых инструментов для их подготовки есть в статье Publishing computational research - a review of infrastructures for reproducible and transparent scholarly communication [8]. Если вкратце, существует как минимум 11 сервисов, большая часть, но не все из которых основаны на Jupiter Notebook.

Больше публикаций об этом можно найти, например, в результатах проекта Open Reproducible Research II [11] в Universität Münster

По всем впечатлениям скоро исполняемые статьи станут мейнстримом во всех работах где есть работа с данными и создание кода, а в течение нескольких лет, а может и быстрее, появятся формальные стандарты на основе существующих стандартов де-факто.


Ссылки:
[1] https://www.nature.com/articles/s42005-020-00403-4
[2] https://codalab-worksheets.readthedocs.io/en/latest/Executable-Papers/
[3] https://zenodo.org/record/3831237#.X3QQDO1n1hE
[4] https://gitlab.com/makhlaghi/reproducible-paper
[5] https://codalab-worksheets.readthedocs.io/en/latest/Executable-Papers/
[6] https://www.elsevier.com/connect/executable-papers-in-computer-science-go-live-on-sciencedirect
[7] https://www.journals.elsevier.com/pattern-recognition-letters/news/introducing-executable-papers
[8] https://www.slideshare.net/anitawaard/executable-papers
[9] https://elifesciences.org/for-the-press/eb096af1/elife-launches-executable-research-articles-for-publishing-computationally-reproducible-results
[10] https://arxiv.org/ftp/arxiv/papers/2001/2001.00484.pdf
[11] https://www.uni-muenster.de/forschungaz/project/12343?lang=en

#data #opendata #openscience #openaccess
Краткий дайджест статей и публикаций про данные:
- обзор материалов прошедшей конференции RecSys 20202 о рекомендательных системах https://eugeneyan.com/writing/recsys2020/
- о том как устроен хайп вокруг данных с точки зрения инвестфонда https://medium.com/northzone/unpacking-the-data-hype-8c3a0ae63564
- HarbrData, сервис для тех кто хочет строить свои маркетплейсы на данных https://www.harbrdata.com/
- много интересного про данные на Open Source Strategy Forum https://events.linuxfoundation.org/open-source-strategy-forum/program/schedule/

#data #datatools #dbs
AI Localism - это когда регулирование алгоритмических систем осуществляется на уровне города, муниципального образования, с охватом жизни людей на четко очерченной территории. Об этом Stefaan Verhulst писал ещё в феврале 2020 [1], а вот и подоспели живые примеры такого регулирования.

Городские власти Амстердама и Хельсинки ввели реестры алгоритмических систем / ИИ [3] [4]. Пока систем там немного и информации о них также немного, сами реестры работают на платформе Saidot [5], создателей которой вместе с представителями городов Амстердама и Хельсинки описывает то почему и зачем это делается в документе Public AI Registers [6]


Ссылки:
[1] https://medium.com/data-stewards-network/realizing-the-potential-of-ai-localism-c3d8b4c751ca
[2] https://news.cision.com/fi/city-of-helsinki/r/helsinki-and-amsterdam-first-cities-in-the-world-to-launch-open-ai-register,c3204076
[3] http://ai.hel.fi/
[4] https://algoritmeregister.amsterdam.nl/
[5] https://www.saidot.ai/
[6] https://uploads-ssl.webflow.com/5c8abedb10ed656ecfb65fd9/5f6f334b49d5444079726a79_AI%20Registers%20-%20White%20paper%201.0.pdf

#ai #transparency
Я реже чем надо пишу о том чем, в том числе, занимается Инфокультура. Например, помощью НКО
На ютуб-канале Инфокультуры опубликована серия видеоуроков для сотрудников некоммерческих организаций. В роликах социологи и эксперты по работе с данными рассказывают, с чего начать изучение социальной проблемы, как правильно сформулировать методологическую часть исследования, выбрать методы, построить выборочную совокупность, а также какие нюансы важно знать при сборе и обработке персональных данных.

Смотрите ролики на нашем канале:
🔹 Проблема, объект и предмет, цель, задачи и гипотезы исследования. Владимир Звоновский https://youtu.be/e3Lq7jW7kBU
🔹 Методы исследования. Часть 1. Анна Ипатова https://youtu.be/faeTxscIMHI
🔹 Методы исследования. Часть 2. Анна Ипатова https://youtu.be/LPNsiOWDstU
🔹 Как грамотно построить выборочную совокупность? Владимир Звоновский https://youtu.be/Dk-9LucK7pQ
🔹 Особенности работы с персональными данными. Иван Бегтин https://youtu.be/qd4aZmBzCM8
Kostas Stathoulopoulos, стажёр в Фонде Mozilla создал [1] инструмент с открытым кодом Orion [2] в котором с помощью машинного обучения производится поиск перспективных научных направлений и областей научных знаний с большими пробелами.

Подробнее о разработке в блоге автора [3].

Основным источником материалов был BioArxiv, поэтому большой акцент на биологии, но авторы обещают что проиндексировать могут любые статьи, так что, видимо, проект ещё будет развиваться.

Ссылки:
[1] https://foundation.mozilla.org/en/blog/open-source-tool-accelerate-scientific-knowledge-discovery/
[2] https://www.orion-search.org/
[3] https://medium.com/@kstathou/a-walkthrough-of-orions-backend-data-and-design-decisions-f60c01b507aa
[4] https://www.biorxiv.org/

#openscience #opendata
Для тех кто хочет поработать с большими данными или, например, ищет учебные задачи для студентов ИТ специальностей, обратите внимание на DBLP [1]. Это огромная библиографическая база из более чем 5 миллионов 284 тысяч публикаций, включая публикации в журналах, по итогам конференций, книг и тезисов. Для всех кто пишет научные статьи - это огромная база метаданных необходимая для работы.

Но, конечно, такой объём данных интересен не только для выбора тем для научных статей и исследований, он практически идеально подходит для создания инструментов вроде Orion [2], в котором сейчас статьи по биологии и биоинформатики (источник - bioarxiv.org).

Дампы DBLP обновляются ежемесячно, их можно скачать в XML формате [3]. Это 560 мегабайт в сжатом виде и 3 гигабайта в распакованном виде. Впрочем, опять же, главное не только объём в байтах, а сами данные и возможность строить множество различных сервисов на их основе.

Ссылки:
[1] https://dblp.org
[2] https://teleg.eu/begtin/2152
[3] https://dblp.org/xml/

#opendata #data #openaccess
IBM добавили открытые данные в их облачный сервис IBM SQL Query [1]. Это включает геоданные и данные о демографии из таких источников как: US Census, Eurostat Census, UNdata, OpenStreetMap и Natural Earth.

Фактически, это справочные данные которые можно совместить с собственными данными для создания новых наборов данных. Подход вполне логичный, постепенно все облачные сервисы с инструментами работы с большими данными подключают многие наборы данных "из коробки' для снижения расходов клиентов.

Ссылки:
[1] https://cloud.ibm.com/docs/sql-query?topic=sql-query-what-s-new#october-2020

#opendata #data #ibm
В США на портале USASpending.gov теперь есть отдельный раздел COVID-19 Spending [1] где собраны все контракты, субсидии, гранты, строки бюджета, бюджетные обязательства и кредиты направленные на борьбу с COVID-19.

Как это реализуется? Для чрезвычайных ситуаций в системе контрактации США есть специальные Disaster Emergency Fund Codes (DEFC) [2], коды финансирования при чрезвычайных ситуациях, заполняемые только в случаях если расходы идут для ликвидации последствий, предупреждения или мерам реагирования при чрезвычайной ситуации.

И, в целом, у USASPending хорошо описана методология работы с этими данными [3].

Наш, российский портал Госрасходы, spending.gov.ru [4] похож на портал в США, с тем лишь различием что в России раскрытие сведений о контрактах - это побочный результат раскрытия сведений о процедурах закупок, а в США, наоборот, сведения о закупках и раскрытие информации о расходах разнесены между информационными системами. Их USASpending охватывает не только закупки и субсидии, но и все прямые платежи из федерального бюджета, а Госрасходах охватываются контракты всех уровней в России, но нет охвата транзакций.

В, принципе, российская система раскрытия информации о госфинансах одна из самых открытых в мире, даже несмотря на закрытие информации о поставщикам по контрактам по 223-ФЗ в 2018 году, принятое в рамках антисанкционных мер.

Ссылки:
[1] https://www.usaspending.gov/disaster/covid-19
[2] https://www.whitehouse.gov/wp-content/uploads/2020/04/Implementation-Guidance-for-Supplemental-Funding-Provided-in-Response.pdf
[3] https://www.usaspending.gov/disaster/covid-19/data-sources
[4] https://spending.gov.ru

#spending #usa
Незаслуженно пропущенная мной новость о том что Mozilla опубликовали исследования в направлении Data Futures [1], например, отчет Shifting Power Through Data Governance [2] о 7 подходах в управлении данными, это такие подходы как:
- data cooperative (кооператив данных)
- data commons (общие данные)
- data collaborative (совместные данные)
- data trust (фонд данных)
- data fiduciary (дата-опека)
- Indigenous data sovereignty (автохонный суверенитет над данными)
- data marketplace (маркетплейс данных)

Исследование более чем полезное для всех кто хочет понимать как будет развиваться дальнейшее регулирование работы с данными в ЕС, США и других странах. Как будет устроено управление данными в некоммерческих организациях.

Ссылки:
[1] https://foundation.mozilla.org/en/initiatives/data-futures/
[2] https://drive.google.com/file/d/1OB9iXHFCxk4Dc-1E5B_O48LKCC6mWtcT/view

#data #datapolicy
Для тех кто интересуется как исследуют госзакупки в других странах, европейский проект TheyBuyForYou.eu [1] финансируется в рамках исследовательской программы Horizon 2020 и нацелен на построение Knowledge Graph (графа знаний) на данных о закупках в Евросоюзе с использованием онтологий OCDS и euBusinessGraph.

В том числе исследователи проекта занимаются поиском типовых шаблонов и аномалий [2], правда, если честно и на мой взгляд, то они это делают довольно наивно. Для глубокого анализа и выявления разного рода "аномалий" не обойтись без работы с данными которые относятся к персональным, выявления конфликтов интересов, аффиляции участвующих поставщиков и многое другое.

Ссылки:
[1] https://theybuyforyou.eu/
[2] https://theybuyforyou.eu/detecting-patterns-and-anomalies-in-spending-data/

#opendata #procurement #eu
Если коротко про последний указ мэра Москвы Собянина об обязанности работодателей передавать персональные данные о сотрудниках, то в России появилась новая спецслужба, это Мэрия Москвы. Почему, кто, как и зачем это им позволил, вопрос отдельный, но важно помнить что федеральные законы эта спецслужба игнорирует.

Об этом я ранее комментировал в Коммерсант.FM https://teleg.eu/kommersant/15349

#privacy #moscow #bigbrother
В канале TAdviser (https://teleg.eu/tadviser) просто потоком список сотрудников ПФР связанных с цифровизацией отправленных в СИЗО в последние сутки, спасибо Циниксу за наводку (https://teleg.eu/CynExp).

Хотелось бы надеяться, но нет, слишком много денег погрузили в национальную программу Цифровая экономика, слишком много денег тратят на ИТ. Сложно поверить что не вскроются ситуации и похуже чем то что происходит в ПФР.

#procurement
Два очень разных и по разному интересных публичных доклада State of AI 2020 [1] от команды State of AI и 2020 State of the API report [2] от разработчиков сервиса проектирования и тестирования API - Postman.

В обоих случаях вопрос о развитии рынка, сервисов, направлений, потребителей. В State of AI важные прогнозы, сбывшиеся и будущие и поведение игроков на рынке. State of API куда больше про технологии и изменение в их применении потребителями и разработчиками API.

Ссылки:
[1] https://www.stateof.ai/
[2] https://www.postman.com/state-of-api
#reports
Для тех кто интересуется созданием и развитием государственных информационных систем в России, обратите внимание на последний бюллетень Счетной палаты [1], где на 105-107 страниц есть любопытные подробности по государственной информационной системе учета твердых коммунальных отходов (ГИС УТКО). Не без ссылки на наш аналитический доклад [2] по открытости ГИСов.


Ссылки:
[1] https://ach.gov.ru/upload/iblock/462/46234b3e3624fcccbb8bace5c892f2f4.pdf#page=105
[2] https://ach.gov.ru/upload/pdf/%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D1%81%D1%82%D0%B8%20%D0%93%D0%98%D0%A1%202020.pdf

#opendata #gis #data
How to Change Teams Background