Operace s daty a jejich clusterové sdílení - draft k zadání #378

Closed
opened 2019-07-07 00:53:17 +02:00 by Podhorecky · 12 comments
Podhorecky commented 2019-07-07 00:53:17 +02:00 (Migrated from git.spotter.cz)

toto je volný brainstorm k budoucímu návrhu a zadání vzniku datového interface

Daty se zde rozumí uživatelsky generované datasety, nebo existující geoprostorová data (typicky mapové vrstvy) nebo statický obsah (typicky obrázky, video)

Operacemi s datasety tu rozumíme zejména vystavení, sdílení a výměnu hotových datových sad mezi cizími instancemi VM, nikoliv v rámci jedné běžící VM s jejími uživateli. To už se podobá clusterové decentralizované struktuře.
Některé SW jako např, GeoNetwork, jsou k práci s daty z více zdrojů připravené.

co víme:

  • většina Apps umí generovat výstup vlastních dat do CSV, a / nebo jejich import, ale pak jsou i jiné datové formáty,
  • velká část obsahu dat je lidsky čitelný text, dále mohou být mapové koordináty, univerzálně srozumitelné parametry,
  • minimálně nebo nikdy datasety neobsahují šifrované řetězce, binární kódy, složitou syntaxi
  • aplikace mohou obsahovat a tedy i exportovat citlivé osobní informace, kontakty nebo info pod GDPR. Není to ale cílem těchto sdílených dat
  • geodata a mapová data jsou specificky poskytována i strukturována, zde by mělo být maximálně zachováno doporučené používání
  • v tomto stavu nejde o přenositelnost dat mezi rozdílnými apps. To by bez dalších integračních změn nešlo zařídit.

co je záměr:

vytvořit přidanou hodnotu do projektu, kdy uživateli zpracovaná / vzniklá data budou podle vůle jednotlivých provozovatelů VM lokálně i síťově dostupná, bude možné je dále aktualizovat na vlastní VM a tam budou stále pod kontrolou tvůrců. Data budou pod licencí OpenData a pokud možno decentralizovaně publikována. Příkladně pro přístup z jiné Instance VM. Není vyloučeno, že by mohly být poskytovány i mimo VM instance, tj. do veřejného internetu. Případné přebírání a modifikace můžou níst info o zdroji opendat

jak záměru dosáhnout?

Umožnit ukládání dat na vyhrazený úložný prostor pod správou jednoho DS, např u Spotter Cluster? Ano / Ne

Modifikovat stávající VM tak, aby lépe umožnila budoucí vystavení / sdílení a organizaci dat? Ano / Ne

Definovat obecná i specifická pravidla pro vytváření sdílených datových sad? Ano / Ne

Vytvořit API / metadata model provázející uživatelsky vzniklé datasety? Ano / Ne

Jak by taková metadata byla jednoznačně přiřazena k těmto datasetům? Zavést vlastní metaformát? Ano / Ne

Umožnit sdílení datových sad vzniklých na VM pouze přes centrální DS ? Ano / Ne

Udělat to s pomocí nějaké síťové mezivrstvy, nebo úložného prostoru např. NFS, nebo jiné? Ano / ne

Umožnit sdílení datových sad vzniklých na VM přímo s pomocí nějakých alternativních protokolů nebo souborových systémů? Ano / Ne

Vyplývají nějaká obecná rizika pro vzniklá data, která jsou nad rámec konkrétních apps a jsou společná pro všechny? (Zabezpečení, Náročné mazání, duplicity, rizika související se sdílením) Ano / Ne

Jak se vyrovnat s přechodnou nedostupností VM na síti a tedy s nedostupností jejich dat? Změny IP atd?

Bude nutné zásadně měnit nebo doplnit některé aplikace, nebo jejich kontejnery? Ano / Ne

Bude potřeba další middleware pro možné řešení? Jaký? Ano / Ne


Úplné řešení pro clusterové nakládání s datovými sadami by patřilo mezi Advanced Services.
Funkčnost by tedy přirozeně doplnila ostatní běžnou funkčnost jednotlivých apps, které by zůstaly ve stávající formě.

příklad odjinud: BIBBOX navrhuje použití cosi jako https://github.com/MIABIS/miabis/wiki samozřejmě nelze úplně srovnávat.

ohledně formy sdílení:

laicky (možná je to naprostá blbost) jsem měl představu o tom, že některé jednotlivé app (určitě ne všechny) umožňují sdílení svých dat do veřejné sítě. typicky <protokol><cesta><nazev souboru> To je super, ale moc to asi nezafunguje, pokud by se z nějakého důvodu změnila IP nebo privátní síť pro celou VM.
pro to by mohl vzniknout dynamický překladač těchto URL přes nějaký NFS nebo jiný protokol, který by umožnil vytvořit unikátní konektor pro odkázání na soubor v té VM. něco ve formě <protokol><hash><nazev souboru>

Něco jako https://datprotocol.github.io/how-dat-works/

pokud by se změnila IP nebo síť přes kterou je VM dostupná na internetu, tak by tento konektor směroval na novou původní adresu datového souboru. Umístění těchto konektorů by bylo ve vyhrazeném místě na VM mimo aplikaci. Toto místo by tedy bylo jen pro konektory z více různých aplikací běžících na VM.

příklad uživatelského workflow:

aplikace jako:
CKAN,
Sahana,
SeedDMS,
Pan.do/ra,
(a některé další)
poskytují URL na své konkrétní soubory nebo na databázový dotaz.
Uživatel VM by sám ručně zkopíroval tuto URL a vložil ji do rozhraní určeného k vytovření konektoru a k následnému poskytnutí do clusteru.
Uživatel/správce by mohl tento konektor později ručně odebrat.
Vlastnost a další informace o odkazovaném konektoru by mohly být čerpány z metadat o souboru (volitelně)

... je to nesmysl?

našel jsem cosi, ale nevim jestli jsem to našel správně https://www.openintegrationhub.org

toto je volný brainstorm k budoucímu návrhu a zadání vzniku datového interface Daty se zde rozumí uživatelsky generované datasety, nebo existující geoprostorová data (typicky mapové vrstvy) nebo statický obsah (typicky obrázky, video) Operacemi s datasety tu rozumíme zejména vystavení, sdílení a výměnu hotových datových sad mezi cizími instancemi VM, nikoliv v rámci jedné běžící VM s jejími uživateli. To už se podobá clusterové decentralizované struktuře. Některé SW jako např, GeoNetwork, jsou k práci s daty z více zdrojů připravené. co víme: - většina Apps umí generovat výstup vlastních dat do CSV, a / nebo jejich import, ale pak jsou i jiné datové formáty, - velká část obsahu dat je lidsky čitelný text, dále mohou být mapové koordináty, univerzálně srozumitelné parametry, - minimálně nebo nikdy datasety neobsahují šifrované řetězce, binární kódy, složitou syntaxi - aplikace mohou obsahovat a tedy i exportovat citlivé osobní informace, kontakty nebo info pod GDPR. Není to ale cílem těchto sdílených dat - geodata a mapová data jsou specificky poskytována i strukturována, zde by mělo být maximálně zachováno doporučené používání - v tomto stavu nejde o přenositelnost dat mezi rozdílnými apps. To by bez dalších integračních změn nešlo zařídit. co je záměr: vytvořit přidanou hodnotu do projektu, kdy uživateli zpracovaná / vzniklá data budou podle vůle jednotlivých provozovatelů VM lokálně i síťově dostupná, bude možné je dále aktualizovat na vlastní VM a tam budou stále pod kontrolou tvůrců. Data budou pod licencí OpenData a pokud možno decentralizovaně publikována. Příkladně pro přístup z jiné Instance VM. Není vyloučeno, že by mohly být poskytovány i mimo VM instance, tj. do veřejného internetu. Případné přebírání a modifikace můžou níst info o zdroji opendat jak záměru dosáhnout? Umožnit ukládání dat na vyhrazený úložný prostor pod správou jednoho DS, např u Spotter Cluster? Ano / Ne Modifikovat stávající VM tak, aby lépe umožnila budoucí vystavení / sdílení a organizaci dat? Ano / Ne Definovat obecná i specifická pravidla pro vytváření sdílených datových sad? Ano / Ne Vytvořit API / metadata model provázející uživatelsky vzniklé datasety? Ano / Ne Jak by taková metadata byla jednoznačně přiřazena k těmto datasetům? Zavést vlastní metaformát? Ano / Ne Umožnit sdílení datových sad vzniklých na VM pouze přes centrální DS ? Ano / Ne Udělat to s pomocí nějaké síťové mezivrstvy, nebo úložného prostoru např. NFS, nebo jiné? Ano / ne Umožnit sdílení datových sad vzniklých na VM přímo s pomocí nějakých alternativních protokolů nebo souborových systémů? Ano / Ne Vyplývají nějaká obecná rizika pro vzniklá data, která jsou nad rámec konkrétních apps a jsou společná pro všechny? (Zabezpečení, Náročné mazání, duplicity, rizika související se sdílením) Ano / Ne Jak se vyrovnat s přechodnou nedostupností VM na síti a tedy s nedostupností jejich dat? Změny IP atd? Bude nutné zásadně měnit nebo doplnit některé aplikace, nebo jejich kontejnery? Ano / Ne Bude potřeba další middleware pro možné řešení? Jaký? Ano / Ne ------------ Úplné řešení pro clusterové nakládání s datovými sadami by patřilo mezi Advanced Services. Funkčnost by tedy přirozeně doplnila ostatní běžnou funkčnost jednotlivých apps, které by zůstaly ve stávající formě. příklad odjinud: BIBBOX navrhuje použití cosi jako https://github.com/MIABIS/miabis/wiki samozřejmě nelze úplně srovnávat. ohledně formy sdílení: laicky (možná je to naprostá blbost) jsem měl představu o tom, že některé jednotlivé app (určitě ne všechny) umožňují sdílení svých dat do veřejné sítě. typicky `<protokol><cesta><nazev souboru>` To je super, **ale moc to asi nezafunguje, pokud by se z nějakého důvodu změnila IP nebo privátní síť pro celou VM.** pro to by mohl vzniknout dynamický překladač těchto URL přes nějaký NFS nebo jiný protokol, který by umožnil vytvořit unikátní konektor pro odkázání na soubor v té VM. něco ve formě `<protokol><hash><nazev souboru>` Něco jako https://datprotocol.github.io/how-dat-works/ pokud by se změnila IP nebo síť přes kterou je VM dostupná na internetu, tak by tento konektor směroval na novou původní adresu datového souboru. Umístění těchto konektorů by bylo ve vyhrazeném místě na VM mimo aplikaci. Toto místo by tedy bylo jen pro konektory z více různých aplikací běžících na VM. příklad uživatelského workflow: aplikace jako: CKAN, Sahana, SeedDMS, Pan.do/ra, (a některé další) poskytují URL na své konkrétní soubory nebo na databázový dotaz. Uživatel VM by sám ručně zkopíroval tuto URL a vložil ji do rozhraní určeného k vytovření konektoru a k následnému poskytnutí do clusteru. Uživatel/správce by mohl tento konektor později ručně odebrat. Vlastnost a další informace o odkazovaném konektoru by mohly být čerpány z metadat o souboru (volitelně) ... je to nesmysl? našel jsem cosi, ale nevim jestli jsem to našel správně https://www.openintegrationhub.org
Podhorecky commented 2019-07-07 00:53:17 +02:00 (Migrated from git.spotter.cz)

changed milestone to %7

changed milestone to %7
Podhorecky commented 2019-07-07 10:54:04 +02:00 (Migrated from git.spotter.cz)

changed the description

changed the description
Podhorecky commented 2019-07-07 11:03:23 +02:00 (Migrated from git.spotter.cz)

changed the description

changed the description
Podhorecky commented 2019-07-07 11:28:17 +02:00 (Migrated from git.spotter.cz)

changed the description

changed the description
Podhorecky commented 2019-07-07 14:18:41 +02:00 (Migrated from git.spotter.cz)

changed the description

changed the description
Podhorecky commented 2019-07-07 18:04:28 +02:00 (Migrated from git.spotter.cz)

jen si odložím

OPEN DATA INFRASTRUCTURE FOR CITY RESILIENCEA ROADMAP SHOWCASE AND GUIDE

koncepční dokument od OIDR - notičky pro použití opendat k zodolnění měst a komunit proti krizovým událostem

ODIR_Publication_Final_16042018_opt.pdf

jen si odložím OPEN DATA INFRASTRUCTURE FOR CITY RESILIENCEA ROADMAP SHOWCASE AND GUIDE koncepční dokument od OIDR - notičky pro použití opendat k zodolnění měst a komunit proti krizovým událostem [ODIR_Publication_Final_16042018_opt.pdf](/uploads/5d21caa478badd72eb20b729f282ec6e/ODIR_Publication_Final_16042018_opt.pdf)
Podhorecky commented 2019-07-08 09:01:25 +02:00 (Migrated from git.spotter.cz)

changed the description

changed the description
Podhorecky commented 2019-07-08 09:30:54 +02:00 (Migrated from git.spotter.cz)

changed the description

changed the description
Podhorecky commented 2019-08-12 21:18:24 +02:00 (Migrated from git.spotter.cz)

související:

tady je draft na wiki o typech dat, které se používají v software pro rozvojovou pomoc. (včetně humanitární) https://en.wikipedia.org/wiki/Draft:International_Development_Data_Types

což je vlastně docela kompletní seznam, s kterými daty se dá setkat při používání SW v naší pozornosti.

Netuším, jestli to směřuje k nějaké standartizaci, nebo novému metadatovému definování, asi nezbývá než si počkat zda se toho někdo neujme.

související: tady je draft na wiki o typech dat, které se používají v software pro rozvojovou pomoc. (včetně humanitární) https://en.wikipedia.org/wiki/Draft:International_Development_Data_Types což je vlastně docela kompletní seznam, s kterými daty se dá setkat při používání SW v naší pozornosti. Netuším, jestli to směřuje k nějaké standartizaci, nebo novému metadatovému definování, asi nezbývá než si počkat zda se toho někdo neujme.
Podhorecky commented 2019-08-12 21:23:38 +02:00 (Migrated from git.spotter.cz)

kopie

Digital Data Types Used in International Development

International humanitarian and development projects rely upon analysis of data created by digital technologies to evaluate project performance, manage projects and to identify future needs and opportunities. Artificial intelligence tools, including machine learning, deep learning and deep neural networks, enable increasingly complex analyses that can establish correlations between and amongst that traditional form of analysis might otherwise miss. This article is a resource for international development practitioners seeking to do more with data, specifically to find useful correlations between seemingly disparate data types. It is a community resource placed on Wikipedia so that experts can edit and contribute examples and insights.

Technologies providing data:

  1. Mobile network data

  2. Satellite data, including from satellites focused on earth observation, communications and internet of things (IOT) networks

  3. Sensor data

  4. Wearable technology data (a distinct form of sensor data deserving its own consideration)

  5. Network data

  6. Social media usage data (including over the top, or "OTT" services such as WhatsApp, Facebook, Netflix, etc.)

  7. Mobile money transfers

  8. Crowdsourced data

  9. Human-computer interaction data

  10. Weather station data

——————————————————————————————————————————————

  1. Mobile network data

a. Call detail records (CDRs) are captured every 15 minutes from each individual cell tower. They include:

phone number of person calling
phone number receiving the call
starting time of the call (date and time)
call duration
the billing phone number charged for the call
the identification of the telephone exchange or equipment writing the record
a unique sequence number identifying the record
additional digits on the called number used to route or charge the call
the disposition or the results of the call, indicating, for example, whether or not the call was connected
the route by which the call entered the exchange
the route by which the call left the exchange
call type (voice, SMS, USSD, etc.)
any fault condition encountered

Useful information that adds to an understanding of CDRs includes the tower location, height, frequency, coverage area and information on up-time and downtime

b. Radio resource data

"The major functions of the RRC protocol include connection establishment and release functions, broadcast of system information, radio bearer establishment, reconfiguration and release, RRC connection mobility procedures, paging notification and release and outer loop power control."

  1. Satellite data

    Imagery includes visible and invisible light. The bands include:

    NIR1 (near infrared 1)
    Red
    Green
    Blue
    Red Edge
    Yellow
    Coastal
    NIR2 (near infrared 2)
    SWIR-1 (Shortwave infrared)
    SWIR-2
    SWIR-3
    SWIR-4
    SWIR-5
    SWIR-6
    SWIR-7

    Light Detection and Ranging (LIDAR) uses laser pulses to measure ranges to the Earth and the height of physical objects on the earth's surface.

The two types of LIDAR are topographic (3D dimensions of the earth) and bathymetric (related to water). It can also be used to detect chemicals in the air.[5]

Radio Detection and Ranging (RADAR)
Unmanned Aerial Systems
Hyperspectral Imagery
Thermal Imagery
Aerial Photography (by manned aircraft or UAV)

Remote sensing satellites can be tasked to collect new imagery. Satellite companies also resell imagery at a discount.

  1. Sensor data

    Water levels
    Temperature
    Water acidity
    Battery levels
    Lumens
    Components need replacing
    Amount of local storage remaining
    current settings

  2. Wearable data

This data comes from smart devices attached onto or inside the body. Data types include:

accelerometer data
heart rate
GPS
Gyroscope
Compass
audio
microphone
ambient light
barometer
ambient temperature
body temperature
  1. Social media usage

    Number of connections
    Frequency of posts by type
    Number of views
    Number of likes
    Number of reposts
    Bulleted list item

  2. Mobile Money transfers

    Sender
    Recipient
    Amount
    Time of transfer
    Currency
    Sender location
    Recipient location
    How much left in mobile wallet
    How much cashed out
    % of GDP
    rate of automatic payments usage
    loan amount
    loan repayment period
    loan interest rate

  3. Crowdsourced data

    observations by location and time
    polling/surveys

  4. Human-computer interaction data

    Average # of interface layers users pass through
    Amount of time spent on one section of page before scrolling

  5. Weather station data

    temperature
    Degree days
    Sun
    Weather type
    precipitation
    pressure
    Wind
    Wind Speed

kopie Digital Data Types Used in International Development International humanitarian and development projects rely upon analysis of data created by digital technologies to evaluate project performance, manage projects and to identify future needs and opportunities. Artificial intelligence tools, including machine learning, deep learning and deep neural networks, enable increasingly complex analyses that can establish correlations between and amongst that traditional form of analysis might otherwise miss. This article is a resource for international development practitioners seeking to do more with data, specifically to find useful correlations between seemingly disparate data types. It is a community resource placed on Wikipedia so that experts can edit and contribute examples and insights. Technologies providing data: 1. Mobile network data 2. Satellite data, including from satellites focused on earth observation, communications and internet of things (IOT) networks 3. Sensor data 4. Wearable technology data (a distinct form of sensor data deserving its own consideration) 5. Network data 6. Social media usage data (including over the top, or "OTT" services such as WhatsApp, Facebook, Netflix, etc.) 7. Mobile money transfers 8. Crowdsourced data 9. Human-computer interaction data 10. Weather station data —————————————————————————————————————————————— 1. Mobile network data a. Call detail records (CDRs) are captured every 15 minutes from each individual cell tower. They include: phone number of person calling phone number receiving the call starting time of the call (date and time) call duration the billing phone number charged for the call the identification of the telephone exchange or equipment writing the record a unique sequence number identifying the record additional digits on the called number used to route or charge the call the disposition or the results of the call, indicating, for example, whether or not the call was connected the route by which the call entered the exchange the route by which the call left the exchange call type (voice, SMS, USSD, etc.) any fault condition encountered Useful information that adds to an understanding of CDRs includes the tower location, height, frequency, coverage area and information on up-time and downtime b. Radio resource data "The major functions of the RRC protocol include connection establishment and release functions, broadcast of system information, radio bearer establishment, reconfiguration and release, RRC connection mobility procedures, paging notification and release and outer loop power control." 2. Satellite data Imagery includes visible and invisible light. The bands include: NIR1 (near infrared 1) Red Green Blue Red Edge Yellow Coastal NIR2 (near infrared 2) SWIR-1 (Shortwave infrared) SWIR-2 SWIR-3 SWIR-4 SWIR-5 SWIR-6 SWIR-7 Light Detection and Ranging (LIDAR) uses laser pulses to measure ranges to the Earth and the height of physical objects on the earth's surface. The two types of LIDAR are topographic (3D dimensions of the earth) and bathymetric (related to water). It can also be used to detect chemicals in the air.[5] Radio Detection and Ranging (RADAR) Unmanned Aerial Systems Hyperspectral Imagery Thermal Imagery Aerial Photography (by manned aircraft or UAV) Remote sensing satellites can be tasked to collect new imagery. Satellite companies also resell imagery at a discount. 3. Sensor data Water levels Temperature Water acidity Battery levels Lumens Components need replacing Amount of local storage remaining current settings 4. Wearable data This data comes from smart devices attached onto or inside the body. Data types include: accelerometer data heart rate GPS Gyroscope Compass audio microphone ambient light barometer ambient temperature body temperature 6. Social media usage Number of connections Frequency of posts by type Number of views Number of likes Number of reposts Bulleted list item 7. Mobile Money transfers Sender Recipient Amount Time of transfer Currency Sender location Recipient location How much left in mobile wallet How much cashed out % of GDP rate of automatic payments usage loan amount loan repayment period loan interest rate 8. Crowdsourced data observations by location and time polling/surveys 9. Human-computer interaction data Average # of interface layers users pass through Amount of time spent on one section of page before scrolling 10. Weather station data temperature Degree days Sun Weather type precipitation pressure Wind Wind Speed
Podhorecky commented 2020-04-17 15:21:47 +02:00 (Migrated from git.spotter.cz)

všiml jsem si, že v Sahaně je nyní zahrnuto "vystavení" datových sad s nastavením jejich konkrétní URL. To je pěkné, něco takového jsem promýšlel. Neni to sice CKAN, ale to se dá pochopit.

Taky tam je nastavení pro správu deploymentů,

všiml jsem si, že v Sahaně je nyní zahrnuto "vystavení" datových sad s nastavením jejich konkrétní URL. To je pěkné, něco takového jsem promýšlel. Neni to sice CKAN, ale to se dá pochopit. Taky tam je nastavení pro správu deploymentů,
Disassembler commented 2020-06-20 17:42:05 +02:00 (Migrated from git.spotter.cz)

moved to Spotter-Cluster#13

moved to Spotter-Cluster#13
Sign in to join this conversation.
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: Spotter-Cluster/Spotter-VM#378
No description provided.