Operace s daty a jejich clusterové sdílení - draft k zadání #378
Labels
No Label
app-basic
app-ckan
app-crisiscleanup
app-cts
app-decidim
app-dhis2
app-frontlinesms
app-gnuhealth
app-kanboard
app-mifosx
app-motech
app-odoo
app-opendatakit
app-pandora
app-sahana
app-seeddms
app-sigmah
app-taarifa
app-ushahidi
critical
CZ
documentation
Doing
enhancement
GMaps
info
Mapbox
needinfo
new-app
OSM
performance
QGIS
regression
suggestion
To Do
upstream
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: Spotter-Cluster/Spotter-VM#378
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
toto je volný brainstorm k budoucímu návrhu a zadání vzniku datového interface
Daty se zde rozumí uživatelsky generované datasety, nebo existující geoprostorová data (typicky mapové vrstvy) nebo statický obsah (typicky obrázky, video)
Operacemi s datasety tu rozumíme zejména vystavení, sdílení a výměnu hotových datových sad mezi cizími instancemi VM, nikoliv v rámci jedné běžící VM s jejími uživateli. To už se podobá clusterové decentralizované struktuře.
Některé SW jako např, GeoNetwork, jsou k práci s daty z více zdrojů připravené.
co víme:
co je záměr:
vytvořit přidanou hodnotu do projektu, kdy uživateli zpracovaná / vzniklá data budou podle vůle jednotlivých provozovatelů VM lokálně i síťově dostupná, bude možné je dále aktualizovat na vlastní VM a tam budou stále pod kontrolou tvůrců. Data budou pod licencí OpenData a pokud možno decentralizovaně publikována. Příkladně pro přístup z jiné Instance VM. Není vyloučeno, že by mohly být poskytovány i mimo VM instance, tj. do veřejného internetu. Případné přebírání a modifikace můžou níst info o zdroji opendat
jak záměru dosáhnout?
Umožnit ukládání dat na vyhrazený úložný prostor pod správou jednoho DS, např u Spotter Cluster? Ano / Ne
Modifikovat stávající VM tak, aby lépe umožnila budoucí vystavení / sdílení a organizaci dat? Ano / Ne
Definovat obecná i specifická pravidla pro vytváření sdílených datových sad? Ano / Ne
Vytvořit API / metadata model provázející uživatelsky vzniklé datasety? Ano / Ne
Jak by taková metadata byla jednoznačně přiřazena k těmto datasetům? Zavést vlastní metaformát? Ano / Ne
Umožnit sdílení datových sad vzniklých na VM pouze přes centrální DS ? Ano / Ne
Udělat to s pomocí nějaké síťové mezivrstvy, nebo úložného prostoru např. NFS, nebo jiné? Ano / ne
Umožnit sdílení datových sad vzniklých na VM přímo s pomocí nějakých alternativních protokolů nebo souborových systémů? Ano / Ne
Vyplývají nějaká obecná rizika pro vzniklá data, která jsou nad rámec konkrétních apps a jsou společná pro všechny? (Zabezpečení, Náročné mazání, duplicity, rizika související se sdílením) Ano / Ne
Jak se vyrovnat s přechodnou nedostupností VM na síti a tedy s nedostupností jejich dat? Změny IP atd?
Bude nutné zásadně měnit nebo doplnit některé aplikace, nebo jejich kontejnery? Ano / Ne
Bude potřeba další middleware pro možné řešení? Jaký? Ano / Ne
Úplné řešení pro clusterové nakládání s datovými sadami by patřilo mezi Advanced Services.
Funkčnost by tedy přirozeně doplnila ostatní běžnou funkčnost jednotlivých apps, které by zůstaly ve stávající formě.
příklad odjinud: BIBBOX navrhuje použití cosi jako https://github.com/MIABIS/miabis/wiki samozřejmě nelze úplně srovnávat.
ohledně formy sdílení:
laicky (možná je to naprostá blbost) jsem měl představu o tom, že některé jednotlivé app (určitě ne všechny) umožňují sdílení svých dat do veřejné sítě. typicky
<protokol><cesta><nazev souboru>
To je super, ale moc to asi nezafunguje, pokud by se z nějakého důvodu změnila IP nebo privátní síť pro celou VM.pro to by mohl vzniknout dynamický překladač těchto URL přes nějaký NFS nebo jiný protokol, který by umožnil vytvořit unikátní konektor pro odkázání na soubor v té VM. něco ve formě
<protokol><hash><nazev souboru>
Něco jako https://datprotocol.github.io/how-dat-works/
pokud by se změnila IP nebo síť přes kterou je VM dostupná na internetu, tak by tento konektor směroval na novou původní adresu datového souboru. Umístění těchto konektorů by bylo ve vyhrazeném místě na VM mimo aplikaci. Toto místo by tedy bylo jen pro konektory z více různých aplikací běžících na VM.
příklad uživatelského workflow:
aplikace jako:
CKAN,
Sahana,
SeedDMS,
Pan.do/ra,
(a některé další)
poskytují URL na své konkrétní soubory nebo na databázový dotaz.
Uživatel VM by sám ručně zkopíroval tuto URL a vložil ji do rozhraní určeného k vytovření konektoru a k následnému poskytnutí do clusteru.
Uživatel/správce by mohl tento konektor později ručně odebrat.
Vlastnost a další informace o odkazovaném konektoru by mohly být čerpány z metadat o souboru (volitelně)
... je to nesmysl?
našel jsem cosi, ale nevim jestli jsem to našel správně https://www.openintegrationhub.org
changed milestone to %7
changed the description
changed the description
changed the description
changed the description
jen si odložím
OPEN DATA INFRASTRUCTURE FOR CITY RESILIENCEA ROADMAP SHOWCASE AND GUIDE
koncepční dokument od OIDR - notičky pro použití opendat k zodolnění měst a komunit proti krizovým událostem
ODIR_Publication_Final_16042018_opt.pdf
changed the description
changed the description
související:
tady je draft na wiki o typech dat, které se používají v software pro rozvojovou pomoc. (včetně humanitární) https://en.wikipedia.org/wiki/Draft:International_Development_Data_Types
což je vlastně docela kompletní seznam, s kterými daty se dá setkat při používání SW v naší pozornosti.
Netuším, jestli to směřuje k nějaké standartizaci, nebo novému metadatovému definování, asi nezbývá než si počkat zda se toho někdo neujme.
kopie
Digital Data Types Used in International Development
International humanitarian and development projects rely upon analysis of data created by digital technologies to evaluate project performance, manage projects and to identify future needs and opportunities. Artificial intelligence tools, including machine learning, deep learning and deep neural networks, enable increasingly complex analyses that can establish correlations between and amongst that traditional form of analysis might otherwise miss. This article is a resource for international development practitioners seeking to do more with data, specifically to find useful correlations between seemingly disparate data types. It is a community resource placed on Wikipedia so that experts can edit and contribute examples and insights.
Technologies providing data:
Mobile network data
Satellite data, including from satellites focused on earth observation, communications and internet of things (IOT) networks
Sensor data
Wearable technology data (a distinct form of sensor data deserving its own consideration)
Network data
Social media usage data (including over the top, or "OTT" services such as WhatsApp, Facebook, Netflix, etc.)
Mobile money transfers
Crowdsourced data
Human-computer interaction data
Weather station data
——————————————————————————————————————————————
a. Call detail records (CDRs) are captured every 15 minutes from each individual cell tower. They include:
Useful information that adds to an understanding of CDRs includes the tower location, height, frequency, coverage area and information on up-time and downtime
b. Radio resource data
"The major functions of the RRC protocol include connection establishment and release functions, broadcast of system information, radio bearer establishment, reconfiguration and release, RRC connection mobility procedures, paging notification and release and outer loop power control."
Satellite data
Imagery includes visible and invisible light. The bands include:
NIR1 (near infrared 1)
Red
Green
Blue
Red Edge
Yellow
Coastal
NIR2 (near infrared 2)
SWIR-1 (Shortwave infrared)
SWIR-2
SWIR-3
SWIR-4
SWIR-5
SWIR-6
SWIR-7
Light Detection and Ranging (LIDAR) uses laser pulses to measure ranges to the Earth and the height of physical objects on the earth's surface.
The two types of LIDAR are topographic (3D dimensions of the earth) and bathymetric (related to water). It can also be used to detect chemicals in the air.[5]
Remote sensing satellites can be tasked to collect new imagery. Satellite companies also resell imagery at a discount.
Sensor data
Water levels
Temperature
Water acidity
Battery levels
Lumens
Components need replacing
Amount of local storage remaining
current settings
Wearable data
This data comes from smart devices attached onto or inside the body. Data types include:
Social media usage
Number of connections
Frequency of posts by type
Number of views
Number of likes
Number of reposts
Bulleted list item
Mobile Money transfers
Sender
Recipient
Amount
Time of transfer
Currency
Sender location
Recipient location
How much left in mobile wallet
How much cashed out
% of GDP
rate of automatic payments usage
loan amount
loan repayment period
loan interest rate
Crowdsourced data
observations by location and time
polling/surveys
Human-computer interaction data
Average # of interface layers users pass through
Amount of time spent on one section of page before scrolling
Weather station data
temperature
Degree days
Sun
Weather type
precipitation
pressure
Wind
Wind Speed
všiml jsem si, že v Sahaně je nyní zahrnuto "vystavení" datových sad s nastavením jejich konkrétní URL. To je pěkné, něco takového jsem promýšlel. Neni to sice CKAN, ale to se dá pochopit.
Taky tam je nastavení pro správu deploymentů,
moved to Spotter-Cluster#13