Projekta nosaukums: Datu noliktavas adaptācija lielo datu lietojumiem
Projekta līguma numurs: 1.1.1.2/VIAA/1/16/057
Projekta sadarbības partneris: Politechnika Poznańska (Poznan University of Technology)
Projekta īstenošanas termiņš: 01.11.2017.-31.10.2020.
Projekta kopējais finansējums, LU daļa: 133 806,00 EUR (no LU bāzes finansējuma centralizētajiem līdzekļiem 6 690,30 EUR)
Projekta mērķis: izstrādāt datu noliktavas risinājumu lielo datu lietojumiem, kas spēj pielāgoties mainīgām lietotāju prasībām un izmaiņām datu noliktavas datu avotos
Projekta rezultāti: 7 zinātniskās publikācijas, kas tiks indeksētas Web of Science vai SCOPUS datubāzēs; programmatūras prototips; citi pētījuma specifikai atbilstoši projekta rezultāti (pārskati, arhitektūras projektējums, metadatu modelis, algoritma apraksts u.c.)
Informācija par projekta īstenošanu: pētījuma ietvaros tiks veiktas sekojošas darbības:
1. Esošo lielo datu tehnoloģiju un datu noliktavas evolūcijas atbalsta risinājumu izpēte ar mērķi noskaidrot iespējamību esošo risinājumu atkalizmantošanai, un mūsdienu tendencēm atbilstošas datu noliktavas arhitektūras projektējums lielo datu lietojumiem;
2. Metadatu modeļu būvēšana, kas aprakstīs datu noliktavu, lietotāju prasības, avota datus un izmaiņas, lai nodrošinātu pusautomātisko evolūcijas notveršanu un īstenošanu;
3. Inovatīvo algoritmu izstrāde automātiskai vai pusautomātiskai izmaiņu notveršanai un apstrādei;
4. Programmatūras prototipa implementēšana, kurā tiks aprobēti pētījumā piedāvātie risinājumi, un risinājumu izvērtējums.
Laika posmā no 01.11.2017. līdz 30.04.2018. veiktās darbības:
Projekta sākumposmā tiek veikta zinātniskās literatūras izpēte par datu noliktavas arhitektūrām lielo datu ekosistēmās un evolūcijas atbalstu datu noliktavās lielo datu lietojumiem. Tiek aplūkoti arī raksti par lielo datu integrāciju no vairākiem datu avotiem analīzes mērķiem un evolūciju integrācijas kontekstā, lai izanalizētu iespējas pielāgot datu integrācijas jomas risinājumus datu noliktavas lietojumiem. Tika sagatavots pārskats ar pieeju un tehnoloģisko risinājumu salīdzinošo analīzi datu noliktavām lielo datu lietojumiem. Balstoties uz izveidoto pārskatu tiek gatavots zinātniskais pārskata raksts.
Tika izstrādāts zinātniskais raksts "Architecture Enabling Adaptation of Data Integration Processes for a Research Information System", kurā tika piedāvāta integrācijas sistēmas arhitektūra, kas atbalsta datu avotu un informācijas prasību evolūciju. Raksts pieņemts publicēšanai žurnālā "Foundations of Computing and Decision Sciences" un parādīsies 2018. gada jūnija numurā. Žurnāla mājas lapa https://www.degruyter.com/view/j/fcds.
Tika sagatavots un noprezentēts referāts "Datu noliktavas adaptācija lielo datu lietojumiem" Latvijas Universitātes 76. zinātniskajā konferencē. Konferences programma pieejama tiešsaistē - www.lu.lv/konference/programma.
Tika noprojektēta datu noliktavas evolūcijas arhitektūras pirmā versija, kas tika atspoguļota zinātniskajā rakstā, kas tika iesniegts recenzēšanai starptautiskajā konferencē.
Laika posmā no 01.05.2018. līdz 31.07.2018. veiktās darbības:
Projekta trešajā ceturksnī tika pabeigts datu noliktavas arhitektūras projektējums. Arhitektūra būs spējīga nodrošināt lielo datu analīzes iespējas un pielāgoties mainīgām analīzes prasībām un evolūcijai. Balstoties uz arhitektūras projektējumu, tika izstrādātais raksts par datu noliktavas arhitektūru lielo datu pārvaldībai (“Towards a Data Warehouse Architecture for Managing Big Data Evolution”), kas tika nopublicēts starptautiskās konferences par datu zinātni, tehnoloģijām un lietojumiem DATA 2018 rakstu krājumā (saite uz rakstu). Konferencē DATA 2018 tika noprezentēts stenda referāts un novadīta sesija par datu analītiku.
Tika sagatavots un iesniegts Eiropas biznesa informācijas un lielo datu vasaras skolai pārskats par pēcdoktorantūras projektā veiktiem pētījumiem. Pēc Eiropas biznesa informācijas un lielo datu vasaras skolas programmas komitejas recenzēšanas pārskats tika akceptēts, kā pilnais mutiskais referāts. Vasaras skolā tika apmeklētas atzīstāmo zinātnieku lekcijas par procesu izraci, reāla laika datu izraci, sociālo tīklu datu analīzi, rekomendāciju sistēmu novērtēšanu, personalizētu šablonu izraci, sensoru datu analīzi, mašīnmačīšanas vizualizāciju. Tika noprezentēts referāts par datu noliktavas arhitektūru lielo datu evolūcijas pārvaldībai.
Tika uzsākta literatūras meklēšana par metadatu noskaidrošanu daļēji strukturētiem un nestrukturētiem datiem, tai skaitā ar meta-mācīšanos metodi. Šādi metadati būs nepieciešami projekta ietvaros izstrādātajam risinājumam, lai aprakstītu datu avotus un noteiktu izmaiņas tajos. Raksti tiek meklēti datu bāzēs Scopus, Web of Science, Google Scholar.
Laika posmā no 01.08.2018. līdz 31.10.2018. veiktās darbības:
Tika sagatavots un noprezentēts referāts par noprojektēto datu noliktavas arhitektūru lielo datu evolūcijas atbalstam starptautiskajā konferencē ICCBDC 2018 par mākoņiem un lielu datu apstrādi (http://www.iccbdc.org). Par referātu “Data Warehouse Architecture for Managing Big Data Evolution” tika piešķirts labākas sesijas prezentācijas apbalvojums.
Tika izstrādāts raksts par pieeju lielo datu noliktavu evolūcijas atbalstam "An Approach to Handle Big Data Warehouse Evolution" (saite uz rakstu), kas tika prezentēts seminārā “Semantika lielo datu pārvaldībā” (semināra programma http://wcc2018.org/sembdm) 24. Pasaules datoru kongresa ietvaros. Notika tikšanās ar projekta partneri, kura laikā tika apspriesta plānota datu noliktavas arhitektūra un turpmākie sadarbības plāni.
Tiek izstrādāts raksts par lielo datu apstrādes un analīzes sistēmu arhitektūrām.
Laika posmā no 01.11.2018. līdz 31.01.2019. veiktās darbības:
Tika gatavots referāts par lielo datu noliktavas evolūcijas arhitektūru Latvijas Universitātes 77. zinātniskajai konferencei.
Tiek veikta literatūras izpēte par prasību veidiem lielo datu analīzes sistēmām, par analīzes metodēm un uzdevumiem, par datu veidiem, kas ir nepieciešami šīm metodēm. Arī tiek pētīti prasību noskaidrošanas veidi (piemēram, izmantojot dabīgas valodas apstrādi) un prasību formalizēšanas modeļi. Tiek turpināta literatūras izpēte par metadatu veidiem, modeļiem un to noskaidrošanu strukturētiem un daļēji strukturētiem datiem (piemēram, ar meta-mācīšanos metodi), metadatu izmaiņu noteikšanu.
Tika izstrādāts analīzes prasību metadatu modelis projekta ietvaros izstrādātai lielo datu noliktavas evolūcijas arhitektūras datu maģistrālei.
Laika posmā no 01.02.2019. līdz 30.04.2019. veiktās darbības:
Latvijas Universitātes 77. zinātniskajā konferencē tika prezentēta projekta ietvaros piedāvāta lielo datu noliktavas evolūcijas arhitektūra.
Tika izstrādāts raksts par lielo datu noliktavu arhitektūru salīdzinošo analīzi un iesniegts žurnālā.
Tika izstrādāti evolūcijas arhitektūrai nepieciešamie metadatu modeļi, kas apraksta:
- Lielo datu noliktavas prasības,
- Datu avotu struktūru (gan strukturētiem, gan daļēji strukturētiem datiem),
- Datu maģistrāles līmeņu un datu noliktavas struktūru,
- Datu apstrādes (ELT) procesu loģiku, kā arī glabā atbilstību starp datiem, kas iegūti no avotiem, un datu maģistrāles datiem,
- Avotu un datu maģistrāles līmeņu izmaiņas (evolūciju).
Tika uzsākta prototipa realizācija.
Notika mobilitātes brauciens uz projekta partnera institūciju Poznaņas Tehnoloģiju Universitāti. Brauciena laikā notika tikšanās ar projekta partneri, kurā tika nodemonstrēts un apspriests metadatu modelis (konceptuālais un fiziskais) un modeļa realizācija.
Notika brauciens uz konferenci "Strata Data Conference". Brauciena laikā papildus konferences sesiju apmeklējuma, notika apmācība par reāla laika SQL vaicājumu veidošanu un izpildi uz straumes datiem no Apache Kafka sistēmas un apmācībā par rīku Presto.
Laika posmā no 01.05.2019. līdz 31.07.2019. veiktās darbības:
Tika sagatavots raksts “On Metadata Support for Integrating Evolving Heterogeneous Data Sources” (Par metadatu atbalstu mainīgo daudzveidīgo datu avotu integrēšanai). Rakstā tika aprakstīti izstrādātie metadatu modeļi, to realizācija un aprobācijas sistēma, kurā integrēti dažāda formāta dati par LU publikācijām. Raksts tiks publicēts konferences ADBIS’2019 rakstu krājumā.
Tiek izstrādāts algoritms izmaiņu noteikšanai datu avotos un informācijas prasībās, izmantojot jau iepriekš izstrādātus metadatus.
Notika brauciens uz Eiropas vasaras skolu eBiss'2019, kurai tika sagatavots un prezentēts stenda referāts par lielo datu noliktavas evolūcijas arhitektūrā izmantotiem metadatiem.
Laika posmā no 01.08.2019. līdz 31.10.2019. veiktās darbības:
Balstoties uz rakstu par metadatu atbalstu mainīgo neviendabīgo datu avotu integrēšanai tika sagatavots un noprezentēts referāts konferencē ADBIS 2019. Konferences laikā notika arī tikšanās ar projekta partneru Robertu Wrembelu, kurā tika apspriests izmaiņu notveršanas algoritms, kā arī projekta progress un turpmākie sadarbības plāni.
Notika brauciens uz lielāko un prestīžāko konferenci par ļoti lielām datu bāzēm VLDB 2019. Brauciena laikā papildus konferences un semināru sesiju apmeklējuma, notika apmācība par datu ezeru pārvaldības izaicinājumiem un iespējām un par datu noliktavas veidošanu ar rīku Apache Drill.
Tiek izstrādāts atlogitms izmaiņu apstrādei, izmantojot iepriekš izstrādātus metadatus.
Laika posmā no 01.11.2019. līdz 31.01.2020. veiktās darbības:
Raksts "Handling Evolution in Big Data Architectures" (Evolūcijas apstrāde lielo datu arhitektūrās) tika pieņemts publicēšanai žurnālā BJMC (Baltic Journal of Modern Computing).
Tika izstrādāts atlogitms izmaiņu apstrādei, izmantojot iepriekš izstrādātus metadatus par datu maģistrāles līmeņu shēmu, datu avotiem un datu transformācijām.
Notika brauciens uz 6. Starptautisko lielo datu ziemas skolu BigDat’2020, kurai tika sagatavots un prezentēts referāts par metadatu atbalstu mainīgo daudzveidīgo datu avotu integrēšanai.
Tika sagatavots un noprezentēts referāts par metadatu atbalstu mainīgu neviendabīgu datu avotu integrēšanai Latvijas Universitātes 78. zinātniskajai konferencei.
Laika posmā no 01.02.2020. līdz 30.04.2020. veiktās darbības:
Raksts "Change Discovery in Heterogeneous Data Sources of a Data Warehouse" (Izmaiņu noteikšana datu noliktavas neviendabīgo datu avotos) pieņemts publicēšanai konferences DB&IS 2020 rakstu krājumā un tiks prezentēts konferencē tiešsaistē.
Tiek izstrādāts atlogitms izmaiņu apstrādei, izmantojot iepriekš metadatus par datu maģistrāles līmeņu shēmu, datu avotiem un datu transformācijām rīka prototipā.
Laika posmā no 01.05.2020. līdz 31.07.2020. veiktās darbības:
Balstoties uz rakstu par izmaiņu noteikšanu datu noliktavas neviendabīgo datu avotos (Solodovnikova D., Niedrite L.: Change Discovery in Heterogeneous Data Sources of a Data Warehouse) tika sagatavots un noprezentēts referāts tiešsaistes konferencē Baltic DB&IS 2020 (14. Starptautiskā Baltijas valstu datu bāzu un informācijas sistēmu konference).
Tiek turpināta prototipa realizācija un testēšana.
Laika posmā no 01.08.2020. līdz 31.01.2021. veiktās darbības:
Projekts un tā rezultāti tika prezentēti atklājumu un inovāciju pasākumā “LU Jauno tehnoloģiju un inovāciju diena”. Balstoties uz prezentāciju tika izveidots un nopublicēts raksts Latvijas Universitātes Inovāciju centra mājas lapā. Prezentācijas ieraksts pieejams tiešsaistē.
Tika veikta metadatu pārvaldības rīka prototipa realizācija, novērtējums un pilnveidošana. Balstoties uz prototipā izmantotajiem algoritmiem tika izstrādāts zinātniskais raksts “Managing Evolution of Heterogeneous Data Sources of a DataWarehouse”, kurš tiks publicēts 2021. gadā.