4_7_M
Tīmekļa skrāpēšanas tehnoloģijas ar Python bibliotēkām
Programmu kopa: Datu izgūšanas pamati
Kursa mērķis
Izglītības procesa rezultātā iegūt zināšanas un apgūt prasmes par tīmekļa skrāpēšanas tehnikām un metodikām, lai iegūt un apkopot datus no tīmekļa lapām, izmantojot Python bibliotēkas Beautiful Soup un Scrapy.
Mērķauditorija
Ikviens, kurš bieži apkopo un analīzē datus, sadarbojas ar citiem, aprakstot un prezentējot datus: biznesa un finanšu speciālisti, analītiķi, pētnieki, digitālo mediju speciālisti, vadītaji, ir nodarbināta persona un vēlas uzlabot prasmes.
Kursa mērķis
Izglītības procesa rezultātā iegūt zināšanas un apgūt prasmes par tīmekļa skrāpēšanas tehnikām un metodikām, lai iegūt un apkopot datus no tīmekļa lapām, izmantojot Python bibliotēkas Beautiful Soup un Scrapy.
Mērķauditorija
Ikviens, kurš bieži apkopo un analīzē datus, sadarbojas ar citiem, aprakstot un prezentējot datus: biznesa un finanšu speciālisti, analītiķi, pētnieki, digitālo mediju speciālisti, vadītaji, ir nodarbināta persona un vēlas uzlabot prasmes.
Tehnoloģijas
Windows, Microsoft Excel, Python, Beautiful soup, Scrapy, Selenium
Mācīšanās rezultāti
Pēc veiksmīgas izglītības programmas apgūšanas dalībnieks būs spējīgs:
1. Izveidot Python darba vidi
2. Izvēlēties un pielietot uzdevumiem piemērotāko Python bibliotēku
3. Pielietot tīmekļa skrāpēšanas paņēmienus un metodikas vairākām tīmekļa lapu kopām
4. Pielietot Python skrāpēšanas bibliotēku rīkus
5. Pielietot paņēmienus informācijas iegūšanai no tīmekļa lapu datiem, izmantojot datu modeļus un atribūtus
6. Veidot skrāpētājus ar nepieciešamo funkcionalitāti
7. Skaidrot interneta vietņu karšu nozīmi datu skrāpēšanas uzdevumos
8. Veikt datu tīrīšanu ar Python bibliotēku rīkiem
9. Veikt datu kārtošanu ar Python bibliotēku rīkiem
10. Pielietot paņēmienus datu ticamības pārbaudei
11. Veikt datu trendu analīzi ar Python bibliotēku rīkiem
12. Veidot datu trendu vizualizāciju ar Python bibliotēku rīkiem
13. Pielietot datu aizsardzības regulas un politiku datu kvalitātes un atbilstības uzturēšanai
14. Modelēt un plānot sistemātisku datu iegūšanas, apstrādes un glabāšanas vides novērošanu, lai identificētu un definētu ievainojamības un draudus, kā arī reģistrētu un ziņotu neatbilstības
15. Veidot sadarbību ar kolēģiem, partneriem, klientiem, prezentējot datu apstrādes analīzes rezultātus
e-CF 4.0
D.7. Data Science and Analytics L2 & L3
E.6. ICT Quality Management L2
E.8. Information Security Management L2
Caurviju kompetences
Komunikācija
Pašattīstība
Darbs komandā
Iniciatīva
DIGCOMP 2.2
Programmēšana, tīmekļa vietņu un lietotņu izstrāde un uzturēšana, 6.līmenis.
E-kompetences un caurviju kompetences
E-kompetences un caurviju kompetences
Add paragraph text. Click “Edit Text” to update the font, size and more. To change and reuse text themes, go to Site Styles.
Add paragraph text. Click “Edit Text” to update the font, size and more. To change and reuse text themes, go to Site Styles.
Add paragraph text. Click “Edit Text” to update the font, size and more. To change and reuse text themes, go to Site Styles.
e-CF 4.0
D.7. Data Science and Analytics L2 & L3
E.6. ICT Quality Management L2
E.8. Information Security Management L2
Caurviju kompetences
Komunikācija
Pašattīstība
Darbs komandā
Iniciatīva
DIGCOMP 2.2
Programmēšana, tīmekļa vietņu un lietotņu izstrāde un uzturēšana, 6.līmenis.
E-kompetences un caurviju kompetences
E-kompetences un caurviju kompetences
e-CF 4.0
D.7. Data Science and Analytics L2 & L3
E.6. ICT Quality Management L2
E.8. Information Security Management L2
Caurviju kompetences
Komunikācija
Pašattīstība
Darbs komandā
Iniciatīva
DIGCOMP 2.2
Programmēšana, tīmekļa vietņu un lietotņu izstrāde un uzturēšana, 6.līmenis.
Priekšzināšanas
Vismaz vidējā izglītība. Datorlietošanas prasmes vidējā līmenī.
Priekšzināšanas
Vismaz vidējā izglītība. Datorlietošanas prasmes vidējā līmenī.
Kursa tēmas
1. Python darba vides sagatavošana
1.1. Python bibliotēku izvēle
1.2. Vaicājumu izmantošana datu iegūšanai
1.3. Skrāpēšanas bibliotēku Beatiful Soup un Scrapy rīku izmantošana datu izgūšanai
2. Tīmekļa skrāpēšanas paņēmieni un metodikas vairākām tīmekļa lapu kopām
3. Datu iegūšana
3.1. Vaicājumu izmantošana datu iegūšanai
3.2. Skrāpēšanas bibliotēku rīki un to pielietošana datu izgūšanai
3.3. Skrāpēju selektoru izmantošana datu meklēšanai un izgūšanai
3.4. Datu ielāde unikodā / UTF-8
4. Skrāpētāju veidošana
4.1.Skrāpētāju funkcionalitātes izvēle
4.2. Skrāpētāju funkcionalitātes izstrāde
5. Datu apstrāde
5.1. Datu tīrīšana
5.2. Datu kārtošana
5.3. Datu trendu analīze
5.4. Datu vizualizācija
6. Datu kvalitāte
6.1. Datu ticamības nodrošināšana
6.2. Datu atbilstība datu kvalitātes un datu aizsardzības regulām un politikām;
6.3. Datu iegūšanas, apstrādes un glabāšanas vides ievainojamības un draudu identificēšana un novēršana
7. Sadarbība ar kolēģiem, partneriem, klientiem, prezentējot datu apstrādes un analīzes rezultātus
Materiāli kursa dalībniekiem
Pasniedzēja sagatavoti mācību materiāli latviešu valodā.
Mācību norise un nepieciešamais aprīkojums
Nodarbības notiek tiešsaistē divus darba dienas vakarus nedēļā un četras sestdienas. Sekmīgai dalībai mācībās dalībniekam ir nepieciešams dators ar Windows operētājsistēmu, webkameru un mikrofonu, kā arī stabils interneta pieslēgums. Mācību programmas apgūšanai nepieciešamo programmatūru nodrošina izglītības iestāde.
Darbs komandā
Praktiska pieredze
Projekta izstrāde