
Tīmekļa skrāpēšanas tehnoloģijas ar Python bibliotēkām
PROGRAMMAS MĒRĶIS
Sniegt zināšanas un prasmes pielietot tīmekļa skrāpēšanas tehnikas un metodikas, lai iegūt un apkopot datus no tīmekļa lapām, izmantojot Python bibliotēkas Beautiful Soup un Scrapy.
Mācību ilgums un formāts
48 mācību stundas
Tiešsaistē
Mērķauditorija
Ikviens, kurš apkopo un analīzē datus, sadarbojas ar citiem, aprakstot un prezentējot datus: biznesa un finanšu speciālisti, analītiķi, pētnieki, digitālo mediju speciālisti u.c.
Tehnoloģijas
Python
Beautiful Soup
Scrapy, Lxml
pyquery
Priekšzināšanas un priekšnoteikumi dalībai
Vismaz vidējā izglītība, vēlme apgūt jaunas lietas, padziļinātas prasmes darbā ar Microsoft Excel (datu aprēķini pēc formulām, datu kārtošana, diagrammas).
Mācīšanās rezultāti
Pēc sekmīgas mācību programmas apgūšanas kursa dalībnieki varēs patstāvīgi vai ar nelielu pieredzējušāku lietotāju atbalstu:
• izveidot Python darba vidi;
• izvēlēties un pielietot uzdevumiem piemērotāko Python bibliotēku;
• pielietot tīmekļa skrāpēšanas paņēmienus un metodikas vairākām tīmekļa lapu kopām;
• pielietot Python skrāpēšanas bibliotēku rīkus;
• pielietot paņēmienus informācijas iegūšanai no tīmekļa lapu datiem, izmantojot datu modeļus un atribūtus;
• veidot skrāpētājus ar nepieciešamo funkcionalitāti;
• skaidrot interneta vietņu karšu nozīmi datu skrāpēšanas uzdevumos;
• veikt datu tīrīšanu ar Python bibliotēku rīkiem;
• veikt datu kārtošanu ar Python bibliotēku rīkiem;
• pielietot paņēmienus datu ticamības pārbaudei;
• veikt datu trendu analīzi ar Python bibliotēku rīkiem;
• veidot datu trendu vizualizāciju ar Python bibliotēku rīkiem;
• pielietot datu aizsardzības regulas un politiku datu kvalitātes un atbilstības uzturēšanai;
• modelēt un plānot sistemātisku datu iegūšanas, apstrādes un glabāšanas vides novērošanu, lai identificētu un
definētu ievainojamības un draudus, kā arī reģistrētu un ziņotu neatbilstības;
• veidot sadarbību ar kolēģiem, partneriem, klientiem, prezentējot datu apstrādes analīzes rezultātus.
Programma attīsta e-kompetences un caurviju kompetences
DIGCOMP 2.1
-
Datu zinātne, datu analīze un datu vizualizācija
DIGCOMP 2.1 līmenis: 3
e-CF 4.0
-
D.7. Data Science and Analytics L2 & L3
-
E.6. ICT Quality Management L2
-
E.8. Information Security Management L2
Caurviju kompetences
-
Komunikācija
-
Pašattīstība
-
Darbs komandā
-
Iniciatīva
-
Pielāgošanās
Materiāli kursa dalībniekiem
Pasniedzēja sagatavota darba burtnīca ar uzdevumu aprakstiem.
Kursa tēmas
1. Python darba vides sagatavošana:
-
Python bibliotēku izvēle,
-
vaicājumu izmantošana datu iegūšanai.
2. Tīmekļa skrāpēšanas paņēmieni un metodikas vairākām tīmekļa lapu kopām
3. Datu iegūšana:
-
vaicājumu izmantošana datu iegūšanai
-
skrāpēšanas bibliotēku rīki un to pielietošana datu izgūšanai
-
skrāpēju selektoru izmantošana datu meklēšanai un izgūšanai
-
datu ielāde unikodā / UTF-8
4. Skrāpētāju veidošana:
-
skrāpētāju funkcionalitātes izvēle,
-
skrāpētāju funkcionalitātes izstrāde.
5. Datu apstrāde:
-
datu tīrīšana,
-
datu kārtošana,
-
datu trendu analīze,
-
datu vizualizācija.
6. Datu kvalitāte:
-
datu ticamības nodrošināšana,
-
datu atbilstība datu kvalitātes un datu aizsardzības regulām un politikām.
7. Sadarbība ar kolēģiem, partneriem, klientiem, prezentējot datu apstrādes un analīzes rezultātus:
-
datu iegūšanas, apstrādes un glabāšanas vides ievainojamības un draudu identificēšana un novēršana,
-
skrāpēšanas bibliotēku Beautiful Soup un Scrapy rīku izmantošana datu izgūšanai.