Tīmekļa skrāpēšanas tehnoloģijas ar Python bibliotēkām (DigComp L3)

PROGRAMMAS MĒRĶIS

Sniegt zināšanas un prasmes pielietot tīmekļa skrāpēšanas tehnikas un metodikas, lai iegūt un apkopot datus no tīmekļa lapām, izmantojot Python bibliotēkas Beautiful Soup, Scrapy un Selenium.

Izglītības programma ir izveidota ņemot vērā  Eiropas Komisijas Digitālās kompetences ietvarstruktūras (DigComp) vadlīnijas un atbilst DigComp 3. kompetenču līmenim (L3) -  pēc sekmīgas programmas apgūšanas izglītojamais spēs patstāvīgi veikt skaidri definētus rutīnas uzdevumus un risināt vienkāršas  problēmas, kas rodas šo uzdevumu izpildes gaitā.

Mācību ilgums un formāts

160 mācību stundas:

60 stundas tiešsaistē ar

pasniedzēju un 100 stundas

projektu un patstāvīgais darbs

Mērķauditorija

Ikviens, kurš apkopo un analīzē datus, sadarbojas ar citiem, aprakstot un prezentējot datus

Tehnoloģijas

Windows operētājsistēma 

Microsoft Teams for Education

Python

Beautiful Soup 

Scrapy, Selenium, Lxml

pyquery

Priekšzināšanas un priekšnoteikumi dalībai

Vismaz vidējā izglītība

Mācīšanās rezultāti

Pēc sekmīgas mācību programmas apgūšanas kursa dalībnieki spēs patstāvīgi veikt skaidri definētus rutīnas uzdevumus un risināt vienkāršas problēmas, kas rodas šo uzdevumu izpildes gaitā: 

• izveidot Python darba vidi; 

• izvēlēties un pielietot uzdevumiem piemērotāko Python bibliotēku;

• pielietot tīmekļa skrāpēšanas paņēmienus un metodikas vairākām tīmekļa lapu kopām;

• pielietot Python skrāpēšanas bibliotēku rīkus;

• pielietot paņēmienus  informācijas iegūšanai no tīmekļa lapu datiem;

• veidot skrāpētājus ar nepieciešamo funkcionalitāti; 

• izprast interneta vietņu karšu nozīmi datu skrāpēšanas uzdevumos;

• veikt datu tīrīšanu ar Python bibliotēku rīkiem;

• veikt datu kārtošanu ar Python bibliotēku rīkiem;

• pielietot paņēmienus datu ticamības pārbaudei;

• veikt datu trendu analīzi ar Python bibliotēku rīkiem;

• veidot datu trendu vizualizāciju ar Python bibliotēku rīkiem;

• pielietot datu aizsardzības regulas un politiku datu kvalitātes un atbilstības uzturēšanai;

• novērot datu iegūšanas, apstrādes un glabāšanas vidi, lai identificētu un  definētu ievainojamības un draudus, kā arī reģistrētu un ziņotu neatbilstības;

• veidot sadarbību ar kolēģiem, partneriem, klientiem, prezentējot datu apstrādes analīzes rezultātus.

Programma attīsta e-kompetences un caurviju kompetences

DIGCOMP 2.1

1.3. Datu, informācijas un digitālā satura pārvaldība.

3.2. Digitālā satura integrēšana un pārstrādāšana

3.4. Programmēšana

5.3. Digitālo tehnoloģiju radoša lietošana

 

3. līmenis: 

 persona spēs patstāvīgi veikt skaidri definētus rutīnas uzdevumus un risināt vienkāršas problēmas, kas rodas šo uzdevumu izpildes gaitā.

e-CF 4.0

D.7. Data Science and Analytics L2 
E.6. ICT Quality Management L2 
E.8. Information Security Management L2

Caurviju kompetences

  • Komunikācija

  • Pašattīstība

  • Darbs komandā

  • Iniciatīva

Materiāli kursa dalībniekiem

Pasniedzēja sagatavota darba burtnīca ar uzdevumu aprakstiem

Kursa tēmas

1. Python darba vides sagatavošana:

  • Python bibliotēku izvēle,

  • vaicājumu izmantošana datu iegūšanai.

2. Tīmekļa skrāpēšanas paņēmieni un metodikas vairākām tīmekļa lapu kopām
3. Datu iegūšana:  

  • vaicājumu izmantošana datu iegūšanai

  • skrāpēšanas bibliotēku rīki un to pielietošana datu izgūšanai

  • skrāpētāju selektoru izmantošana datu izgūšanai

  • datu ielāde unikodā / UTF-8

4. Skrāpētāju veidošana:

  • skrāpētāju funkcionalitātes izvēle, 

  • skrāpētāju funkcionalitātes izstrāde.

5. Datu apstrāde:

  • datu tīrīšana,

  • datu kārtošana,

  • datu trendu analīze,

  • datu vizualizācija.

6. Datu kvalitāte:

  • datu ticamības nodrošināšana,

  • datu atbilstība datu kvalitātes un datu aizsardzības regulām un politikām.

7. Sadarbība ar kolēģiem, partneriem, klientiem, prezentējot datu apstrādes un analīzes rezultātus:

  • datu iegūšanas, apstrādes un glabāšanas vides ievainojamības un draudu identificēšana un novēršana,

  • skrāpēšanas bibliotēku Beautiful Soup un Scrapy rīku izmantošana datu izgūšanai.

Cena: 51, 20 EUR projekta dalībniekiem, pilna cena 512 EUR