56608792_1244502625715352_2828082384975429632_n

Treće predavanje prvog ciklusa radionica Mozgala pod nazivom Web-scraping in Python održano je na Fakultetu elektronike i računarstva u četvrtak, 11. travnja. Predavanje je održao Domagoj Marić, mladi data scientist iz Megatrenda koji je diplomirao na FER-u upravo na temi Web-scrapinga. Web scraping je ekstrakcija podataka s web stranica koju u pravilu provode botovi i web crawleri, a dobiveni podaci se koriste za daljnju analizu.

Kako bi približio i objasnio data science te važnost Web-scrapinga za podatkovnu industriju, ispričao je o motivaciji te vezi s data scienceom, a potom se osvrnuo na glavne principe web crawlinga. Govorio je i o potrebnom predznanju, tj. poznavanju HTML-a, XPath-a i regularnih izraza.

Objasnio je glavne tehnologije koje se koriste (Python paket Beautiful Soup, Scrappy Shell, Selenium, i Lxml) te njihove prednosti i mane, kako bi pomogao svima zainteresiranima, ali i budućim natjecateljima s odlučivanjem koje su tehnologije najprikladnije za koja istraživanja.

Nakon predavačkog dijela, Marić je iznenadio vrijednim nagradama Megatrenda koje su prisutni mogli osvojiti sudjelujući u kvizu znanja o, naravno, web-scrapingu. Prvo mjesto osvojio je Nikola, drugo Mc Magi i treće Slaven Me Lupo. A kako bi se dobro usvojeno znanje pokazalo u praksi, web-scraping se demonstrirao na službenoj stranici Hrvatske narodne banke.

Marić je za ovogodišnji zadatak rekao: „Mozgalo je vrlo dobro natjecanje za uvod u područje data sciencea; ovogodišnja tema je, iskreno, dosta teška, ali izazovna! Ako ovo uspiju riješiti, imaju dobre temelje za ulazak u svijet data sciencea. To je područje trenutno boom i ima budućnost.“ Savjetovao je i sve ovogodišnje natjecatelje „programerskim savjetom“: „Preispitujte sve! Kod obrade podataka i obrade informacija uvijek je bitno zašto je to tako, kakva je struktura podataka. Postavite pitanja za svaku moguću sitnicu! Toga se i sam pridržavam.“

S ovim je predavanjem završio prvi ciklus radionica, a nove korisne savjete i vrijedna znanja za područje data sciencea dijelimo već u svibnju s novim suradnjama i radionicama!  

Marija Bobinski