21.06.2023. ·
12 min

Kako postati data scientist: Martin Dippolito iz Luxofta otkriva tajne uspeha

HelloWorld
0
Kako postati data scientist: Martin Dippolito iz Luxofta otkriva tajne uspeha

U svetu u kom su podaci i informacije sve, potražnja za kvalifikovanim stručnjacima je u sve većem porastu.

Kompanije iz svih sfera poslovanja aktivno tragaju za stručnjacima koji će im pružiti dragocene informacije i uvide iz podataka kojima raspolažu kako bi donele informisane i pravovremene odluke.

Međutim, šta je tačno potrebno da bi neko postao data scientist? Koje veštine i znanja morate posedovati kako biste započeli karijeru u ovom polju?

Odgovor na to daje nam data scientist Martin Dippolito iz kompanije Luxoft.

Moja interesovanja su me odvela ovim putem

Kao data scientist, uvek je potrebno da jednu nogu imate u informacionim tehnologijama, a drugu čvrsto postavite u poslovnom svetu. Čini se da se ove dve stvari međusobno poništavaju za mnoge prilikom izbora karijere u IT sektoru. Šta je vas navelo da izaberete ovaj put?

- Izabrao sam put podataka (Data Science) jer mi omogućava da jednom nogom budem u informacionoj tehnologiji, a drugom u poslovnom svetu. Može se činiti da se ove dve stvari međusobno poništavaju za neke ljude u IT industriji, ali za Data Scientist-a zaista postoji uzbudljiva prilika da ih spoji. Sviđa mi se to što je Data Science multidisciplinarna oblast u kojoj mogu da kombinujem svoje teorijsko znanje o verovatnoći i statistici sa veštinama programiranja kako bih rešavao probleme iz stvarnog sveta.

Data Science je most koji popunjava jaz između tehnologije i poslovanja. Mogu da zaronim u suštinu verovatnoće i statistike, ali istovremeno da primenim to znanje praktično putem programiranja. Mogu da istražujem složene probleme, pronalazim značajne uvide iz ogromne količine podataka i pretvaram ih u primenjiva rešenja. Upravo ta kombinacija tehničkog znanja i poslovnog rezona pokreće moju strast da nastavim svoju karijeru u oblasti Data Science-a.

Takođe, ponekad pomislim da Data Science nije nešto što sam izabrao za sebe, već su me moja interesovanja odvela na ovaj put. Kada sam bio mlađi, eksperimentisao sam sa operativnim sistemom na mom ličnom računaru do te mere da sam oštetio hard disk. Vodio sam i održavao tehnološki blog koji je pokrivao nadolazeće operativne sisteme, aplikacije, uređaje i programske jezike. Tokom odrastanja, krenuo sam putem matematičkog/statističkog univerzitetskog obrazovanja. Spajanje ovog obrazovnog puta sa mojim ličnim interesovanjima jednostavno se činilo kao pravi izbor za moj trenutni posao

Koje veštine i znanja ljudi u IT sektoru treba da steknu kako bi postali uspešni data scientist?

- Da bi postale uspešan data scientist, osobe koje dolaze iz IT sveta moraju steći specifične veštine i znanje. U IT svetu, stručnjaci su upoznati sa konceptom "prekvalifikacije" kako bi se zadovoljile potrebe novih uloga. Međutim, prekvalifikacija sa IT posla na ulogu data scientist-a nije toliko jednostavna kao kod drugih IT pozicija.

Prelazak na ulogu data scientist-a sa sobom nosi  jedinstvene izazove zbog promene radne paradigme i potrebe za razvojem posebnog skupa veština i znanja. Ove veštine se ne stiču lako samo kroz "obuku na poslu" radom na projektima vezanim za data science. Iako je praktično iskustvo vredno, postoje osnovne veštine i znanja kojima bi budući data scientist-i trebalo da daju prioritet.

Jedna ključna osnova je dobro matematičko obrazovanje, posebno iz oblasti računara i linearne algebre. Ove matematičke discipline služe kao preduslovi za dalje proučavanje statističkih pojmova kao što su deskriptivna statistika, inferenca, bajesijanska analiza i teorija verovatnoće. Razumevanje ovih matematičkih osnova pruža čvrstu podlogu data scientist-ima da efikasno analiziraju i tumače podatke.

Pored toga, data scientist mora odlično da razume statističke tehnike, uključujući testiranje hipoteza, analizu regresije i algoritme mašinskog učenja. Sve navedene veštine mogu se svakako naučiti putem samostalnog učenja, ali pohađanje (bakalaureatskih) studija pruža veće šanse za sticanje tog znanja.

Tokom veoma kratkog perioda radili ste kao bibliotekarski pomoćnik - da li je to bilo nešto što nije bilo povezano sa vašim poslovnim ciljevima ili je to bio samo prvi korak, i ako jeste... kako ste imali koristi od rada u biblioteci?

- Iako taj posao nije bio povezan sa mojim poslovnim ciljevima, radio sam u Odeljenju za Statistiku (i Data Science) na Univerzitetu u Bolonji, što mi je omogućilo da razumem koje su najaktuelnije istraživačke teme u oblasti Mašinskog učenja/veštačke inteligencije. Takođe sam imao priliku da razgovaram sa starijim kolegama koje su ulazili na tržište rada i da razumem u koje industrije i kompanije bih mogao da se uključim.

Ovo iskustvo takođe mi je dalo samopouzdanje da u poslednjoj godini studija započnem pravi IT posao, jer sam shvatio da je zaista moguće uskladiti akademske studije i profesionalni rad.

Različiti zadaci na konkretnom projektu

Uloga data scientist-a kombinuje nekoliko stvari koje se mnogima čine teško spojive. Kako izgleda tipičan dan data scientist-a - dobar i loš?

- Svaki dan data scientist-a je jedinstven, budući da različite osobe mogu biti uključene u različite aktivnosti unutar istog projekta. Važno je napomenuti da ne postoji definitivno "dobar" ili "loš" dan, jer to zavisi od ličnih interesa i perspektiva. Da bismo ljudima pomogli da razumeju šta je "dobar" i "loš" dan, možemo napraviti poređenje sa ulogom front-end developera, koji se fokusira na izgradnju korisničkog interfejsa za veb servise ili aplikacije.

Zamislimo tipičan dan front-end developera. Oni počinju tako što sarađuju sa svojim timom kako bi razumeli nove funkcionalnosti i pregledaju unapred definisane skice. Mogu provesti vreme rešavajući neočekivane probleme ili integrišući rad backend developera radi dobijanja podataka. Njihov rad je struktuiran i predvidljiv. Kada imaju sve potrebne informacije, posvećuju se izradi kreativnog, funkcionalnog, održivog i optimizovanog koda. Tim komunicira bez problema, svi su svesni svojih odgovornosti i sposobnosti.

S druge strane, dan data scientist-a je dinamičniji i izazovniji za opisivanje. Uključuje različite zadatke zasnovane na konkretnom projektu. Jednog dana, data scientist se može fokusirati na razumevanje poslovnih problema, pregledanje prošlih projekata i konsultacije sa drugima koji su se susreli sa sličnim izazovima. Moraju identifikovati relevantne podatke potrebne za rešavanje problema, odabrati odgovarajuće metodologije i razmisliti o tome kako zapakovati i predstaviti rešenje korisnicima. Za razliku od front-end developera, data scientist-i nemaju unapred definisane skice, a rezultati nisu zagarantovano uspešni, uglavnom zbog kvaliteta i dostupnosti podataka koji igraju važnu ulogu u oblikovanju ishoda.

Data scientist-i možda neće uvek biti u obavezi da pišu savršeno strukturiran kod, posebno tokom eksperimentalne faze kada se kod često menja. Stil kodiranja može varirati u zavisnosti od potreba projekta i kompromisa između vremena i kvaliteta. Komunikacija unutar tima može biti izazovna, jer drugi članovi tima možda neće u potpunosti shvatiti nivo neizvesnosti koji je prisutan u projektima data science-a. Data scientisti moraju da ravnotežu pronađu između istraživanja složenih algoritama i obimnog zadatka "obrađivanja podataka", što može zauzeti značajan deo njihovog vremena tokom projekta, minimum 70%. Preostalo vreme posvećeno je predstavljanju rezultata i ubeđivanju drugih o vrednosti njihovog rada, često putem informativnih statistika. Implementacija uzbudljivih modela, koji izazivaju entuzijazam svih, generalno zauzima manje od 10% njihovog vremena.

Kako gradite "odnos" sa podacima i koristite ih da postignete zadate ciljeve?

- Na početku, posmatram podatke tako što se upoznajem s njima, razumem njihove karakteristike, strukturu i obrasce. To je kao susret s novom osobom i započinjanje razgovora.

Kako napreduje naše "prijateljstvo" s podacima, sve više se zaranjam u detalje i počinjem da otkrivam dragocene uvide i donosim odluke na osnovu informacija koje pružaju. Primenjuju se razne analitičke tehnike kako bi se izvuklo značajno znanje, a podaci se postepeno oblikuju kako bi se uskladili sa željenim algoritmom za rešavanje poslovnog problema.

Da li verujete da nove tehnologije poput cloud računarstva i veštačke inteligencije mogu doprineti ulozi data scientist-a i biti pouzdani izvori informacija?

- Verujem da je Cloud sadašnjost i budućnost Data Scientist-a.

Cloud računarstvo pruža mnoštvo prednosti, pri čemu je posebno značajno eliminisanje fizičke infrastrukture i njenog održavanja. Ono nudi ekonomična, skalabilna i fleksibilna rešenja. Ova osnovna razlika u odnosu na lokalna rešenja rezultira niskim ili čak nepostojećim troškovima ulaska, što omogućava brzu izradu prototipova, ubrzava digitalnu transformaciju, podstiče eksperimentisanje s novim idejama i podržava širu primenu poslovnih modela zasnovanih na podacima.

Prelazak na usvajanje poslovnih modela usmerenih na podatke izuzetno je koristan za Data Scientist-e. Pruža jasan fokus na korišćenje odlučivanja zasnovanog na podacima, prepoznajući ključnu ulogu podataka u postizanju poslovnog uspeha. Stvara kulturu koja vrednuje i daje prioritet analizi podataka, što rezultira povećanjem resursa i podrške timovima za data science.

Data Scientist-i mogu aktivno doprinositi strateškim poslovnim odlukama, koristeći svoje stručno znanje kako bi pružili vredne uvide i vodili ključne inicijative. Kako rad Data Scientist-a postaje vidljiviji i ima veći uticaj unutar kompanije, otvaraju se nove mogućnosti za razvoj karijere i profesionalno napredovanje. Sveukupno, usvajanje poslovnih modela usmerenih na podatke osnažuje Data Scientist-e, pozicionirajući ih kao ključne pokretače uspeha organizacije.

Iako neke industrije poput bankarstva i dalje više naginju ka korišćenju lokalnih rešenja zbog brige o privatnosti, provajderi Cloud usluga intenzivno rade na sigurnosti i usaglašenosti, čime čine Cloud platforme pouzdanim izvorima informacija.

Pouzdanost veštačke inteligencije kao izvora informacija zavisi od različitih faktora, uključujući tu kvalitet i reprezentativnost trening podataka, transparentnost algoritama veštačke inteligencije i etička razmatranja koja su uključena u proces razvoja veštačke inteligencije. Pozitivna strana je da veštačka inteligencija već doprinosi, a biće još važnija u povećanju produktivnosti Data Scientist-a.

Koje programske jezike i alate najčešće  koristite? Da li je bilo iznenađenja u vezi sa znanjem i alatima koje data scientist-i koriste kada ste počeli?

Pitajte bilo kojeg data scientist-a koja je osnovna alatka za data science i reći će vam "Python". Njihov drugi odgovor će biti... "Python". Sada, šale na stranu, postoje i drugi programski jezici kao što su Julia i Scala sa bržim vremenom izvršavanja određenih scenarija, kao i jezici usmereni više ka statistici poput SAS-a, Stata-e, SPSS-a, R itd.

Python ima ogroman ekosistem sa bogatom kolekcijom biblioteka i okvira za različite oblasti, uključujući data science i mašinsko učenje. Njegova popularnost čini da ga preferiraju mnogi data scientist-i, uključujući tu i mene koji sam kao bivši R developer (zbog statističke akademske pozadine) većinu svojih aktivnosti prebacio na Python od početka svoje karijere.

Drugi alati koje svakodnevno koristim su po redosledu vremenske upotrebe razvojna okruženja poput VS Code-a ili PyCharm-a, git (za verzionisanje), Cloud ML platforme (AWS Sagemaker, Azure ML studio, GCP uglavnom), alati za prezentacije, R, SQL upiti.

Najviše me je iznenadila široka upotreba softvera za tabelarne proračune u raznim industrijama. Iako ga trenutno ne koristim za svoje aktivnosti, prepoznajem vrednost koju može ponuditi u određenim scenarijima, da ne pominjem zabavu koju možete imati automatizujući zadatke pomoću VBA. Takođe, nisam bio svestan ključnog značaja cloud tehnologije u današnjem svetu, jer je tokom studiranja fokus bio više na modelima i njihovom unutrašnjem funkcionisanju.

Ako pogledate svoje znanje, u kojim oblastima smatrate da bi trebalo da se poboljša i zašto?

- Kada započnete putovanje u Data Science, svakodnevno možete naučiti novi algoritam.  Iako često istražujem nove modele i proširujem znanja, dolazi trenutak kada akumulirate snažan set alata i znanja za rešavanje različitih problema, otvarajući put ka sledećoj fazi.

Ta sledeća faza, u koju želim da se upustim, vezana je za ekosistem koji obuhvata sferu Data Science-a.

Trenutno, moj fokus je na dizajnu sistema mašinskog učenja jer čvrsto verujem da je to ključno za sticanje sveobuhvatnog razumevanja primena mašinskog učenja od početka do kraja. Ove veštine omogućavaju Data Scientist-ima da bez problema implementiraju modele u proizvodnju, čineći ih lako dostupnim i konačno donoseći merljivu vrednost poslovnim subjektima.

Ne oslanjajte se samo na programe obuke

Da li biste radije preporučili budućim data scientist-ima da stiču tradicionalna znanja (fakultet, doktorat...) ili postoje bolji načini za sticanje potrebnog znanja?

- Preporučujem sticanje znanja kroz diplomu na osnovnim studijama, ne samo iz statistike, već i iz matematike, kvantitativnih finansija, ekonometrije, demografije i drugih srodnih oblasti.

Iako je doktorat iz statistike/mašinskog učenja neophodan za Data Scientist-a u istraživačkim ili akademskim sferama, nije obavezan za početak karijere u ovom polju. Takođe, obuka koju pruža doktorski program može biti korisna, ali nije preduslov.

Alternativno, doktorske studije iz STEM polja mogu takođe biti od koristi jer uključuju analizu podataka vezanih za specifično polje studija. Mnoge moje bivši kolege stekle su doktorate iz oblasti kao što su fizika ili biologija, i uz online specijalizacije, uspeli su da prevaziđu jaz u metodologijama mašinskog učenja.

Oslanjanje isključivo na programe obuke nije preporučljivo, osim ako već imate snažnu analitičku osnovu. Šanse za uspešnu karijeru u data science-u bez čvrstih osnova su prilično male. Čak i unutar industrije, održavanje konkurentnosti zahteva čvrsto razumevanje matematičkih koncepata. Iako postoje izuzeci, ovi poslovi često više naginju ka mašinskom inženjerstvu sa manje naglaska na "Naučni" aspekt, što i dalje doprinosi uzbudljivosti ovog polja.

Koji bi bio idealan put za nekoga ko je zainteresovan za data science? Koje bi bile vaše preporuke za svakoga ko je zainteresovan da krene na ovaj put?

- Možda zvučim kao da se ponavljam, ali kada bih pružao savet, išao bih nekako ovako: "Prvo i pre svega, izgradite čvrste temelje u matematici sve dok matrice i višedimenzionalni prostori ne postanu sastavni deo vaših snova. Zatim, primenite to stečeno znanje da biste se upustili u statističke tehnike, testiranje hipoteza i sve teorijske veštine potrebne za rad sa podacima. Moja preporuka je da se upustite u studije u relevantnoj oblasti, jer vam to omogućava da se isključivo investirate u sebe, bez ograničenja poslovnih razmatranja.

Kada uspostavite čvrst temelj, tražite praktično iskustvo ili pridružite se kompaniji u juniorskoj ulozi ili se bavite Python projektima koji se uklapaju u vaše interese. Usvojite dobre prakse kodiranja kako napredujete. I zapamtite, kontinuirano učenje je ključ za održavanje ovog divnog putovanja.

Od izuzetne matematičke osnove i poznavanja statistike, do iskustva u programiranju i mašinskom učenju, spektar znanja koja data scientist mora da poseduje podjendako je velik i opširan kao i podaci koje posmatra.

Bilo da razmišljate o promeni karijernog koloseka, ili tek započinjete svoj put, razumevanje svih navedenih faktora, znanja i veština svakako je najvažniji korak na putu ka uspešnoj data scientist karijeri.

Oceni tekst

5
9 glasova

0 komentara

Iz ove kategorije

Svi članci sa Bloga

Slični poslovi

Povezane kompanije po tagovima