Blog

Blog je mesto gde možeš da čitaš o navikama IT-evaca, najavama IT dešavanja, aktuelnostima na tržištu, savetima i cakama kako da uspeš na ovom dinamičnom polju.
Mi pratimo trendove, na tebi je da se zavališ u fotelju i čitaš :)

Tag: SQL (46 rezultata)
23.05.2024. ·
2 min

SQL slavi 50 godina: Zašto je i dalje najvažniji jezik za baze podataka?

Structured Query Language (SQL) ove godine slavi svoj 50. rođendan. SQL je 1974. godine predstavljen od strane Donalda Čemberlina i Rejmonda Bojsa kao SEQUEL, ali je naziv kasnije promenjen zbog autorskih prava. Od tada, SQL je postao standard u svetu baza podataka, a njegova popularnost ne jenjava ni posle pola veka. SQL je danas treći najpopularniji programski jezik među profesionalnim programerima, prema podacima sa Stack Overflow-a, dok je IEEE proglasio SQL najvažnijim jezikom za dobijanje posla. Ovo je delom zbog njegove primene u oblastima kao što su veštačka inteligencija, analitika i razvoj softvera. Za razliku od drugih starih jezika poput COBOL-a i FORTRAN-a, koji se koriste uglavnom u postojećim legacy sistemima, SQL je još uvek ključan za nove projekte i inovacije. SQL omogućava lako upravljanje i interakciju sa podacima, što ga čini neizostavnim u mnogim poslovnim procesima. Jedan od razloga za dugovečnost SQL-a je njegova sposobnost da se prilagodi novim tehnologijama. SQL je dodao podršku za GIS podatke, JSON dokumente, kao i za XML i YAML. Takođe, može se kombinovati sa vektorskim podacima, što omogućava razvoj generativnih AI aplikacija. Pored svoje fleksibilnosti, SQL se zasniva na snažnoj matematičkoj teoriji, što ga čini pouzdanim i efikasnim. SQL je prvi programski jezik koji je omogućio vraćanje više redova po jednom upitu, što olakšava analizu i korišćenje podataka u poslovne svrhe. Iako su postojali pokušaji da se SQL zameni drugim tehnologijama, kao što su NoSQL baze podataka i prirodni jezički procesori, SQL je i dalje nezaobilazan. Čak i generativna veštačka inteligencija, koja može pisati SQL kod umesto programera, zavisi od SQL-a za interakciju sa podacima. SQL će nastaviti da igra ključnu ulogu u IT sistemima, bez obzira na to što možda postane manje vidljiv za developere. Sa sve većim oslanjanjem na podatke u IT industriji, SQL će i dalje biti neophodan za funkcionisanje brojnih sistema.

HelloWorld
0
29.04.2024. ·
4 min

Hakeri trenutno čine treću najveću ekonomiju na svetu

Tokom proteklih 40 godina, hakeri su evoluirali od napada hakerskim crvom tokom 1980-ih do odlično finansiranih organizacija koje se infiltriraju u neke od najprofitabilnijih industrija na svetu. Danas, sajber-kriminal predstavlja ozbiljnu pretnju svakoj kompaniji čiji je uređaj povezan na internet i nastavlja da uzrokuje značajne ekonomske probleme širom sveta. Savremeni sajber-napad može pratiti svoje korene do napada crvom Moris 1988. godine. Pre nego što je World Wide Web ostavio uticaj, “mali” program lansiran sa računara na Massachusetts Institute of Technology (MIT) se izuzetno brzo širio. Zarazio je 6.000 od oko 60.000 računara povezanih na internet u to vreme. Iako je bilo teško izračunati tačnu štetu koju je prouzrokovao crv Moris, procene je stavljaju negde između 100.000 i miliona dolara. Tokom decenija, sajber-kriminal postao je sve sofisticiraniji, sa pretnjama koje odražavaju geopolitičke tenzije. 1999. godine, tinejdžer je hakovao Ministarstvo odbrane SAD i agenciju NASA i instalirao backdoor na servere kako bi preuzeo softver vredan 1,7 miliona dolara. Ako premotamo do 2021. godine, Colonial Pipeline u Sjedinjenim Američkim Državama bio je izložen ransomware napadu koji je primorao kompaniju da obustavi rad cevovoda i plati 4,4 miliona dolara putem Bitcoina. 2023. godine, grupa CIOp iskoristila je ranjivost nultog dana u softveru za prenos fajlova MOVEit koji je pogodio 2.000 organizacija i procenjenih 62 miliona ljudi. Ekonomska skala sajber-kriminala Sjedinjene Američke Države, sa BDP-om od 25,44 biliona dolara (engl. trilion) krajem 2022. godine, trenutno su najveća svetska ekonomija. Kina je zauzela drugo mesto, sa BDP-om od 17,96 biliona dolara. Međutim, sajber-kriminal se polako penje po ovoj lestvici. 2021. godine, prouzrokovao je globalnu štetu u vrednosti od 6 biliona dolara - približno 2 biliona dolara više nego što iznosi BDP Japana - treća najveća ekonomija na svetu. Prema kompaniji Evolve Security, sajber-kriminal će rasti po stopi od 15% godišnje u narednih pet godina. Procene koje iznosi Statista vide godišnji globalni trošak sajber-kriminala kako raste na skoro 24 biliona dolara do 2027. godine, u poređenju sa 8,4 biliona dolara u 2022. godini. U Nemačkoj, studija Bitkoma ističe da je sajber-kriminal prouzrokovao ukupnu štetu u iznosu od 206 milijardi evra, što predstavlja 5% BDP-a zemlje. Nadalje, 62% kompanija smatraju sajber-napade značajno velikim, pri čemu su phishing, napadi na lozinke, malware infekcije, ransomware i SQL ubacivanje najčešće zabeleženi oblici napada. Novi alati donose povećane sajber-pretnje Kako veštačka inteligencija i mašinsko učenje postaju ključni u sajber-bezbednosnom dijalogu, pejzaž digitalnih pretnji se intenzivira. Usvajanje tehnologija poput Interneta stvari (IoT) i Industrije 4.0 otkriva nove ranjivosti, dok sve veći broj napadača koristi AI da unapredi svoje sposobnosti hakovanja. Nadalje, napadači proširuju svoje ciljeve kako bi obuhvatili oblake i osetljive podatke smeštene u aplikativnim uslugama SaaS kompanija. Sajber-kriminalci su danas obavijeni gustim oblakom magle, njihova saradnja na poznaje granice i postavljena je jasna hijerarhija uz specijalizovane uloge koje sve čine još komplikovanijim. Sve ovo predstavlja značajan izazov za službe bezbednosti sa zadatkom da ih prate i osuđuju. Sudeći po Global Risk 2020 izveštaju koji objavljuje Svetski ekonomski forum, sajber-organizacije su počele da se udružuju, a verovatnoća da će neko biti uhvaćen i osuđen iznose manje od 0.05% u SAD. Ovi zlonamerni igrači fokusiraju se na specifične industrije i precizno kroje svoje napade. Pritom, zahvaljujući novim zlonamernim tehnologijama, sada čak i hakeri sa ograničenim iskustvom mogu da sprovode uspešne napade, a dark web pruža zaštićeni kanal komunikacije koji pruža potpunu anonimnost pri planiranju ovih napada. Analogni zločini i dalje imaju važnu ulogu Probijanje sajber-bezbednosti i dalje se dešavaju i iz ne-digitalnih ili fizičkih komponenti sistema, i dešava se da vrlo često prođu neprimećeno. Ove ne-digitalne oblasti uključuju neovlašćen pristup sigurnim data centrima ili drugim fizičkim lokacijama gde se čuvaju osetljive informacije. Nezaštićen fizički pristup omogućava zaposlenima ili izvođačima radova da iskoriste osetljive informacije za prevare putem društvenog inženjeringa. Organizacije takođe moraju da brinu o nepravilnom odlaganju osetljivih dokumenata i manipulaciji hardvera koja menja uređaje korišćenjem zlonamernog koda. Pored pojačanja fizičkih analognih sistema, posebna pažnja mora se posvetiti i softverskom lancu snabdevanja. To je i dalje slab spoj koji može imati razorne posledice. Kompanije ne smeju samo održavati svoje sigurnosne protokole, već moraju i pažljivo ispitivati sigurnosne prakse svojih dobavljača treće strane. Štaviše, napadači i dalje koriste deepfake napade društvenog inženjeringa kako bi podstakli ransomware, dobili dozvole i pristupili osetljivim podacima uz relativni uspeh i lakoću phishing kampanja. Ojačavanje odbrana od sajber-kriminala “BDP” sajber-kriminala od 6 biliona dolara učinio ga je trećom najvećom ekonomskom supersilom na svetu. Najgore od svega, niko nije imun na napad, od malih prodavnica do finansijskih divova na Vol Stritu. Od Bugarske do SAD-a, svi smo meta. Kako ove skrivene organizacije postaju organizovanije i sofisticiranije, sajber-bezbednost će morati da se pretvori u neophodnu poslovnu uslugu poput energije ili usluga u oblaku. Kompanijama su trenutno potrebne konstantne mere jačanja fizičkih i digitalnih aspekata uređaja, platformi i sistema. Bez sveobuhvatnog znanja svih uglova napada – uključujući i partnerske sisteme u lancu snabdevanja – dobro edukovana baza zaposlenih i primena sofisticiranih alata za sajber bezbednost, brojne kompanije i dalje će birti žrtve, ali i finansijeri, sajber zločina.

22.04.2024. ·
1 min

Python veštine postaju sve važnije developerima koji ulaze u napredni AI

Status Pythona kao glavnog programerskog jezika za AI i projekte mašinskog učenja, od njegovih obimnih mogućnosti obrade podataka do fleksibilnosti i prenosivosti, potpuno je opravdan. A, koliko tačno je to opravdano može se videti u novim korisničkim podacima iz Snowflake-a. Provajder podataka u oblaku izvestio je da je, iz godine u godinu, upotreba Pythona porasla za 571% u Snowpark-u, skupu biblioteka Snowflake-a koje sigurno implementiraju i procesuiraju ne-SQL kod. Drugim rečima, neće biti iznenađenje videti Python, Scalа i Java programske jezike na vrhu ove liste, ali su brojevi ono što čini stvar interesantnom: Scala je videla porast od 387%, u poređenju sa Javom koja je imala rast od 131%. Pored toga, izveštaj je primetio da je korišćenje najpopularnijih otvorenih Python biblioteka za AI/ML u Snowpark-u poraslo za 335%. Scikit-learn je zabeležio porast od 474%, dok je XGBoost zabeležio porast od 357%. Iz perspektive Snowflake-a, kompanija je istakla da porast nije samo rezultat premeštanja postojećih radova na njihovu platformu, već neto povećanje eksperimentisanja sa naprednim AI. Istraživanje je takođe otkrilo da preduzeća sve više dobijaju vrednost iz svojih nestrukturiranih podataka; povećanje od 123% u analizi korisnika tokom šest meseci. Snowflake je takođe istražio kako zajednica developera u Streamlit-u koristi velike jezičke modele (LLM). Od aprila do januara, kompanija je primetila da je 20.076 developera radilo na 33.143 aplikacije pokrenute LLM-om, uključujući i one aplikacije koje su još u razvoju. Skoro dve trećine (65%) od 1.500 ispitanika u anketi reklo je da su to bili poslovni projekti. Među najvećim brigama developera pri radu sa LLM-ovima, na osnovu ankete od 980 korisnika, bile su poverenje, navedeno od 36% ispitanika, privatnost (28%), troškovi (19%) i mogućnost učenja potrebnih veština (17%).

26.12.2023. ·
5 min

Istraživanja pokazuju da je GenAI izuzetno neprecizan za poslovnu upotrebu

Kako Ai generativne platforme u sebe “usisavaju” sve veće količine podataka i povezuju se sa više i više korporativnih baza podataka, stručnjaci polako počinju da aktiviraju alaram kako bi skrenuli pažnju na jednu važnu stvar – ovi alati su izuzetno neprecizni i polako počinju da budu sve zatvoreniji. Veliki jezički modeli (LLM), algoritamske platofrme na kojima se generativni AI alati kao što je ChatGPT grade, izuzetno su neprecizni kada su povezani sa korporativnim bazama podataka i sve manje transparentni u svom radu, tvrde dva nova istraživanja. Studija Stenford univerziteta pokazala je da dok veliki jezički modeli nastavljaju da upijaju masivne količine informacija i rastu, postaje sve teže pratiti izvore tih podataka. Zauzvrat, to kompanijama otežava da saznaju da li mogu da bezbedno kreiraju aplikacije koje koriste komercijalne genAI modele, dok istražvači ne mogu biti sigurni da su podaci koje dobijaju za svoja istraživanja precizni. Takođe, sve ovo otežava i zakonodavcima da dizajniraju smislene zakone koji bi zauzdali moćnu tehnologiju, tvrdi ovo istraživanje. Veliki jezički modeli kao što su GPT, LLAMA i DALL-E, pojavili su se tokom protekle godine i transformisali veštačku inteligenciju, pružajući mnogim kompanijama priliku da sa njima eksperimentišu i poboljšaju svoju produktivnost i efikasnost. Međutim, sve te prednosti dolaze sa određenom dozom nesigurnosti. Transparentnost i odgovornost u AI tehnologiji „Transparentnost je ključan preduslov za bilo kakvu javnu odgovornost, naučne inovacije i efikasno regulisanje digitalnih tehnologija. Manjak transparentnosti oduvek je bio problem sa kojm su se suočavali korisnici digitalnih tehnologija“, izjavio je Rishi Bommasani, vođa istraživanja. Primera radi, OpenAI, koji u svom imenu sadrži reč „open“ (otvoren), jasno je stavio do znanja da neće biti transparentan kada su u pitanju brojni aspekti GPT-4 modela, naglasili su istraživači Stenford univerziteta. Ocena transparentnosti jezičkih modela Kako bi procenili nivo transparentnosti, istraživači su oformili tim koji je uključivao saradnike sa MIT i Prinston univerziteta, kako bi razvili sistem bodovanja nazvan Foundation Model Transparency Index. Ovaj sistem procenjuje 100 različitih aspekata ili indikatora transparentnosti, uključujući i način na koji neka kompanija kreira osnovni model, ako on radi i kako se koristi. Istraživanje je ocenjivalo 10 jezičkih modela, a rezultati su pokazali da je srednja ocena transparentnosti bila svega 37%. Najvišu ocenu dobio je LLAMA (52%), a potom slede GPT-4 (48%) i PaLM 2 (47%). „Ako nemate transparentnost, regulatorna tela ne mogu da postavljaju prava pitanja, a kamoli da nešto preduzmi“, dodao je Bommasani. Sa druge strane, gotovo 95% šefova vetuje da njihovi zaposleni regularno koriste genAI alate, dok 53 odsto njih veruje da oni sada praktično vode određene sektore unutar kompanije, pokazalo je istraživanje koje je sproveo Kaspersky Lab. Rezultati su pokazali i da gotovo 59% odsto direktora poseduje određenu dozu zabrinutosti u vezi sa bezbednosnim rizicima koje ovi modeli nose sa sobom i načinom na koji bi oni mogli da ugroze osetljive kompanijske podatke. Problem sa ovim jezičkim modelima ide znatno dublje od puke transparentnosti jer je i preciznost njihovih podataka dovedena u pitanje. Preciznost i pouzdanost jezičkih modela Juan Sequeda, glavni istraživač data.world AI laboratorije, izjavio je da je njegova kompanija testirala jezičke modele povezane sa SQL bazama podataka tražeći od njih odgovore na specifična pitanja u vezi sa kompanijom. Rezultati su pokazali da su u svega 22% slučajeva dobijali tačne odgovore, dok su gotovo sva pitanja koja su zahtevala napredne odgovore dobila netačne odgovore. Nedostatak odgovarajućih text-to-SQL benčmark testova koji su skrojeni po potrebama poslovnih korisnika može da utiče na davanje tačnih odgovora ovih velikih jezičkih modela. Strategije za poboljšanje tačnosti i upravljanje rizikom Već sada je vidljivo da im nedostaje interni poslovni kontekst određene kompanije, a to je jedna od ključnih stvari koja garantuje preciznost i tačnost odgovora. Sa druge strane, kompanije ulažu milione dolara u cloud skladištenje podataka, poslovnu inteligenciju, alate za vizualizaciju i ELT i ELT sisteme, kako bi mogle da bolje upravljaju podacima. Mogućnost korišćenja jezičkih modela za postavljanje pitanja u vezi sa tim podacima otvara velike prilike za unapređivanje ključnih procesa kao što su ključni indikatori performansi i strateško planiranje. Ovo istraživanje bilo je fokusirano isključivo na GPT-4, a preciznost dobijenih podataka iznosila je svega 16%. „Podaci koje smo dobili uopšte nisu ohrabrujući. Šta se dešava kada pred bordom direktora koristite netačne cifre, ili pred istražnom komisijom? Cena te nepreciznosti mogla bi da bude izuzetno visoka“, izjavio je Sequeda. Problem sa ovim jezičkim modelima leži u činjenici da su u pitanju statističke mašine koje predviđaju sledeću reč na osnovu reči koje su bile pre nje. Ova predviđanja bazirana su na šablonima posmatranja kompletnog interneta, Zbog toga, rezultati koje će dati će biti mogući, ali i neprecizni, pogotovo ako nikada ranije nisu uočili šablon koji je vezan za neku specifičnu kompaniju. Tačnost velikih jezičkih modela (LLM) povećava se na 54% kada se postavljaju pitanja preko reprezentacije baze podataka SQL preduzeća u obliku grafikona znanja. "Zbog toga, ulaganje u prućžaoce ove usluge obezbeđuje veću tačnost sistema za odgovaranje na pitanja koji koriste LLM", rekao je Sequeda. "Još uvek nije jasno zašto se ovo dešava, jer ne znamo šta se dešava unutar LLM-a. "Ono što znamo je da, ako LLM-u pružite upit sa ontologijom mapiranom unutar grafikona znanja, koji sadrži ključni poslovni kontekst, tačnost je tri puta veća nego kada to ne učinite", nastavio je Sequeda. "Međutim, važno je postaviti pitanje, šta znači 'dovoljno tačno'?" Da bi povećale mogućnost tačnih odgovora od LLM-a, kompanije moraju da imaju "snažnu osnovu podataka", ili ono što Sequeda i drugi nazivaju podacima spremnim za veštačku inteligenciju; to znači da su podaci mapirani unutar grafikona znanja kako bi se povećala tačnost odgovora i obezbedila objašnjivost, "što znači da možete naterati LLM da pokaže svoj rad". Još jedan način da se poveća tačnost modela je korišćenje malih jezičkih modela (SLM) ili čak specifičnih jezičkih modela neke industrije (ILM). "Mogu zamisliti budućnost u kojoj svako preduzeće koristi nekoliko specifičnih LLM-ova, svaki podešen za određene vrste pitanja", rekao je Sequeda. Za sada, pristup i dalje ostaje isti: predviđanje sledeće reči. Ta predikcija može biti precizna, ali uvek će postojati šansa i da će ona biti pogrešna. Svaka kompanija mora da se postara da pruži nadzor i regulaciju ovih sistema kako bi sprečila da osetljivi podaci budu ugroženi od strane modela koji nisu precizni.

25.12.2023. ·
2 min

IT tržište Srbije u prvih devet meseci: Pad potražnje za kandidatima i skok konkurisanja

Broj oglasa za IT pozicije u prvih devet meseci 2023. godine je manji za čak 52% u odnosu na isti period prošle godine, pokazali su najnoviji podaci sajta HelloWorld.rs. Najplaćeniji posao i ove godine u IT sektoru bila je Software inženjer, sa prosečnom platom između 1.807 i 1.985 evra. Istraživanje našeg sajta takođe pokazuje i sve veću potražnju za juniorima kojima je namenjeno čak 15% oglasa za posao, dok je potraga za seniorima konstantna i taj udeo oglasa je 22%. Pad broja oglasa primećen krajem 2022. godine Analizirajući podatke od januara do septembra 2023, uočen je značajan pad od 52% u broju IT oglasa u odnosu na isti period prošle godine. Ovaj trend primećen je u poslednjem kvartalu prethodne godine kada se desio i pad broja oglasa na sajtu. I pored toga, zabeležen je rekordan broj konkurisanja kandidata - u 2023. godini veće je za 55% u odnosu na 2022. Ovaj trend nastavlja se i u trećem kvartalu ove godine. Za Software inženjere nema krize U poslednjih nekoliko godina, IT sektor beleži sve veću potražnju za stručnjacima iz različitih oblasti. Dok se Software inženjeri i dalje nalaze  na ključnoj radnoj poziciji, postoje i drugi visoko traženi poslovi u IT-ju. Na listi najtraženijih su: Software Inženjer IT Help Desk / Support System Administrator / Inženjer Frontend Developer Data Warehouse / Business Intelligence Developer HelloWorld je radio na unapređenju platforme za prikaz informacija o platama, kako bi te podatke učinio preciznijim i relevantnijim za korisnike. Ovaj korak ima za cilj veću sigurnost korisnika sajta u to da prikupljeni podaci odražavaju što realniju sliku o platama u IT sektoru u Srbiji. U saradnji sa Data Science timom smo razradili metodologiju koja će nam omogućiti ovakav pristup. Najplaćeniji su i ove godine Software inženjeri, pored njih se visoko kotiraju i Project menadžeri. Ovako izgledaju prosečni opsezi plata po pozicijama: Software Inženjeri: Prosečna plata se kreće od 1.807 do 1.985 evra. QA Specijalisti: Zarade variraju od 1.047 do 1.245 evra. IT Help Desk: Prosečna plata je između 700 i 790 evra. Test Engineer: Zarade se kreću od 1.106 do 1.365 evra. Project Manager: Prosečna plata iznosi od 1.414 do 1.765 evra. Kada govorimo o najtraženijim tehnologijama u septembru 2023. godine to su: SQL, JavaScript, Cloud, Git i Java. Konstantna potražnja za seniorima i pad broja oglasa za rad od kuće U poređenju sa 2022. godinom, beležimo značajne promene u potražnji kadrova po senioritetu. Konkretno, potražnja za juniorima beleži skok sa 9% na 15%, dok je kod mediora uočen pad sa 68% na 63%. Seniori imaju stabilan udeo oglasa od 22%. U 2023. godini, udeo remote pozicija u ukupnom broju oglasa smanjen je sa 32% na 22%. Ova promena sugeriše prilagođavanje poslovnih modela kompanija, koje sve više naglašavaju potrebu za angažovanjem kadrova koji su fizički prisutni na radnom mestu.  

HelloWorld
0
06.11.2023. ·
3 min

Zašto zaposleni treba da koriste Excel i Python umesto komplikovanih programskih jezika?

Ako želite da izvučete maksimalnu vrednost iz podataka, naučite zaposlene da koriste Python i Excel umesto specijalizovanih programskih jezika. Istraživanje koje je sprovela kompanija NewVantage Partners pokazalo je da je 93.9% ispitanih osoba na visokim funkcijama očekivalo da će povećati ulaganje u podatke u 2023. godini, dok svega 23.9% organizacija svoje poslovanje vodi na osnovu velikih podataka. Ovi rezultati doveli su do pitanja – gde će navedene investicije ići, ako ne na promenu načina na koji kompanije funkcionišu, i šta sprečava te menadžere da svoju viziju budućnosti vođene podacima nametnu kompaniji? Kratak odgovor je – ljudi. Od tih istih ispitanih menadžera, 79% tvrdi da su kulturološki problem najveća prepreka ulasku u budućnost vođenu podacima. Čini se da je lako reći da poslovanje kompanije vode ozbiljni podaci, ali je to mnogo teže sprovesti u delo i implementirati jer su na kraju dana ljudi ti koji udišu život u posao, a ne podaci. Ako ovo uzmemo u obzir, ključ je obezbediti podatke koji osnažuju ljude, ali ih ne zamenjuju. Python i prijatelji Pre više od jedne decenije, Svetlana Sikular, analitičarka kompanije Gartner, iznela je dve ključne istine o podacima koje vrlo često zaboravljamo: “Organizacije već imaju ljude koji poznaju svoje podatke bolje od mističnih data naučnika” i “učenje Hadoopa je lakše nego učenje kompanijskog posla”. Jedan od načina da se unapredi inteligentna upotreba podataka jeste spuštanje granice programske pismenosti. Ma koliko misteriozni data alati mogu biti, mnogo značajniji alat jeste način na koji zaposleni posmatra poslovanje kompanije jer stručniji zaposleni mogu da postavljaju inteligentnija pitanja i dolaze do dragocenijih zaključaka iz dostupnih podataka. Iz tog razloga, fokus svake kompanije bi trebalo da bude veća dostupnost data alata zaposlenima. Napori da se Microsoft Excel učini ključnom komponentom analize podataka je nešto što treba ohrabrivati s obzirom na to da postoji znatno veći broj ljudi stručnih u Excelu nego sa TensorFlow ili Hugging Face modelima. Isto važi i za Python. Iako R i drugi specijalizovani jezici nastavljaju da igraju značajnu ulogu, Python je jedan od najvećih pokretača AI produktivnosti za sve veći broj data analitičara. Ako planiramo da podatke stavimo u centar poslovanja svake kompanije, onda bi dominantan jezik trebalo da bude onaj koji je najpristupačniji najširem broju zaposlenih. A to je Python. Ali, i SQL. Nedavna analiza popularnosti programskih jezika pokazala je da se Python i SQL nalaze na prve dve pozicije. Python je definitivno na prvom mestu sa velikom prednošću - koja nastavlja da raste. Ova dva jezika zajedno predstavljaju dobru kombinaciju s obzirom na činjenicu da se uklapaju u veštine koje mnogi zaposleni već imaju i samim tim nema potrebe da se oni uče novim načinima za rad sa podacima. Generativni AI je još jedan način na koji zaposleni mogu da se ohrabre na rad sa podacima. Međutim, rezultati i odgovori koje AI može da pruži i dalje nisu dovoljno dobri po pitanju tehničke preciznosti, mada je prozaičnost tu. Na kraju dana, poenta nije tehnologija, već ljudi koji je koriste – i to je stvar u kojoj mnoge kompanije greše. Osnaživanje zaposlenih Kako NewVantage izveštaj navodi, svake godine, velika većina ispitanih izjavljuje da su ključni izazovi na putu ka data transformaciji organizacija ljudske prirode – kultura, ljudi, procesi i same organizacije – a ne tehnološke. Sa druge strane, veliki broj kompanija fokus stavlja na probleme u čijoj srži nisu ljudi poput data modernizacije, data proizvoda, veštačke inteligencije i različitih data arhitektura. Drugim rečima, polako shvatamo da postoji problem sa ljudima, ali pokušavamo da ga rešimo tehnologijom. Ključna stvar u svakoj kompaniji su ljudi koji interpretiraju dostupne podatke, ne sami podaci. Ti ljudi već rade svoj posao, a ključna stvar jeste shvatiti kako da se bolje iskoriste alati koje već poznaju ili lako mogu da se nauče.

22.09.2023. ·
17 min

Kako učiti Data Science?

Za početak, o tome zašto je bitno da (a) učite Data Science rešavajući neki problem koji ste rešeni da rešite, u nekoj oblasti koja raspaljuje vašu radoznalost i znači vam, te (b) da učite Data Science funkcionalno, odn. da što pre vaše učenje pretočite u praksu koja ne samo da je korisna i vama i drugima već vas potencijalno i plaća za to da kroz rad učite; o potrebi da neprestano stvarate prilike za tako nešto i ni slučajno ne propuštate prilike nastale pukom srećom ili sticajem okolnosti. Iz prve ruke Konačno, sa skoro pedeset godina, posle programiranja čitav život počevši od moje desete godine (da, da - 8 bita i 64 Kb RAM-a 80-ih), silnih škola i rada u fundamentalnim istraživanjima koji sam započeo još 1993 a koje je potrajalo dvadesetak godina, te više od dvadeset godina karijere u onome što se nekada zvalo Quantitative Analytics, pa Data Mining, i konačno Data Science i/ili Machine Learning - rešio sam da je vreme da počnem da delim iskustvo pređenog puta. Pišem u oblasti u kojoj sam prošao sve od rada u statističkom softveru poput SPSS ili Statistica 90-ih, MATLAB, zatim R i konačno Python, u prethodnih tridesetak godina; od 64Kb u kojima treba da naučite da programirate do iskustva rada u Big Data (i to baš, baš Big Data u mom konkretnom slučaju); od statističke analize bihejvioralnih eksperimenata, anketnih istraživanja, skala stavova u oblastima istraživanja javnog mnjenja, međunarodnim odnosima, javnom zdravstvu, bankarskom sektoru, gemblingu i FMCG, do skrejpovanja i razvoja Information Retrieval sistema from scratch, mentorisanja Data Science studenata američkog edu-startapa, analize paterna ponašanja editora Wikidata koja je graf sa kojih 90+ miliona čvorova, te razvoja ML za predikciju popularnosti sadržaja na socijalnim medijima. Iskustvo je neverovatno a investicija dan danas lepo vraća, najviše time što mi omogućava da živim radeći poslove u kojima uživam, tako da mi je granica između radnog vremena, slobodnog vremena i hobija praktično izbrisana. A to je veoma važna stvar u vašem životu, stvar koju treba da se trudite da postignete: da uživate, a ne da mrzite ceo svet ponedeljkom ujutru smatrajući da je 8h radnog vremena nešto što je prosto ujedeno od vašeg života da bi finansiralo preostalih 16h. Pare nisu toga vredne, verujte mi. Počeću sa postom naslovljenim: Kako učiti Data Science? Biće više nastavaka: praktično svaku od tema i motivacija kojih se dotaknem, elaboriraću u nekom kasnijem postu. Cilj mi je da pokušam pomognem onima koji su ili tek zainteresovani za Data Science kao moguć izbor za karijeru u istraživanju ili primeni, onima koji su tek počeli da uče, onima koji su naučili i traže posao, pa i onima koji su uveliko u Data Science - jer oni su odavno već shvatili da to znači učiti doslovce svaki dan. Izbor je dobar Data Science je dobar karijerni izbor, ako vas zanima, jer je danas svugde. Doslovce: kako je IT ušao u svaku moguću i nemoguću industriju i granu, tako je danas kao suza čista istina da u data intenzivnim okruženjima (engl. data intensive environments) - čitaj: gde god ima dosta podataka - za Data Scientista ima posla. A gde danas nema dosta podataka - pa, samo u poslu onih koji još nisu shvatili da bez stavljanja informacija u pogon u poslovnom okruženju više teško da ima pravog uspeha... Nema šanse da neko pravi pogrešan izbor životnog poziva ako se opredeljuje za Data Science: gap na tržištu rada je ogroman, potražnja za njima je velika, raste konstantno, i tek će da raste, jer su deo transformacije kompletne globalne ekonomije kroz ono što danas ljudi zovu Četvrtom industrijskom revolucijom. Često se pogrešno pretpostavlja da je uloga Data Science da automatizuje sve i svačiji posao i prepusti funkcionisanje sveta i privrede autonomnim algoritmima koji iz podataka uče i donose optimalne odluke. To jeste deo posla, ali (a) ne na svakoj Data Science poziciji, (b) ima i te kako posla koji ne podrazumeva primenu čitavog takvog ciklusa, u kome se od nas traži da (c) pomoću podataka i mašinskog učenja donosimo neke sasvim ljudske zaključke i preporuke, da (d) ponekad tek dovoljno lukavo vizuelizujemo neke podatke da bih ih neko drugi razumeo ili mogao da ih komunicira nekom trećem, te (e) često se naš posao sastoji u tome da uopšte iz nekih početnih, sirovih podataka tek dođemo do podataka koji ljudima nešto počinju da znače i na osnovu kojih će se tek kasnije razmatrati kuda dalje. Ali tog posla ima, i ima ga u toliko različitih oblasti i industrija, da je nesumnjiva jedna stvar: teško je da ako naučite Data Science nemate posla, i teško je da uz toliki raspon naše discpline kroz različita tržišta ne nađete neku nišu u kojoj će vam biti interesantno i izazovno da radite. Kako onda izgleda početak u Data Science? U kom trenutku, kako neko počne da stiče motivaciju, znanja i veštine, i počne da postaje Data Scientist? Moj odgovor je: ne znam. Jedino što po tom pitanju mogu da učinim za druge je da podelim moje lično iskustvo, dovedem nas danas do tek par izvesnih zaključaka (na kraju teksta), i podsetim da ima N (gde je N neki veliki ceo broj) izbora, iskustava, i ličnih priča drugačijih od moje kroz koje su ljudi ulazili i ulaze u ovu disciplinu. Evo kako je sve počelo za mene, ukratko i bez ulaženja u ličnu biografiju, ljubavi, muzički i filmski ukus ili sklonosti ka funkcionalnom ili objektno orijentisanom programiranju. Prva stvar, pretpostavke: počeo sam da programiram sa deset (brojem: 10) godina, prvo učeći BASIC iz baš ma kog časopisa o mikrokompjuterima koji je 80-ih mogao da mi dopadne šaka i pišući kod na svesci "na kockice" (tako je zovu, iako je papir, koliko ja znam, "na kvadratiće", ali Ok), i od neke 1986 na 8-bitnom Commodore 64 koji sam uspeo da iskukam na poklon od roditelja u ekonomski ne tako slatka vremena po građane ondašnje Jugoslavije. Koliko sam bio lud i predan u tome: pa, imao sam nekih šesnest godina kada sam u jednom ex-Yu časopisu o računarima objavio prvu recenziju kompajlera za programski jezik PASCAL... Interesovanje nikada nije prestalo: preko prijatelja iz Istraživačke stanice Petnica sam došao do fotokopija poglavlja čuvene "Algorithms + Data Structures = Programs" Niklaus Wirtha, pratio razvoje koliko sam mogao, i maštao da jednog dana razvijam ekspertske sisteme u (danas prilično zaboravljenom) programskom jeziku PROLOG za logičko programiranje. Šta drugo programere uopšte zanima do razvoj AI? Studije: ranih 90-ih, ako hoćeš da ideš u karijeru programiranja a živiš u Beogradu, to je bilo ili ETF, ili Matematika. Veliki je broj bio samoukih kao ja, ali opet - neka ozbiljna škola ti treba. Treba ne samo znati da programiraš, nego i razumeti matematička sredstva koja treba da pretočiš u algoritme, i onda u kod. Moj izbor (nerado; objasniću) je bila matematika; međutim, posle I semestra na Matematičkom je meni postalo jasno da jednostavno nisam osoba koja će svaki dan da vežba analizu i linearnu algebru tri, četiri sata dnevno, jer propustiš li jedne, dve vežbe za redom eto tebi problema kako da uopšte stigneš grupu sa kojom radiš do kolokvijuma ili ispita. A moja interesovanja su bila uska, i svakako vezana ne za baš sve u matematici: ono što nekoga zainteresovanog za računarstvo najviše interesuje, matematička logika, teorija formalnih jezika, teorija dokaza, izračunljivosti, meta-matematika. Iskreno nisam bio lud za verovatnoćom, statistikom i numeričkom analizom - oblastima za koje bi se reklo da zapravo predstavljaju same fundamente za Data Science. Ne - ja sam teoriju verovatnoće zavoleo kasnije. Sve u svemu, sa tih 18, 19 godina pala je nagla odluka da se studira nešto drugo, i to nešto sasvim drugo... posle prethodno položenih prijemnih ispita na matematici i fizici (izbor je bio matematika), položio sam prijemne ispite za Filozofski (filozofiju i psihologiju) i presrećan što sam sa tankim uspehom iz gimnazije uspeo u žešćoj konkurenciji da upišem psihologiju odlučio da nju i studiram. Nema više programiranja, nema više analiza i diferencijalnih jednačina, ide neki novi svet, neka nova interesovanja... Sve dok me na prvoj godini psihologije nisu sačekali ispiti iz statistike, fiziologije centralnog nervnog sistema, te oblasti kao što su psihofizika i kognitivna obrada informacija... Kad imate iza sebe prilično solidnu matematiku još iz gimnazije i godine programiranja u kojima svakako barate brojevima svaki dan, vidite šta je nastava psihologije na prvoj godini, okrenete se oko sebe i dođe vam skoro da se nasmejete bledim licima većine vaših kolega koji mahom dolaze sa bekgroundom društvenih nauka i humanističkih discplina, načitani Frojda i Junga (koje sam poprilično pročitao i sam i osećam samo najveće poštovanje za njihov rad i dan danas), kako u neverici slušaju o linearnoj regresiji, tome šta je histogram, a šta psihofizička funkcija za koju je Fehner verovao da je logaritamska a Stivens da je stepena - brzo shvatite da se nalazite na mestu koje je potencijalno veoma interesantno za vas. Tako je i bilo: nisam završio ni prvu godinu studija a već sam izveo moju prvu eksperimentalnu studiju u kognitivnoj psihologiji. Druga godina studija, prvi nastup na naučnoj konferenciji. Do kraja studija sam ih imao ne znam koliko i objavljena četiri naučna rada do neke dvadeset i četvrte ili dvadeset i pete godine: svaki je, po prirodi oblasti u kojoj sam istraživao, uključivao statističke modele podataka, najčešće analize varijanse i multipla linearne regresije. Interesovanja su mi se brzo proširila na ono što su osnove oblasti Unsupervised Learning danas (PCA, i MDS - nešto što se koristilo za redukciju dimenzionalnosti pre t-SNE i UMAP), jer su mi znanja u toj oblasti bila potrebna da bih istraživao u oblasti semantičkog pamćenja i distribucione - ili statističke, ako hoćete - semantike, koja me je veoma interesovala. Najbolje od svega je bilo otkriće da je mejnstrim teorija kognitivnih nauka - koje predstavljaju osnovu za istraživanja u oblasti veštačke inteligencije, a pored kognitivne psihologije obuhvataju mnoge druge naučne oblasti od neurobiologije do inženjeringa - nešto što se zove Computational Theory of Mind. Drugim rečima: psiholozi i filozofi koji su se bavili problemima saznanja i pitanjem inteligencije nisu pretpostavljali ništa drugo do ono što su u XX veku takođe pretpostavili matematičari, logičari i inženjeri, naime, da objašnjenje inteligencije leži u razumevanju ljudskog uma kao kompjutacione mašinerije. Bio sam, i ostao fasciniran time (iako danas ne verujem da je kompjutaciona teorija uma u stanju da objasni ljudsku inteligenciju u potpunosti). Oblast je bila prepuna matematičkih modela raznih kognitivnih funkcija: prepoznavanja, pamćenja, razumevanja značenja reči, donošenja odluka... I konačno, naučni rad je i te kako zahtevao dobro poznavanje verovatnoće i statistike da bi se analizirali i modelirali eksperimentalni podaci, a da biste matematičke modele mogli da primenite na podatke nije bilo dovoljno imati papir i olovku, dabome. Godine rada u SPSS, zatim STATISTICA, do momenta kada su me doktorske studije konačno dovele do MATLAB (kroz jedan od najboljih i najtežih kurseva koje sam ikada uzimao u životu, Simulation and Data Analysis na njujorškom NYU). Usput sam "pokupio" bejzijansku verovatnoću i statistiku i ostao ubeđeni subjektivista u teoriji verovatnoće do dan danas. Naravno da je programski jezik R bio sledeći logičan korak. R sam počeo da učim neke 2006. godine, mislim. Od 2013 godine, kada sam konačno završio rad na doktorskoj tezi, uključujući razvoj originalne bihejvioralne teorije odlučivanja i njene matematičke formulacije, do danas, teško da sam godišnje imao više od sedam dana da nisam napisao liniju R koda. Nešto Python sam znao s početka 2000-ih, ali me je R, specijalizovan za matematičku statistiku i tada visoko popularan samo u akademskoj zajednici prirodno više zainteresovao. Danas, u R radim bukvalno sve, uključujući i ono čemu jezik u suštini nije namenjen: održavanje i razvoj sajtova ili pisanje blogova : ) Od neke 2015. godine, kada sam već neko vreme prestao sa svakim akademskim angažmanom u istraživanjima ili nastavi i uzeo moju prvu poziciju koja se zvanično zvala Data Scientist, do danas, imam osećaj da sam završio još najmanje jedan fakultet radeći u Data Science. Istina, još od 2002 godine sam imao iskustva u istraživanjima javnog mnjenja (gde vam i te kako treba dobro znanje matematičke statistike), radio kao analitičar na međunarodnim projektima, radio u istraživanju tržišta, tako da mi nije bio toliki problem da nekako izađem na tržište kao konsultant u analizi podataka. Ali je realni rad u Data Science vremenom, a ponajviše od početka mog angažmana kao Data Scientist za Wikidata (2017 - 2022) - najluđi posao koji sam u životu radio - zahtevao mnogo više od dobrog R programiranja i poznavanja statističkih modela. SQL sam, ruku na srce, naučio još tokom nekih angažmana na razvoju Information Retrieval i Text Mining sistema u R za jednu međunarodnu fondaciju neke 2015, ako ne grešim, od kada datira i moja sklonost ka PostgreSQL, ali su ulaz u Big Data okruženja (Apache Hadoop i Spark) te potreba da razvijam kompletna softverska rešenja i plasiram ih u produkciona, virtuelna okruženja bili za mene priličan šok. Ali me je jedna stvar držala: ja sam, jednostavno, voleo sve to. I nikada mi nije predstavljalo problem to da nešto novo učim, toliko sam radoznao po prirodi da bih mogao da idem u školu za pare i polažem ispite do penzije (ako ikad u penziju uopšte i odem). Apache Spark je bila stvar koja me je naterala da se ozbiljnije vratim Python programiranju, i danas koristim Python i R uporedo u poslu - mada 90% koda koji pišem danas jeste u Python, dok R koristim za istraživačke faze projekata jer mi omogućava rapidan razvoj prototipa ma kog modela na kome radim. A i više ga volim : ) Vremenom, kroz posao, godinama, prešao sam kompletan put od čoveka koji koristi matematičku statistiku i modeliranje da bi testirao neku naučnu hipotezu ili teoriju do čoveka koji radi full-stack software development u Data Science: od istraživanja, preko prototipa, mašinskog učenja i selekcije modela, do njihovog plasiranja u produkciju upakovane u različite data proizvode u koordinaciji sa product i communications stranama posla. Pa ovo je lična priča: ponovo, šta su opšte pretpostavke, kako se ulazi u Data Science? Prvi način da vam pomognem u tome kako da uđete i kako da učite Data Science se sastoji u izvođenju nekoliko zaključaka iz ove moje profesionalne i lične priče, podsećajući vas da postoji bezbroj načina na koje možete da uđete u Data Science i učite tu oblast. 1. Treba da volite to, i da radite na nečemu konkretnom! Često ljudima koji me pitaju kako da počnu u Data Science odgovorim tako što ih pitam: koji problem vi pokušavate da rešite, a da to nije problem šta isplaćuje vašu mesečnu platu i plaća kiriju? Ja sam ono što me je odvelo u Data Science karijeru naučio rešavajući tri problema kognitivnih nauka koji su me najviše zainteresovali: problem odlučivanja, problem otkrića kauzalnih odnosa iz statističkih podataka, i problem značenja; sredstva kojima danas raspolažem u mom znanju i veštinama sam stekao radeći na rešavanju ovih problema. Za vas to može da bude nešto sasvim drugo, iz oblasti ekonomije, biologije, fizike, menadžmenta, inženjeringa, entertjmenta, kriptovaluta i NFTs, čega god hoćete, ali uvek je za učenje bolje da ispred sebe imate konkretan problem koji hoćete da rešite matematičkim sredstvima u Data Science nego da ga nemate: to ključno utiče na vašu motivaciju, da se bavite nečime što vas interesuje, što vam daje snage da napredujete. Ljudi znaju tokom kurseva u Data Science koje držim da me pitaju koji dataset treba da uzmemo i na njemu vežbamo R ili Python? Ja im obavezno odgovaram, vidite, na Kaggle i drugde ih ima milion - ali vi treba da odaberete onaj koji vas zanima, jer će vam svi drugi verovatno biti dosadni. 2. Treba da imate sreće, jeste - ali i da prilike za učenje stvarate i da ih koristite kada vam se pruže. Primetićete kako se u mojoj priči o početku karijere u Data Science stvari nekako perfektno slažu: čovek programira od malih nogu, čak i kad promeni faks da pobegne od matematike on uleti u oblast društvenih nauka koja je solidno matematizovana, dobije priliku da se bavi naukom, tokom studija se razbije od metodologije, verovatnoće i statistike, sve vreme nešto programira, ubada dobre poslove, i kako da na kraju ne postane Data Scientist? Pa čovek ima lude sreće! To samo zvuči tako kad se ispriča. Prvi časopis o računarima mi jeste otac doneo na poklon 1984. godine, ali nije on nego ja seo za sto, izvadio svesku i počeo da uči da programira (bez računara, zvuči kao vic danas). Kada sam upisao psihologiju, mogao sam te više prirodno-naučne ispite da ispolažem sa desetkama, slegnem ramenima, nakupim sertifikate za neke terapije i couching i danas razgovaram sa ljudima za novac kao što radi ogroman broj mojih kolega (zbog toga na tržištu koje je daleko više zasićeno nego ono u Data Science): ja sam izabrao da zagrizem i uđem u naučni rad pored redovnih studija; to je duplo više rada na studijama nego što se od vas traži. Nekih 2000/01, dok sam bio polaznik Beogradske otvorene škole, mogao sam da je završim i stavim u džep lepe preporuke za posao, odem i bavim se nekim reasearch managementom i uživam; ja sam predložio osnivanje istraživačkog centra koji bi se bavio razvojem Interneta i proučavanjem informacionog društva, tako stvorio priliku da oformim tim, izvedem istraživanja sa hiljadama ispitanika i naučim proces menadžmenta istraživanja od ideje do publikacije s leva na desno (četiri knjige smo mi u tom timu objavili zajedno 2002 - 2005; i to je trebalo napisati). Za doktorat, nisam morao da razvijam novi matematički model u teoriji odlučivanja, doktorira se i sa mnogo manje. Uopšte nisam morao da u životu prihvatam pozicije na kojima je trebalo da radim i back-end na Big Data u Hadoop i Spark, i mašinsko učenje, i razvoj RStudio Shiny dashboards, i njihovu produkciju u cloud okruženjima; mogao sam da kažem Ok, platite nekog Data inženjera za Big Data i zaposlite nekog juniora da radi dashboards, ja sam specijalista za ML i radim samo to - kao što danas radim na poziciji na kojoj se od mene zahteva samo ML, a u većini firmi kojima treba Data Science to što sam godinama radio ja radi tim ljudi. Ali je to za mene bio izazov - pa sam učio. Sve ono što nisam uradio je bilo da propustim priliku da učim kada bi mi se pružila pukom srećom, ili da propustim da priliku za učenje stvorim kada takve prilike nije bilo. U većini slučajeva, nisam uspevao samo to, već sam uspevao i da budem plaćen da radim posao koji je podrazumevao da na njemu mnogo učim. To bi bile pretpostavke: (1) da učite Data Science radeći na nečemu što vas interesuje i što volite, jer u suprotnom ozbiljno rizikujete da sebi zagorčate život ubrzo, te (2) da neprestano tražite prilike za učenje, kontekste u kojima će vaše učenje postajati funkcionalno i koristiti i vama i drugima (pri tom vas, kad god je to moguće, i plaćajući za to), i ne da prilike za učenje Data Science čekate nego da ih aktivno stvarate. Predlažite projekte, okupljajte timove, tražite podatke, otvorite blog i pišite šta i kako radite, i objasnite zašto je važno koji problem rešavate i zašto vam je do toga stalo. U narednim postovima, o tome da li i koliko teorije verovatnoće i statistike treba da znate da biste preuzeli neku poziciju u Data Science/ML, o tome da li vam trebaju master i doktorske studije da biste radili u Data Science (odmah da odgovorim: ne, ali nije ni loše ako je upravo to bio vaš razvojni put), kako da učite samo programiranje za Data Science, kako da organizujete vaše projekte tokom učenja (obavezno morate da imate projekat na kome radite dok učite Data Science), i drugim nadam se korisnim raspravama. Autor: Goran S. Milovanović

HelloWorld
2
07.09.2023. ·
2 min

IT tržište Srbije: Nastupa faza stabilizacije broja oglasa

Tržište rada IT industrije u Srbiji polako ulazi u fazu stabilizacije broja oglasa za posao. Prema istraživanju koje je sproveo najposećeniji sajt za zapošljavanje IT kandidata HelloWorld.rs, pad potražnje za IT kadrovima se zaustavlja i broj oglasa postepeno počinje da raste. Blagi trend rasta broja IT oglasa od aprila 2023. Kada poredimo trend potražnje za IT kadrovima za period januar – jun prošle godine i prvu polovinu ove godine, zabeležen je pad broja IT oglasa u prvih šest meseci 2023. za 49%. Što se tiče prva dva kvartala ove godine i tu se desio blagi pad broja oglasa u drugom kvartalu u odnosu za prvi za 9%. Posle aprila 2023. ukupni broj oglas raste te je u junu mesecu u odnosu na maj zabeležen rast broja oglasa od 27%. Takođe, manja potražnja, naročito inostranih kompanija koje su nudile mogućnost za rad od kuće, doveli su do pada broja oglasa za remote pozicije u prvoj polovini 2023. godine  za 11 procenata u odnosu na isti period prošle godine. Od oktobra 2022., beleži se rast jedinstvenog broja kandidata koji konkurišu na IT oglase. Kada se uzme u obzir da se u tom istom periodu smanjuje broj oglasa na tržištu, veća aktivnost IT kandidata na tržištu se javlja kao posledica nesigurnosti koja se oseća kod njih. Veća potražnja za junior kandidatima Potražnja za IT kandidatima je u odnosu na prošlu godinu sveukupno je manja, ali je došlo do procentualnih promena potražnje kandidata po senioritetu. Tako je potražnja za junior kandidatima veća za 7% u prvoj polovini ove godine u odnosu na isti period prošle godine. Takvoj slici je nesumnjivo doprineo ukupan pad potražnje za seniorskim i mediorskim pozicijama u odnosu na 2022. za čak 57%. Takođe, u prvoj polovini 2023. godine kandidati su se češće prijavljivali na juniorske i seniorske pozicije, dok su se u 2022. godini procentualno manje prijavljivali na te dve kategorije. Procenat istih kandidata koji su istovremeno konkurisali na juniorske i mediorske poziciji veći je za 3%, a 5% više kandidata konkuriše istovremeno na seniorske i mediorske pozicije u prvih šest meseci 2023. u odnosu na 2022. Pozicija Software Developer i dalje najtraženija na tržištu U prvoj polovini ove godine, baš kao i prošle godine, Software Developer i IT Help desk/Support ostaju na vrhu liste najtraženijih pozicija na IT tržištu rada.  Pored ove dve navedene, ostale pozicije koje se izdvajaju kao najtraženije za period januar-jun 2023. su: System administrator/Engineer, ERP/SAP/ABAP Consultant, Fronted Devoloper Kompanije najviše vrednuju poznavanje SQL-a i JavaScripta-a, ali takođe su u potrazi za stučnjacima koji se dobro snalaze u tehnologijama kao što su GIT, Linux, Cloud, Agile, Python, Java, Windows i CSS.

21.06.2023. ·
12 min

Kako postati data scientist: Martin Dippolito iz Luxofta otkriva tajne uspeha

U svetu u kom su podaci i informacije sve, potražnja za kvalifikovanim stručnjacima je u sve većem porastu. Kompanije iz svih sfera poslovanja aktivno tragaju za stručnjacima koji će im pružiti dragocene informacije i uvide iz podataka kojima raspolažu kako bi donele informisane i pravovremene odluke. Međutim, šta je tačno potrebno da bi neko postao data scientist? Koje veštine i znanja morate posedovati kako biste započeli karijeru u ovom polju? Odgovor na to daje nam data scientist Martin Dippolito iz kompanije Luxoft. Moja interesovanja su me odvela ovim putem Kao data scientist, uvek je potrebno da jednu nogu imate u informacionim tehnologijama, a drugu čvrsto postavite u poslovnom svetu. Čini se da se ove dve stvari međusobno poništavaju za mnoge prilikom izbora karijere u IT sektoru. Šta je vas navelo da izaberete ovaj put? - Izabrao sam put podataka (Data Science) jer mi omogućava da jednom nogom budem u informacionoj tehnologiji, a drugom u poslovnom svetu. Može se činiti da se ove dve stvari međusobno poništavaju za neke ljude u IT industriji, ali za Data Scientist-a zaista postoji uzbudljiva prilika da ih spoji. Sviđa mi se to što je Data Science multidisciplinarna oblast u kojoj mogu da kombinujem svoje teorijsko znanje o verovatnoći i statistici sa veštinama programiranja kako bih rešavao probleme iz stvarnog sveta. Data Science je most koji popunjava jaz između tehnologije i poslovanja. Mogu da zaronim u suštinu verovatnoće i statistike, ali istovremeno da primenim to znanje praktično putem programiranja. Mogu da istražujem složene probleme, pronalazim značajne uvide iz ogromne količine podataka i pretvaram ih u primenjiva rešenja. Upravo ta kombinacija tehničkog znanja i poslovnog rezona pokreće moju strast da nastavim svoju karijeru u oblasti Data Science-a. Takođe, ponekad pomislim da Data Science nije nešto što sam izabrao za sebe, već su me moja interesovanja odvela na ovaj put. Kada sam bio mlađi, eksperimentisao sam sa operativnim sistemom na mom ličnom računaru do te mere da sam oštetio hard disk. Vodio sam i održavao tehnološki blog koji je pokrivao nadolazeće operativne sisteme, aplikacije, uređaje i programske jezike. Tokom odrastanja, krenuo sam putem matematičkog/statističkog univerzitetskog obrazovanja. Spajanje ovog obrazovnog puta sa mojim ličnim interesovanjima jednostavno se činilo kao pravi izbor za moj trenutni posao Koje veštine i znanja ljudi u IT sektoru treba da steknu kako bi postali uspešni data scientist? - Da bi postale uspešan data scientist, osobe koje dolaze iz IT sveta moraju steći specifične veštine i znanje. U IT svetu, stručnjaci su upoznati sa konceptom "prekvalifikacije" kako bi se zadovoljile potrebe novih uloga. Međutim, prekvalifikacija sa IT posla na ulogu data scientist-a nije toliko jednostavna kao kod drugih IT pozicija. Prelazak na ulogu data scientist-a sa sobom nosi  jedinstvene izazove zbog promene radne paradigme i potrebe za razvojem posebnog skupa veština i znanja. Ove veštine se ne stiču lako samo kroz "obuku na poslu" radom na projektima vezanim za data science. Iako je praktično iskustvo vredno, postoje osnovne veštine i znanja kojima bi budući data scientist-i trebalo da daju prioritet. Jedna ključna osnova je dobro matematičko obrazovanje, posebno iz oblasti računara i linearne algebre. Ove matematičke discipline služe kao preduslovi za dalje proučavanje statističkih pojmova kao što su deskriptivna statistika, inferenca, bajesijanska analiza i teorija verovatnoće. Razumevanje ovih matematičkih osnova pruža čvrstu podlogu data scientist-ima da efikasno analiziraju i tumače podatke. Pored toga, data scientist mora odlično da razume statističke tehnike, uključujući testiranje hipoteza, analizu regresije i algoritme mašinskog učenja. Sve navedene veštine mogu se svakako naučiti putem samostalnog učenja, ali pohađanje (bakalaureatskih) studija pruža veće šanse za sticanje tog znanja. Tokom veoma kratkog perioda radili ste kao bibliotekarski pomoćnik - da li je to bilo nešto što nije bilo povezano sa vašim poslovnim ciljevima ili je to bio samo prvi korak, i ako jeste... kako ste imali koristi od rada u biblioteci? - Iako taj posao nije bio povezan sa mojim poslovnim ciljevima, radio sam u Odeljenju za Statistiku (i Data Science) na Univerzitetu u Bolonji, što mi je omogućilo da razumem koje su najaktuelnije istraživačke teme u oblasti Mašinskog učenja/veštačke inteligencije. Takođe sam imao priliku da razgovaram sa starijim kolegama koje su ulazili na tržište rada i da razumem u koje industrije i kompanije bih mogao da se uključim. Ovo iskustvo takođe mi je dalo samopouzdanje da u poslednjoj godini studija započnem pravi IT posao, jer sam shvatio da je zaista moguće uskladiti akademske studije i profesionalni rad. Različiti zadaci na konkretnom projektu Uloga data scientist-a kombinuje nekoliko stvari koje se mnogima čine teško spojive. Kako izgleda tipičan dan data scientist-a - dobar i loš? - Svaki dan data scientist-a je jedinstven, budući da različite osobe mogu biti uključene u različite aktivnosti unutar istog projekta. Važno je napomenuti da ne postoji definitivno "dobar" ili "loš" dan, jer to zavisi od ličnih interesa i perspektiva. Da bismo ljudima pomogli da razumeju šta je "dobar" i "loš" dan, možemo napraviti poređenje sa ulogom front-end developera, koji se fokusira na izgradnju korisničkog interfejsa za veb servise ili aplikacije. Zamislimo tipičan dan front-end developera. Oni počinju tako što sarađuju sa svojim timom kako bi razumeli nove funkcionalnosti i pregledaju unapred definisane skice. Mogu provesti vreme rešavajući neočekivane probleme ili integrišući rad backend developera radi dobijanja podataka. Njihov rad je struktuiran i predvidljiv. Kada imaju sve potrebne informacije, posvećuju se izradi kreativnog, funkcionalnog, održivog i optimizovanog koda. Tim komunicira bez problema, svi su svesni svojih odgovornosti i sposobnosti. S druge strane, dan data scientist-a je dinamičniji i izazovniji za opisivanje. Uključuje različite zadatke zasnovane na konkretnom projektu. Jednog dana, data scientist se može fokusirati na razumevanje poslovnih problema, pregledanje prošlih projekata i konsultacije sa drugima koji su se susreli sa sličnim izazovima. Moraju identifikovati relevantne podatke potrebne za rešavanje problema, odabrati odgovarajuće metodologije i razmisliti o tome kako zapakovati i predstaviti rešenje korisnicima. Za razliku od front-end developera, data scientist-i nemaju unapred definisane skice, a rezultati nisu zagarantovano uspešni, uglavnom zbog kvaliteta i dostupnosti podataka koji igraju važnu ulogu u oblikovanju ishoda. Data scientist-i možda neće uvek biti u obavezi da pišu savršeno strukturiran kod, posebno tokom eksperimentalne faze kada se kod često menja. Stil kodiranja može varirati u zavisnosti od potreba projekta i kompromisa između vremena i kvaliteta. Komunikacija unutar tima može biti izazovna, jer drugi članovi tima možda neće u potpunosti shvatiti nivo neizvesnosti koji je prisutan u projektima data science-a. Data scientisti moraju da ravnotežu pronađu između istraživanja složenih algoritama i obimnog zadatka "obrađivanja podataka", što može zauzeti značajan deo njihovog vremena tokom projekta, minimum 70%. Preostalo vreme posvećeno je predstavljanju rezultata i ubeđivanju drugih o vrednosti njihovog rada, često putem informativnih statistika. Implementacija uzbudljivih modela, koji izazivaju entuzijazam svih, generalno zauzima manje od 10% njihovog vremena. Kako gradite "odnos" sa podacima i koristite ih da postignete zadate ciljeve? - Na početku, posmatram podatke tako što se upoznajem s njima, razumem njihove karakteristike, strukturu i obrasce. To je kao susret s novom osobom i započinjanje razgovora. Kako napreduje naše "prijateljstvo" s podacima, sve više se zaranjam u detalje i počinjem da otkrivam dragocene uvide i donosim odluke na osnovu informacija koje pružaju. Primenjuju se razne analitičke tehnike kako bi se izvuklo značajno znanje, a podaci se postepeno oblikuju kako bi se uskladili sa željenim algoritmom za rešavanje poslovnog problema. Da li verujete da nove tehnologije poput cloud računarstva i veštačke inteligencije mogu doprineti ulozi data scientist-a i biti pouzdani izvori informacija? - Verujem da je Cloud sadašnjost i budućnost Data Scientist-a. Cloud računarstvo pruža mnoštvo prednosti, pri čemu je posebno značajno eliminisanje fizičke infrastrukture i njenog održavanja. Ono nudi ekonomična, skalabilna i fleksibilna rešenja. Ova osnovna razlika u odnosu na lokalna rešenja rezultira niskim ili čak nepostojećim troškovima ulaska, što omogućava brzu izradu prototipova, ubrzava digitalnu transformaciju, podstiče eksperimentisanje s novim idejama i podržava širu primenu poslovnih modela zasnovanih na podacima. Prelazak na usvajanje poslovnih modela usmerenih na podatke izuzetno je koristan za Data Scientist-e. Pruža jasan fokus na korišćenje odlučivanja zasnovanog na podacima, prepoznajući ključnu ulogu podataka u postizanju poslovnog uspeha. Stvara kulturu koja vrednuje i daje prioritet analizi podataka, što rezultira povećanjem resursa i podrške timovima za data science. Data Scientist-i mogu aktivno doprinositi strateškim poslovnim odlukama, koristeći svoje stručno znanje kako bi pružili vredne uvide i vodili ključne inicijative. Kako rad Data Scientist-a postaje vidljiviji i ima veći uticaj unutar kompanije, otvaraju se nove mogućnosti za razvoj karijere i profesionalno napredovanje. Sveukupno, usvajanje poslovnih modela usmerenih na podatke osnažuje Data Scientist-e, pozicionirajući ih kao ključne pokretače uspeha organizacije. Iako neke industrije poput bankarstva i dalje više naginju ka korišćenju lokalnih rešenja zbog brige o privatnosti, provajderi Cloud usluga intenzivno rade na sigurnosti i usaglašenosti, čime čine Cloud platforme pouzdanim izvorima informacija. Pouzdanost veštačke inteligencije kao izvora informacija zavisi od različitih faktora, uključujući tu kvalitet i reprezentativnost trening podataka, transparentnost algoritama veštačke inteligencije i etička razmatranja koja su uključena u proces razvoja veštačke inteligencije. Pozitivna strana je da veštačka inteligencija već doprinosi, a biće još važnija u povećanju produktivnosti Data Scientist-a. Koje programske jezike i alate najčešće  koristite? Da li je bilo iznenađenja u vezi sa znanjem i alatima koje data scientist-i koriste kada ste počeli? Pitajte bilo kojeg data scientist-a koja je osnovna alatka za data science i reći će vam "Python". Njihov drugi odgovor će biti... "Python". Sada, šale na stranu, postoje i drugi programski jezici kao što su Julia i Scala sa bržim vremenom izvršavanja određenih scenarija, kao i jezici usmereni više ka statistici poput SAS-a, Stata-e, SPSS-a, R itd. Python ima ogroman ekosistem sa bogatom kolekcijom biblioteka i okvira za različite oblasti, uključujući data science i mašinsko učenje. Njegova popularnost čini da ga preferiraju mnogi data scientist-i, uključujući tu i mene koji sam kao bivši R developer (zbog statističke akademske pozadine) većinu svojih aktivnosti prebacio na Python od početka svoje karijere. Drugi alati koje svakodnevno koristim su po redosledu vremenske upotrebe razvojna okruženja poput VS Code-a ili PyCharm-a, git (za verzionisanje), Cloud ML platforme (AWS Sagemaker, Azure ML studio, GCP uglavnom), alati za prezentacije, R, SQL upiti. Najviše me je iznenadila široka upotreba softvera za tabelarne proračune u raznim industrijama. Iako ga trenutno ne koristim za svoje aktivnosti, prepoznajem vrednost koju može ponuditi u određenim scenarijima, da ne pominjem zabavu koju možete imati automatizujući zadatke pomoću VBA. Takođe, nisam bio svestan ključnog značaja cloud tehnologije u današnjem svetu, jer je tokom studiranja fokus bio više na modelima i njihovom unutrašnjem funkcionisanju. Ako pogledate svoje znanje, u kojim oblastima smatrate da bi trebalo da se poboljša i zašto? - Kada započnete putovanje u Data Science, svakodnevno možete naučiti novi algoritam.  Iako često istražujem nove modele i proširujem znanja, dolazi trenutak kada akumulirate snažan set alata i znanja za rešavanje različitih problema, otvarajući put ka sledećoj fazi. Ta sledeća faza, u koju želim da se upustim, vezana je za ekosistem koji obuhvata sferu Data Science-a. Trenutno, moj fokus je na dizajnu sistema mašinskog učenja jer čvrsto verujem da je to ključno za sticanje sveobuhvatnog razumevanja primena mašinskog učenja od početka do kraja. Ove veštine omogućavaju Data Scientist-ima da bez problema implementiraju modele u proizvodnju, čineći ih lako dostupnim i konačno donoseći merljivu vrednost poslovnim subjektima. Ne oslanjajte se samo na programe obuke Da li biste radije preporučili budućim data scientist-ima da stiču tradicionalna znanja (fakultet, doktorat...) ili postoje bolji načini za sticanje potrebnog znanja? - Preporučujem sticanje znanja kroz diplomu na osnovnim studijama, ne samo iz statistike, već i iz matematike, kvantitativnih finansija, ekonometrije, demografije i drugih srodnih oblasti. Iako je doktorat iz statistike/mašinskog učenja neophodan za Data Scientist-a u istraživačkim ili akademskim sferama, nije obavezan za početak karijere u ovom polju. Takođe, obuka koju pruža doktorski program može biti korisna, ali nije preduslov. Alternativno, doktorske studije iz STEM polja mogu takođe biti od koristi jer uključuju analizu podataka vezanih za specifično polje studija. Mnoge moje bivši kolege stekle su doktorate iz oblasti kao što su fizika ili biologija, i uz online specijalizacije, uspeli su da prevaziđu jaz u metodologijama mašinskog učenja. Oslanjanje isključivo na programe obuke nije preporučljivo, osim ako već imate snažnu analitičku osnovu. Šanse za uspešnu karijeru u data science-u bez čvrstih osnova su prilično male. Čak i unutar industrije, održavanje konkurentnosti zahteva čvrsto razumevanje matematičkih koncepata. Iako postoje izuzeci, ovi poslovi često više naginju ka mašinskom inženjerstvu sa manje naglaska na "Naučni" aspekt, što i dalje doprinosi uzbudljivosti ovog polja. Koji bi bio idealan put za nekoga ko je zainteresovan za data science? Koje bi bile vaše preporuke za svakoga ko je zainteresovan da krene na ovaj put? - Možda zvučim kao da se ponavljam, ali kada bih pružao savet, išao bih nekako ovako: "Prvo i pre svega, izgradite čvrste temelje u matematici sve dok matrice i višedimenzionalni prostori ne postanu sastavni deo vaših snova. Zatim, primenite to stečeno znanje da biste se upustili u statističke tehnike, testiranje hipoteza i sve teorijske veštine potrebne za rad sa podacima. Moja preporuka je da se upustite u studije u relevantnoj oblasti, jer vam to omogućava da se isključivo investirate u sebe, bez ograničenja poslovnih razmatranja. Kada uspostavite čvrst temelj, tražite praktično iskustvo ili pridružite se kompaniji u juniorskoj ulozi ili se bavite Python projektima koji se uklapaju u vaše interese. Usvojite dobre prakse kodiranja kako napredujete. I zapamtite, kontinuirano učenje je ključ za održavanje ovog divnog putovanja. Od izuzetne matematičke osnove i poznavanja statistike, do iskustva u programiranju i mašinskom učenju, spektar znanja koja data scientist mora da poseduje podjendako je velik i opširan kao i podaci koje posmatra. Bilo da razmišljate o promeni karijernog koloseka, ili tek započinjete svoj put, razumevanje svih navedenih faktora, znanja i veština svakako je najvažniji korak na putu ka uspešnoj data scientist karijeri.

HelloWorld
0
Da ti ništa ne promakne

Ako želiš da ti stvarno ništa ne promakne, prijavi se jer šaljemo newsletter svake dve nedelje.