Klasterovanje je najčešće prvi korak u istraživanju obimnih podataka (eng. big data). Veliki značaj i primenu pronalazi u obradi složenih podataka koji su karakteristični za finansijske berze. U ovom radu je izvršena klaster analiza na desetogodišnjim istorijskim kretanjima cena akcija 100 kompanija iz 10 privrednih sektora. Na odabrani skup podataka primenjen je algoritam K-means, kojim su kompanije sa sličnim osobinama grupisane u klastere. Rezultati klasterovanja upoređeni su sa pripadnošću kompanija po sektorima kako bi se utvrdilo da li se kompanije iz istog sektora slično ponašaju na tržištu. Drugi deo eksperimentalne analize posvećen je primeni rezultata istraživanja u diverzifikaciji rizika. Pokazano je da se raspoređivanjem investicija po klasterima može ostvariti viši prinos.
UVOD
Istraživanje podataka je proces otkrivanja korisnih informacija. Tehnike za istraživanja pretražuju baze podataka kako bi pronašle neobične i korisne obrasce koji bi inače ostali nepoznati. Proces otkrivanja znanja u podacima je osnovna uloga inteligentih tehnika. Savremene metode obrade podataka-data mining obuhvataju tehnike nadgledanog i nenadgledanog učenja.
Klasterovanje ili segmentacija je zadatak koji se ne nadzire tj. ni jedan atribut se ne koristi za vođenje trening procesa već se svi atributi tretiraju kao ulazni. Većina algoritama za klasifikaciju gradi model podataka kroz određen broj iteracija i zaustavlja iteracije kada model konvergira tj. kada se granice ovih segmenata stabilizuju. Klaster analiza vrši se raznim algoritmima koji se razlikuju značajno u njihovoj ideji šta predstavlja klaster i kako efikasno da ih pronađemo. U radu je prikazan algoritam za klaster analizu: K-means.
Osnovni skup podataka za eksperiment su kompanije iz 10 različitih privrednih grana (energetika, osnovni materijali, industrija, potrošna dobra, nepotrošne usluge, finansije, zdravstvo, tehnologija, telekomunikacije, usluge) . U okviru svake privredne grane posmatrano je po 10 vodećih kompanija. Odabir je izvršen prema prinosu. Podaci za svaku kompaniju su desetogodišnje vremenske serije kretanja cena akcija vodećih kompanija u privrednoj grani.
Cilj primene klaster analize u prvom delu istraživačkog rada je utvrđivanje stepena sličnosti između kompanija koje pripadaju istom sektoru. Analizirali smo koje kompanije su se grupisale u klasterima. Drugi deo eksperimenta sproveli smo na osnovu izvršene podele kompanija u klastere – grupe. Vršili smo izbor akcija koje kreiraju portfolio. Donošenje investicionih odluka nije ni malo jednostavan posao i zbog toga naučnici istražuju i razvijaju nove metode.
Nastoji se primenom tehnika za klasterovanje ostvariti veći stepen uspešnosti investicionih odluka uz manja odstupanja, tj. greške modela. Polazi se od hipoteze da se raspodelom ulaganja u akcije kompanija po klasterima u odnosu na modele sa slučajnim tehnikama za izbor ulaganja, ostvaruje diverzifikacija rizika i kreira optimalni portfolio. Eksperimentalni rezultati dobijeni su korišćenjem alata:Python skript jezik za procesiranje podataka i K-means algoritma za klasifikaciju kompanija u klastere.Sledeće poglavlje posvećeno je pregledu relevantne literature. U okviru trećeg poglavlja opisana je klaster analiza i mere za normalizaciju podataka. Eksperimentalni rezultati izloženi su u četvrtom poglavlju.
Klasterovanje ili segmentacija je zadatak koji se ne nadzire tj. ni jedan atribut se ne koristi za vođenje trening procesa već se svi atributi tretiraju kao ulazni. Većina algoritama za klasifikaciju gradi model podataka kroz određen broj iteracija i zaustavlja iteracije kada model konvergira tj. kada se granice ovih segmenata stabilizuju. Klaster analiza vrši se raznim algoritmima koji se razlikuju značajno u njihovoj ideji šta predstavlja klaster i kako efikasno da ih pronađemo. U radu je prikazan algoritam za klaster analizu: K-means.
Osnovni skup podataka za eksperiment su kompanije iz 10 različitih privrednih grana (energetika, osnovni materijali, industrija, potrošna dobra, nepotrošne usluge, finansije, zdravstvo, tehnologija, telekomunikacije, usluge) . U okviru svake privredne grane posmatrano je po 10 vodećih kompanija. Odabir je izvršen prema prinosu. Podaci za svaku kompaniju su desetogodišnje vremenske serije kretanja cena akcija vodećih kompanija u privrednoj grani.
Cilj primene klaster analize u prvom delu istraživačkog rada je utvrđivanje stepena sličnosti između kompanija koje pripadaju istom sektoru. Analizirali smo koje kompanije su se grupisale u klasterima. Drugi deo eksperimenta sproveli smo na osnovu izvršene podele kompanija u klastere – grupe. Vršili smo izbor akcija koje kreiraju portfolio. Donošenje investicionih odluka nije ni malo jednostavan posao i zbog toga naučnici istražuju i razvijaju nove metode.
Nastoji se primenom tehnika za klasterovanje ostvariti veći stepen uspešnosti investicionih odluka uz manja odstupanja, tj. greške modela. Polazi se od hipoteze da se raspodelom ulaganja u akcije kompanija po klasterima u odnosu na modele sa slučajnim tehnikama za izbor ulaganja, ostvaruje diverzifikacija rizika i kreira optimalni portfolio. Eksperimentalni rezultati dobijeni su korišćenjem alata:Python skript jezik za procesiranje podataka i K-means algoritma za klasifikaciju kompanija u klastere.Sledeće poglavlje posvećeno je pregledu relevantne literature. U okviru trećeg poglavlja opisana je klaster analiza i mere za normalizaciju podataka. Eksperimentalni rezultati izloženi su u četvrtom poglavlju.
PREGLED RELEVANTNE LITERATURE
Istorijski razvoj klaster analize započet je 1939. godine. Kao pionir razvoja navodi se Trion, koji je prvi put upotrebio klasterovanje u analizama podataka. Termin klaster analiza obuhvata niz različitih algoritama i metoda za grupisanje objekata sličnog tipa u odgovarajuće kategorije. Stalni razvoj nauke, informatike, značaja klasifikacije u istraživanjima doprineli su razvoju i porastu značaja ove metode. Značajnija literatura se razvija šezdesetih godina.
Brojne publikacije imaju značajan doprinos u razvoju tehnika klasterovanja i dobijaju široku razmeru u naučnim krugovima, u statistici, analizama podataka i praktičnoj primeni.Postoje različiti načini primene klaster analiza i algoritama za klasterovanje. U svom radu [2] Hartigan je detaljno opisao k-means algoritam. Mogućnosti koje ove tehnike pružaju u analizama su ogromne. Naročito su primenu pronašle statistici, ekonometriji i drugim ekonomskim disciplinama. Naučnik Nanda, Mahnaty i Tiwari predstavili su mogućnosti primene data mininga-a u oblasti ekonomije. Izvršili su grupisanje akcija u klastere. Nakon formiranih klastera akcije su mogle biti odabrane za portfolio.
Cilj rada je bila diverzifikacija rizika. Rezultati analize su pokazali da K-means klaster analiza gradi kompaktnije skupove u odnosu na Kohonenove samoorganizujuće mreže (SOM) i Fuzzy Cmeans algoritam za klasterovanje akcija. Po uzoru na prethodno navedene radove, urađeno je istraživanje opisano u ovom radu. U ekonomiji u oblasti investicionih ulaganja postoji velika količina složenih podataka. Rizik je neizostavni deo berzanskog posla. S tim razlogom se razvija i nauka u pravcu povećanja sigurnosti ulaganja i mogućnosti ostvarenja višeg prinosa od ulaganja.
U našem radu proučavamo dve metode - klasterovanje i slučajni izbor. Na osnovu dve metode se vrši odabir akcija koje će formirati portfolio hartija od vrednosti i vrši se njihovo poređenje sa stanovišta ostvarenog prosečnog prinosa od divdende. Cilj je da se analizom primene klasterovanja dokaže polazna hipoteza o diverzifikaciji rizika berzanskih ulaganja i kreiranju optimalnog portfolia.
K-MEANS KLASTER ANALIZA
Kao što smo istakli u uvodnim napomenama, korišćen algoritam u radu za grupisanje industrijskih grana u klastere, je tzv. K-means. K–means je tehnika particionisanja tj.nehijerarhijskog klasterovanja. Osnovna prednost algoritma je pogodnost za rad s velikim brojem objekata (u našem radu sa 100 kompanija različitih privrednih sektora). U odnosu na hijerarhijske klaster analize, koja rezultira sukcesivnim spajanjem objekata u sve veće klastere, kod k-means potrebno je unapred proceniti optimalan broj klastera.
Svaki klaster predstavljen je centroidom i svaki objekat se pridružuje najbližem centroidu. Početni izbor centroida je slučajan, a u narednim iteracijama oni se računaju kao aritmetička sredina pripadajućih objekata. Broj klastera se zadaje kao ulazni podatak. Za meru rastojanja korišćeno je Euklidsko rastojanje. U formuli (1), standardna euklidska udaljenost dva objekta X i Y se računa kao kvadratni koren iz sume kvadratnih razlika za sva obeležja Xi, Yi respektivno. Što je manje Euklidsko rastojanje veća je i sličnost posmatranih obeležja – cena akcija kompanija.
Svaki klaster predstavljen je centroidom i svaki objekat se pridružuje najbližem centroidu. Početni izbor centroida je slučajan, a u narednim iteracijama oni se računaju kao aritmetička sredina pripadajućih objekata. Broj klastera se zadaje kao ulazni podatak. Za meru rastojanja korišćeno je Euklidsko rastojanje. U formuli (1), standardna euklidska udaljenost dva objekta X i Y se računa kao kvadratni koren iz sume kvadratnih razlika za sva obeležja Xi, Yi respektivno. Što je manje Euklidsko rastojanje veća je i sličnost posmatranih obeležja – cena akcija kompanija.
[You must be registered and logged in to see this image.]
Objekti posmatranja su kompanije, a njihove osobine, tj.posmatrana obeležja su cene akcija. Kompanije u radu birali smo prema godišnjem prinosu u tekućoj godini. Iz svakog sektora odabrali smo po 10 vodećih kompanija - Npr. u energetskom sektoru su među najuspešnijim Petro Brasileus,British Petrol, Chevron, Exxon, Gazprom; među vodećim kompanijama finansijskog sektora su American Bank, JP Morgan, CityGroup; u sektoru tehnologije Apple, IBM, Sap, Microsoft. U tabeli 1. prikazane su izabrane kompanije. Radi jednostavnijeg prikaza u tabeli smo kompanije označili sa zvaničnim skraćenim nazivima kompanija na berzama.
TABELA 1. Privredni sektori i vodeće kompanije
Istorijsko kretanje cena akcija od deset godina (2004-2013. godine) su obeležja na osnovu kojih smo poredili stepen sličnosti kompanija i izvršili klasterizaciju. Cene akcija su reprezentant uspeha neke kompanije. Da li pad ili rast kretanja cena akcije kompanije jednog sektora znači isto kretanje i za ostale članove sektora ili ta veza u kretanju može biti slična sa kompanijama nekog drugog sektora osnovno je pitanje prvog dela eksperimentalnog istraživanja.
Da bi analize mogle da se rade, potrebno je prvo izvršiti uređivanje (preprocesiranje) podataka. Transformacija podataka predstavlja normalizaciju koja ima za cilj da omogući upotrebu ulaznih podataka. Mere za normalizaciju koje su korišćene u radu su: Zero-one, Mean i Init.
Da bi analize mogle da se rade, potrebno je prvo izvršiti uređivanje (preprocesiranje) podataka. Transformacija podataka predstavlja normalizaciju koja ima za cilj da omogući upotrebu ulaznih podataka. Mere za normalizaciju koje su korišćene u radu su: Zero-one, Mean i Init.
a) Zero-one (0-1) normalizacija: Za rešavanje zadataka potrebno je izvršiti normalizaciju vrednosti atributa, odnosno izvršiti "ujednačavanje" ili "učiniti atribute bezdimenzionalnim", što znači da se vrednosti atributa svedu na interval 0-1. Analizirane cene akcija se preskaliraju, tako da minimumu odgovara 0, a maksimumu 1. Ostale vrednosti cena akcija nalaze se u rastojanju između graničnih vrednosti 0-1.
b) Mean normalizacija: Za sve cene akcija računa se srednja vrednost, zatim se pojedinačne cene normalizuju, deljenjem njihove vrednosti sa srednjom.
c) Init normalizacija: Odredi se prva početna cena, a zatim se vrši preskaliranje prema ceni u prvom momentu posmatranja i na taj način određuju druge cene. U radu je početna cena ona iz 2004 godine.
by Jelena Brdar and Zita Bošnjak