Klaster analiza u funkciji diverzifikacije rizika investicionih ulaganja

dzonefx

dzonefx

Moderator

Number of messages : 633
Points : 5597
Date of Entry : 2013-01-29
Year : 53
Residence Country : Beograd

Klasterovanje je najčešće prvi korak u istraživanju obimnih podataka (eng. big data). Veliki značaj i primenu pronalazi u obradi složenih podataka koji su karakteristični za finansijske berze. U ovom radu je izvršena klaster analiza na desetogodišnjim istorijskim kretanjima cena akcija 100 kompanija iz 10 privrednih sektora. Na odabrani skup podataka primenjen je algoritam K-means, kojim su kompanije sa sličnim osobinama grupisane u klastere. Rezultati klasterovanja upoređeni su sa pripadnošću kompanija po sektorima kako bi se utvrdilo da li se kompanije iz istog sektora slično ponašaju na tržištu. Drugi deo eksperimentalne analize posvećen je primeni rezultata istraživanja u diverzifikaciji rizika. Pokazano je da se raspoređivanjem investicija po klasterima može ostvariti viši prinos.

UVOD

Istraživanje podataka je proces otkrivanja korisnih informacija. Tehnike za istraživanja pretražuju baze podataka kako bi pronašle neobične i korisne obrasce koji bi inače ostali nepoznati. Proces otkrivanja znanja u podacima je osnovna uloga inteligentih tehnika. Savremene metode obrade podataka-data mining obuhvataju tehnike nadgledanog i nenadgledanog učenja.

Klasterovanje ili segmentacija je zadatak koji se ne nadzire tj. ni jedan atribut se ne koristi za vođenje trening procesa već se svi atributi tretiraju kao ulazni. Većina algoritama za klasifikaciju gradi model podataka kroz određen broj iteracija i zaustavlja iteracije kada model konvergira tj. kada se granice ovih segmenata stabilizuju. Klaster analiza vrši se raznim algoritmima koji se razlikuju značajno u njihovoj ideji šta predstavlja klaster i kako efikasno da ih pronađemo. U radu je prikazan algoritam za klaster analizu: K-means.

Osnovni skup podataka za eksperiment su kompanije iz 10 različitih privrednih grana (energetika, osnovni materijali, industrija, potrošna dobra, nepotrošne usluge, finansije, zdravstvo, tehnologija, telekomunikacije, usluge) . U okviru svake privredne grane posmatrano je po 10 vodećih kompanija. Odabir je izvršen prema prinosu. Podaci za svaku kompaniju su desetogodišnje vremenske serije kretanja cena akcija vodećih kompanija u privrednoj grani.

Cilj primene klaster analize u prvom delu istraživačkog rada je utvrđivanje stepena sličnosti između kompanija koje pripadaju istom sektoru. Analizirali smo koje kompanije su se grupisale u klasterima. Drugi deo eksperimenta sproveli smo na osnovu izvršene podele kompanija u klastere – grupe. Vršili smo izbor akcija koje kreiraju portfolio. Donošenje investicionih odluka nije ni malo jednostavan posao i zbog toga naučnici istražuju i razvijaju nove metode.

Nastoji se primenom tehnika za klasterovanje ostvariti veći stepen uspešnosti investicionih odluka uz manja odstupanja, tj. greške modela. Polazi se od hipoteze da se raspodelom ulaganja u akcije kompanija po klasterima u odnosu na modele sa slučajnim tehnikama za izbor ulaganja, ostvaruje diverzifikacija rizika i kreira optimalni portfolio. Eksperimentalni rezultati dobijeni su korišćenjem alata:Python skript jezik za procesiranje podataka i K-means algoritma za klasifikaciju kompanija u klastere.Sledeće poglavlje posvećeno je pregledu relevantne literature. U okviru trećeg poglavlja opisana je klaster analiza i mere za normalizaciju podataka. Eksperimentalni rezultati izloženi su u četvrtom poglavlju.

PREGLED RELEVANTNE LITERATURE

Istorijski razvoj klaster analize započet je 1939. godine. Kao pionir razvoja navodi se Trion, koji je prvi put upotrebio klasterovanje u analizama podataka. Termin klaster analiza obuhvata niz različitih algoritama i metoda za grupisanje objekata sličnog tipa u odgovarajuće kategorije. Stalni razvoj nauke, informatike, značaja klasifikacije u istraživanjima doprineli su razvoju i porastu značaja ove metode. Značajnija literatura se razvija šezdesetih godina.

Brojne publikacije imaju značajan doprinos u razvoju tehnika klasterovanja i dobijaju široku razmeru u naučnim krugovima, u statistici, analizama podataka i praktičnoj primeni.Postoje različiti načini primene klaster analiza i algoritama za klasterovanje. U svom radu [2] Hartigan je detaljno opisao k-means algoritam. Mogućnosti koje ove tehnike pružaju u analizama su ogromne. Naročito su primenu pronašle statistici, ekonometriji i drugim ekonomskim disciplinama. Naučnik Nanda, Mahnaty i Tiwari predstavili su mogućnosti primene data mininga-a u oblasti ekonomije. Izvršili su grupisanje akcija u klastere. Nakon formiranih klastera akcije su mogle biti odabrane za portfolio.

Cilj rada je bila diverzifikacija rizika. Rezultati analize su pokazali da K-means klaster analiza gradi kompaktnije skupove u odnosu na Kohonenove samoorganizujuće mreže (SOM) i Fuzzy Cmeans algoritam za klasterovanje akcija. Po uzoru na prethodno navedene radove, urađeno je istraživanje opisano u ovom radu. U ekonomiji u oblasti investicionih ulaganja postoji velika količina složenih podataka. Rizik je neizostavni deo berzanskog posla. S tim razlogom se razvija i nauka u pravcu povećanja sigurnosti ulaganja i mogućnosti ostvarenja višeg prinosa od ulaganja.

U našem radu proučavamo dve metode - klasterovanje i slučajni izbor. Na osnovu dve metode se vrši odabir akcija koje će formirati portfolio hartija od vrednosti i vrši se njihovo poređenje sa stanovišta ostvarenog prosečnog prinosa od divdende. Cilj je da se analizom primene klasterovanja dokaže polazna hipoteza o diverzifikaciji rizika berzanskih ulaganja i kreiranju optimalnog portfolia.

K-MEANS KLASTER ANALIZA

Kao što smo istakli u uvodnim napomenama, korišćen algoritam u radu za grupisanje industrijskih grana u klastere, je tzv. K-means. K–means je tehnika particionisanja tj.nehijerarhijskog klasterovanja. Osnovna prednost algoritma je pogodnost za rad s velikim brojem objekata (u našem radu sa 100 kompanija različitih privrednih sektora). U odnosu na hijerarhijske klaster analize, koja rezultira sukcesivnim spajanjem objekata u sve veće klastere, kod k-means potrebno je unapred proceniti optimalan broj klastera.

Svaki klaster predstavljen je centroidom i svaki objekat se pridružuje najbližem centroidu. Početni izbor centroida je slučajan, a u narednim iteracijama oni se računaju kao aritmetička sredina pripadajućih objekata. Broj klastera se zadaje kao ulazni podatak. Za meru rastojanja korišćeno je Euklidsko rastojanje. U formuli (1), standardna euklidska udaljenost dva objekta X i Y se računa kao kvadratni koren iz sume kvadratnih razlika za sva obeležja Xi, Yi respektivno. Što je manje Euklidsko rastojanje veća je i sličnost posmatranih obeležja – cena akcija kompanija.

[You must be registered and logged in to see this image.]

Objekti posmatranja su kompanije, a njihove osobine, tj.posmatrana obeležja su cene akcija. Kompanije u radu birali smo prema godišnjem prinosu u tekućoj godini. Iz svakog sektora odabrali smo po 10 vodećih kompanija - Npr. u energetskom sektoru su među najuspešnijim Petro Brasileus,British Petrol, Chevron, Exxon, Gazprom; među vodećim kompanijama finansijskog sektora su American Bank, JP Morgan, CityGroup; u sektoru tehnologije Apple, IBM, Sap, Microsoft. U tabeli 1. prikazane su izabrane kompanije. Radi jednostavnijeg prikaza u tabeli smo kompanije označili sa zvaničnim skraćenim nazivima kompanija na berzama.

TABELA 1. Privredni sektori i vodeće kompanije

Istorijsko kretanje cena akcija od deset godina (2004-2013. godine) su obeležja na osnovu kojih smo poredili stepen sličnosti kompanija i izvršili klasterizaciju. Cene akcija su reprezentant uspeha neke kompanije. Da li pad ili rast kretanja cena akcije kompanije jednog sektora znači isto kretanje i za ostale članove sektora ili ta veza u kretanju može biti slična sa kompanijama nekog drugog sektora osnovno je pitanje prvog dela eksperimentalnog istraživanja.

Da bi analize mogle da se rade, potrebno je prvo izvršiti uređivanje (preprocesiranje) podataka. Transformacija podataka predstavlja normalizaciju koja ima za cilj da omogući upotrebu ulaznih podataka. Mere za normalizaciju koje su korišćene u radu su: Zero-one, Mean i Init.

a) Zero-one (0-1) normalizacija: Za rešavanje zadataka potrebno je izvršiti normalizaciju vrednosti atributa, odnosno izvršiti "ujednačavanje" ili "učiniti atribute bezdimenzionalnim", što znači da se vrednosti atributa svedu na interval 0-1. Analizirane cene akcija se preskaliraju, tako da minimumu odgovara 0, a maksimumu 1. Ostale vrednosti cena akcija nalaze se u rastojanju između graničnih vrednosti 0-1.

b) Mean normalizacija: Za sve cene akcija računa se srednja vrednost, zatim se pojedinačne cene normalizuju, deljenjem njihove vrednosti sa srednjom.

c) Init normalizacija: Odredi se prva početna cena, a zatim se vrši preskaliranje prema ceni u prvom momentu posmatranja i na taj način određuju druge cene. U radu je početna cena ona iz 2004 godine.

by Jelena Brdar and Zita Bošnjak

dzonefx · 2 EKSPERIMENTALNA ANALIZA Fri Jun 19, 2015 8:42 pm

dzonefx

Moderator

Number of messages : 633
Points : 5597
Date of Entry : 2013-01-29
Year : 53
Residence Country : Beograd

Rezultati Klasterovanja

Nakon izvršene normalizacije, odabrali smo za početni broj klastera deset. Svaka tačka u skupu podataka pridružena je klasteru s najbližom početnom tačkom (zasnovanom na Euklidskoj udaljenosti). Ukoliko klaster ima više od jednog člana, početna tačka klastera zamenjuje se njegovim centroidom. Nakon što su svi članovi pridruženi klasterima za svaki član se proverava da li je bliži centroidu nekog drugog klastera nego centroidu vlastitog klastera.

Ako jeste, premešta se u novi klaster, a centroid klastera se ponovo preračunava.Postupak se nastavlja sve dok nova poboljšanja više nisu moguća. Za ocenu kvaliteta grupisanja koristi se kvantitativna

mera - klaster validacija. U radu je primenjena eksterna metoda NMI (eng. Normalized Mutual Information) mera [15]. Mera se zasniva na teoriji informacija i računa se pomoću entropija. NMI mera često se koristi za procenu rezultata klasterovanja, pronalaženje informacija, ili izbor funkcija. U evaluaciji klastera koristi stvarne labele i poredi ih sa labelama koje su rezultat klasterovanja. U našoj analizi, NMI mera je primenjena na sledeće vrednosti:

[You must be registered and logged in to see this image.]

NMI mera validacije dobija vrednost iz opsega [0, 1], pri čemu vrednosti bliže nuli označavaju neslaganje između stvarnih labela i rezultata klasterovanja. Ova eksterna mera je korisna za razvoj i verifikaciju klastera. Izmerena je NMI za sve tri mere normalizacije. Rezultati su dati u tabeli 2.

TABELA 2. Mere normalizacije

Najbolji rezultat grupisanja po sektorima je imala normalizacija cena primenom zero – one mere (0,341). Rezultat pokazuje da postoji izvesno slaganje između dobijenih klastera i podele kompanija po sektorima, ali da to slaganje nije jako izraženo.Daljom analizom rezultata K-means algoritma vidimo na koji način su se kompanije grupisale u 10 klastera kao rezultat primene K-means algoritma (tabela 3).

TABELA 3. Broj klastera – K – means alogoritam

[You must be registered and logged in to see this image.]

Na osnovu rasporeda kompanija u klasterima, ne može se zaključiti da se sve kompanije iz jednog sektora slično ponašaju. Po nekoliko kompanija iz jednog sektora može imati blisku vezu sa kompanijama iz drugih sektora. U klasteru 0 - energetska kompanija Gazprom pokazuje različitost. Grupisana je van energetskog sektora sa još dve kompanije iz sektora osnovnih materijala i jednom iz uslužnog sektora. Može se zaključiti da cene akcija ove kompanije ne kreću slično kretanjima ostalih kompanija iz energetskog sektora. Kompanije iz energetskog sektora su se podelile u klastere 7 i 9. Tri kompanije (Petro China, Statoil, China Petroleum) iz klastera 7, kao i 4 kompanije (Petro Brasileus, Total SA,Exxon, British Petrol) iz klastera 9, pokazuju sličnosti u tržišnim kretanjima.

U drugom klasteru dosta sličnosti u kretanju su pokazale 5 kompanija zdravstvenog sektora. Treći klaster izdvaja grupisanje 5 kompanija industrijskog sektora. U četvrtom klasteru sličnost su pokazale kompanije iz sektora potrošnih i nepotrošnih dobara. Dosta različito se klasteruju kompanije iz finansijskog sektora pa se može zaključiti da nema neke međuzavisnosti u okviru ovog sektora. Vodeće kompanije tehnološkog sektora IBM, Oracle, Sap, Apple grupisale su se u klasteru broj 4 i pokazuju sličnosti u kretanju cena akcija. Preostale kompanije npr. Microsoft pripada klasteru 6. gde su grupisane tri kompanije telekomunikacija, dve uslužne, po jedna zdrastvena i kompanija iz sektora potrošnih dobara. Vrednost dobijena merom validacije 0,341 i ukazivala je da će kompanije biti na ovakav način grupisane. Između nekih kompanija koje pripadaju istom sektoru kao što smo videli postoji sličnost, ali ne i generalno pravilo da sve kompanije iz jednog sektora uvek imaju slično kretanje cena akcija. U daljim istraživačkim radovima pored vodećih kompanija, uključićemo i kompanije koje su sa nižim stopama prinosa i ponoviti postupak klasterovanja.

Za pregledniji prikaz rezultata klasterovanja u radu smo primenili i vizuelizaciju podataka 3NN grafom (eng. Three Nearest Neighbour). Po strukturi grafa na slici 1 vidimo da su neki delovi više povezani i oni predstavljaju klastere.Vizuelnim presekom grafa može se izvršiti grupisanje u klastre. Za pravljenje slike korišćen je Cytoscape.Privredni sektori su obeleženi različitim bojama – Npr.crvenom bojom je označen sektor energetike, zelenom –zdravstveni, plavom – tehnološki, svetlo plava –telekomunikacije, ljubičasta – uslužni. Posmatranjem grafa vidimo koji sektori i koje kompanije su najbliži susedi.

Slika 1. 3NN – tri najbliža suseda za svaku kompaniju

[You must be registered and logged in to see this image.]

DIVERZIFIKACIJA RIZIKA

Ulaganje na finansijskim berzama je kompleksan i neizvestan posao. Izvršiti pravilan izbor u akcije u koje

investirati zahteva detaljne analize. Mnogi investicioni analitičari se trude da ostvare optimalan portfolio i diverzifikuju rizik ulaganja. Drugi deo eksperimenta je bio kreiranje portfolia – skupa akcija u koje bi investirali.

Osnovni cilj klaster analize u radu je uspostavljanje optimalnog portfolia, idealne kombinacije akcija posmatranih kompanija sa stanovišta rizika, prinosa i proporcije u portfoliu koja obezbeđuje najveći stepen korisnosti. Ona ispunjava kriterijum minimiziranja rizika diverzifikacijom portfolia.Izbor za ulaganje izvršili smo na osnovu grupisanih kompanija u klastere. Iz svakog klastera birali smo po jednu hartiju od vrednosti na slučajan način i formirali portfolio od 10 akcija.

Postupak izbora ponovili smo u 100 iteracija, kako bi bolje estimirali prinos od investicije. Druga mera kod kreiranja portfolia hartija od vrednosti je izbor 10 akcija slučajnom metodom. Poređenje dva pristupa za izbor u koje hartije od vrednosti investirati izvršili smo na osnovu prosečnog procentualnog dividendnog prinosa.

Slika 2. Diverzifikacija rizika

[You must be registered and logged in to see this image.]

Rezultati analize pokazuju da K-means klaster analiza daje prosečno bolji prinos u poređenju sa metodom potpunog slučajnog izbora hartija od vrednosti (slika 2.). Prosečna zarada od dividendnog prinosa primenom metode sa klasterovanjem je 3.899%. Metoda slučajnog izbora ostvarila je zaradu od 3.479%. Viši prinos je pokazatelj doprinosa K-means klasterovanja u kreiranju optimalnog portfolia i diverzifikaciji rizika.

ZAKLJUČAK

Rezultati prikazani u ovom radu i pregled relevantne literature jasno ukazuju da je klaster analiza metoda sa velikim potencijalom za podršku odlučivanju o ulaganju na berzi. Viši prinos K-means klasterovanja u odnosu na metodu slučajnog izbora pokazatelj je doprinosa u kreiranju optimalnog portfolia i diverzifikaciji rizika. Ipak, ova tehnika povlači odgovornost istraživača, pa je nužna određena doza opreza prilikom njenog korišćenja.

Ukoliko se pravilno koristi, ova analiza ima potencijal da otkrije nova saznanja koja do tada nisu otkrivena pomoću drugih metoda. U daljem istraživačkom radu pored najuspešnijih kompanija u analizu ćemo uključiti i kompanije sa nižim stopama prinosima i ponoviti postupak klasterovanja sa proširenim uzorkom. Izbor kompanija i njihovih akcija za portfolio bi mogle biti kompanije koje su bliže klaster centrima.

Na taj način bi analizirali da li se mogu ostvariti još više i sigurnije stope prinosa od ulaganja u rizičnijim uslovima. Pored algoritma k-means, analize ćemo proširiti i sa eksperimentima i primenom algoritma - Affinity Propagation. Daljim istraživanjima nastojaćemo da pronađemo što sigurnije pristupe za investiciona ulaganja.

by Jelena Brdar and Zita Bošnjak

Klaster analiza u funkciji diverzifikacije rizika investicionih ulaganja

1 Klaster analiza u funkciji diverzifikacije rizika investicionih ulaganja Fri Jun 19, 2015 8:23 pm

dzonefx

2 EKSPERIMENTALNA ANALIZA Fri Jun 19, 2015 8:42 pm

dzonefx