Cílem analýzy je prověřit možnost identifikace mimořádných událostí spojených se zvýšenou aktivitou kolem daného místa. Analýza je provedena na transakcích výběrů z bankomatu. Cílem je rozpoznat nejdůznější festivaly, poutě, trhy atd.
Tabulka výběrů z bankomatu za rok 2018 a tabulka klientů propojená s tabulkami cílových proměnných (targetů a source targetů).
V průběhu 2018 došlo ke změně mcc některých bankomatů zejména ČS a RfB, proto je třeba v rámci předzpracování provést ztotožnění bankomatů s různým idetifikátorem.
mcc
je popisný identifikátor bankomatu se strukturou:
mcc := mcc.state::mcc.city::mcc.name
Ztotožnění je částečně možné přes kombinaci polí term.own.id
a term.id
.
term.id
: 99.83 %.Kritéria ztotožnění:
term.own.id
a term.id
mcc.city
nebo mcc.name
Následující tabulka ukazuje typické dvojice bankomatů před ztotožněním.
term.own.id | term.id | cnt | mcc |
---|---|---|---|
BNET | 00000100 | 2 | CZ::PRAHA 2::CS, METRO KARLOVO NAME |
BNET | 00000100 | 2 | CZ::PRAHA 2::CZECH SAVINGS BANK |
BNET | 00000102 | 2 | CZ::PRAHA 1::CS, VODICKOVA 730/9 |
BNET | 00000102 | 2 | CZ::PRAHA 1::CZECH SAVINGS BANK |
BNET | 00000103 | 2 | CZ::PRAHA 1::CZECH SAVINGS BANK |
BNET | 00000103 | 2 | CZ::PRAHA 1::CS, NA PRIKOPE 584/29 |
BNET | 00000104 | 2 | CZ::PRAHA 9::CS, VERNERICKA 408/3 |
BNET | 00000104 | 2 | CZ::PRAHA 9::CZECH SAVINGS BANK |
Existují ale i komplikovanější případy, jak ukazuje následující osmice.
term.own.id | term.id | cnt | mcc |
---|---|---|---|
BNET | 00009997 | 8 | CZ::PRAHA 12::CS, SOFIJSKE NAMESTI 3 |
BNET | 00009997 | 8 | CZ::KRALUPY NAD V::CZECH SAVINGS BANK |
BNET | 00009997 | 8 | CZ::STRAZNE::CS, STRAZNE 129 |
BNET | 00009997 | 8 | CZ::PRAHA 7::CZECH SAVINGS BANK |
BNET | 00009997 | 8 | CZ::OSTRAVA - MOR::CS, MISTECKA |
BNET | 00009997 | 8 | CZ::PRAHA 7::CS, VYSTAVISTE 67 |
BNET | 00009997 | 8 | CZ::HOLYSOV::CS, FESTIVAL PEKELNY O |
BNET | 00009997 | 8 | CZ::PRAHA 8::CS, PERNEROVA 676/51 |
Algoritmus ztotožnění:
term.own.id
a term.id
a existuje pro ně více než jedno mcc
term.own.id
a term.id
vezmi nejstarší výskyt mcc.city
a mcc.name
term.own.id
a term.id
shoduje buď mcc.city
nebo mcc.name
s nejstarším výskytem, nahraď druhý z obou názvů nejstarším výskytemZ grafu je zřejmé, že popsanou heuristikou se podařilo odstranit naprostou většinu duplicit.
mcc.final | cnt |
---|---|
CZ::PRAHA::RBCZ | 39276 |
CZ::BRNO::RBCZ | 13414 |
CZ::PRAHA 8::CS, METRO KOBYLISY (C) | 8149 |
CZ::MLADA BOLESLA::RBCZ | 8087 |
CZ::BRNO-STRED::CS, VE VANKOVCE 462/1 | 7913 |
Ze souboru odstraníme výběry, jejichž mcc
obsahuje řetězce CZECH SAVINGS BANK nebo RBCZ.
Pro potřebu rozpoznání mimořádných událostí si rozdělíme výběry na ty, jež jsou vykonané domácími uživateli daného bankomatu a ostatní, vykonané hosty.
Při definici domovského vztahu se pokusíme splnit dvě protiběžné podmínky:
Definujeme vztah klienta a bankomatu jako domácí, pokud má:
Domácí budiž ten, kdo má alespoň 1 výběr během každého z alespoň 3 různých měsíců.
Při takto definovaném kritériu připadá na domovské bankomaty asi 2/3 výběrů v počtu i objemu.
Na jednoho klienta připadá cca 2 - 4 domácí bankomaty.
Na jeden bankomat připadá cca 21 - 75 domácích klientů.
Podíl výběrů doma:
Takto definovaný domov dobře splňuje obě stanovené podmínky.
Události jsou charakteristické nárůstem výběrů realizovaných hosty, jak lze pozorovat na grafech počtu týdenních výběrů obou skupin pro různé bankomaty.
Následující grafy ukazují bankomaty s největším relativním odstupem maxima počtu výběrů hostů od jeho mediánu.
Při takto definovaném kritériu pozorujeme čtyři typy událostí:
Podobné, ačkoli více zašuměné, jsou i denní průběhy počtu výběrů u domácích a hostí.
Kritéria pro nalezení festivalu:
mcc.city
obsahuje KARLOVY VARYVezmeme první a poselední den splňující podmínku:
Kritéria pro zařazení bankomatu:
mcc.city
obsahuje KARLOVY VARYFestivalové dny jsou označeny červeně.
Cílem je prověřit přímočarou hypotézu, že soubor návštěvníků festivalu se liší od:
Identifikovaní návštěvníci MFF Karlovy Vary (360 klientů):
Jsou mladší než běžný klient EqB. (med. věk: 29 let, oproti 37 let v celé populaci).
Berou si nepatrně častěji úvěr (5.46 %, oproti 4.26 % v celé populaci).
Mají mírně vyšší riskové skóre (med. věk: 7.06, oproti 4.63 v celé populaci).
Na 29 půjčkách nemají žádný default (oproti 2.20 % v celé populaci).
S výjimkou věkového rozdílu spadají všechny ostatní rozdíly do oblasti statistické chyby.
Jednoduchou podmínkou na 3 různé měsíce s 1 výběrem je možné dobře rozdělit klienty na domácí a hosty. Pro identifikaci událostí je vhodné využít špičky počtu výběru hostů. Jako jednoduchá podmínka se jeví den, kdy počet výběrů hostů překročí 5x mediánového počtu a alespoň 10 lidí.