Motivace

Cílem analýzy je prověřit možnost identifikace mimořádných událostí spojených se zvýšenou aktivitou kolem daného místa. Analýza je provedena na transakcích výběrů z bankomatu. Cílem je rozpoznat nejdůznější festivaly, poutě, trhy atd.

Data

Tabulka výběrů z bankomatu za rok 2018 a tabulka klientů propojená s tabulkami cílových proměnných (targetů a source targetů).

Ztotožnění mcc v průběhu času

V průběhu 2018 došlo ke změně mcc některých bankomatů zejména ČS a RfB, proto je třeba v rámci předzpracování provést ztotožnění bankomatů s různým idetifikátorem.

  • mcc je popisný identifikátor bankomatu se strukturou:
    • mcc := mcc.state::mcc.city::mcc.name
    • např.: CZ::PRAHA 1::CS, VODICKOVA 730/9

Ztotožnění je částečně možné přes kombinaci polí term.own.id a term.id.

  • Podíl transakcí s vyplněným term.id: 99.83 %.

Kritéria ztotožnění:

  • shodná term.own.id a term.id
  • shodné mcc.city nebo mcc.name

Následující tabulka ukazuje typické dvojice bankomatů před ztotožněním.

term.own.id term.id cnt mcc
BNET 00000100 2 CZ::PRAHA 2::CS, METRO KARLOVO NAME
BNET 00000100 2 CZ::PRAHA 2::CZECH SAVINGS BANK
BNET 00000102 2 CZ::PRAHA 1::CS, VODICKOVA 730/9
BNET 00000102 2 CZ::PRAHA 1::CZECH SAVINGS BANK
BNET 00000103 2 CZ::PRAHA 1::CZECH SAVINGS BANK
BNET 00000103 2 CZ::PRAHA 1::CS, NA PRIKOPE 584/29
BNET 00000104 2 CZ::PRAHA 9::CS, VERNERICKA 408/3
BNET 00000104 2 CZ::PRAHA 9::CZECH SAVINGS BANK

Existují ale i komplikovanější případy, jak ukazuje následující osmice.

term.own.id term.id cnt mcc
BNET 00009997 8 CZ::PRAHA 12::CS, SOFIJSKE NAMESTI 3
BNET 00009997 8 CZ::KRALUPY NAD V::CZECH SAVINGS BANK
BNET 00009997 8 CZ::STRAZNE::CS, STRAZNE 129
BNET 00009997 8 CZ::PRAHA 7::CZECH SAVINGS BANK
BNET 00009997 8 CZ::OSTRAVA - MOR::CS, MISTECKA
BNET 00009997 8 CZ::PRAHA 7::CS, VYSTAVISTE 67
BNET 00009997 8 CZ::HOLYSOV::CS, FESTIVAL PEKELNY O
BNET 00009997 8 CZ::PRAHA 8::CS, PERNEROVA 676/51

Algoritmus ztotožnění:

  • vezmi všechny výběry v ČR, kde je vyplněno term.own.id a term.id a existuje pro ně více než jedno mcc
  • pro každou unikátní dvojici term.own.id a term.id vezmi nejstarší výskyt mcc.city a mcc.name
  • pokud se u pozdější transakce s daným term.own.id a term.id shoduje buď mcc.city nebo mcc.name s nejstarším výskytem, nahraď druhý z obou názvů nejstarším výskytem

Z grafu je zřejmé, že popsanou heuristikou se podařilo odstranit naprostou většinu duplicit.

Odstranění extrémních četností

  • jedná se o neztotožněná souhrnná mcc CZECH SAVINGS BANK a RBCZ
mcc.final cnt
CZ::PRAHA::RBCZ 39276
CZ::BRNO::RBCZ 13414
CZ::PRAHA 8::CS, METRO KOBYLISY (C) 8149
CZ::MLADA BOLESLA::RBCZ 8087
CZ::BRNO-STRED::CS, VE VANKOVCE 462/1 7913

Ze souboru odstraníme výběry, jejichž mcc obsahuje řetězce CZECH SAVINGS BANK nebo RBCZ.

Domácí a hosté

Pro potřebu rozpoznání mimořádných událostí si rozdělíme výběry na ty, jež jsou vykonané domácími uživateli daného bankomatu a ostatní, vykonané hosty.

Při definici domovského vztahu se pokusíme splnit dvě protiběžné podmínky:

Definujeme vztah klienta a bankomatu jako domácí, pokud má:

Domácí budiž ten, kdo má alespoň 1 výběr během každého z alespoň 3 různých měsíců.

Při takto definovaném kritériu připadá na domovské bankomaty asi 2/3 výběrů v počtu i objemu.

Na jednoho klienta připadá cca 2 - 4 domácí bankomaty.

Na jeden bankomat připadá cca 21 - 75 domácích klientů.

Podíl výběrů doma:

Takto definovaný domov dobře splňuje obě stanovené podmínky.

Události

Události jsou charakteristické nárůstem výběrů realizovaných hosty, jak lze pozorovat na grafech počtu týdenních výběrů obou skupin pro různé bankomaty.

Týdenní souhrny

Následující grafy ukazují bankomaty s největším relativním odstupem maxima počtu výběrů hostů od jeho mediánu.

Při takto definovaném kritériu pozorujeme čtyři typy událostí:

  • Festival — mimořádný nárůst v jednom týdnu u jinak klidného bankomatu (festivaly, poutě, dožínky, vinobraní, atd.).
  • Kemp — prázninový nárůst u jinak málo využívaného bankomatu (kempy u přehrad).
  • Vánoční trhy — předvánoční nárůst v obchodních centrech
  • Výstaviště — nepravidelné špičky u jinak nepoužívaného bankomatu (veletrhy, výstavy, sportovní akce).

Denní souhrny

Podobné, ačkoli více zašuměné, jsou i denní průběhy počtu výběrů u domácích a hostí.

Karlovarský festival

Kritéria pro nalezení festivalu:

Vezmeme první a poselední den splňující podmínku:

Kritéria pro zařazení bankomatu:

Festivalové dny jsou označeny červeně.

Charakteristiky návštěvníků

Cílem je prověřit přímočarou hypotézu, že soubor návštěvníků festivalu se liší od:

  1. Souboru všech klientů banky
  2. Souboru domácích klientů stejných bankomatů

Identifikovaní návštěvníci MFF Karlovy Vary (360 klientů):

  • Jsou mladší než běžný klient EqB. (med. věk: 29 let, oproti 37 let v celé populaci).

  • Berou si nepatrně častěji úvěr (5.46 %, oproti 4.26 % v celé populaci).

  • Mají mírně vyšší riskové skóre (med. věk: 7.06, oproti 4.63 v celé populaci).

  • Na 29 půjčkách nemají žádný default (oproti 2.20 % v celé populaci).

S výjimkou věkového rozdílu spadají všechny ostatní rozdíly do oblasti statistické chyby.

Závěr

Jednoduchou podmínkou na 3 různé měsíce s 1 výběrem je možné dobře rozdělit klienty na domácí a hosty. Pro identifikaci událostí je vhodné využít špičky počtu výběru hostů. Jako jednoduchá podmínka se jeví den, kdy počet výběrů hostů překročí 5x mediánového počtu a alespoň 10 lidí.