[Sk] Tento blog je bilinguálny jeho Slovenská verzia sa nachádza nižšie.
[9.4.2016] Špeciálna úloha pridaná pre študentov TU KE (ako štvrté zadanie v poradí v rámci slovenskej časti blogu)
[28.2.2016] Správne riešenie a vyhodnotenie súťaže je pridané v slovenskej sekcii blogu na konci.
[EN] 3 data scientist interview tasks. Can you crack them?
After successful FIRST and SECOND round of CRM riddles from last year, here comes the third round of data mining tasks that might appear at job interview for data scientist position. Do you stand to the test of cracking them?
Task 3.1 - Size of the family
You work as an analyst in loyalty scheme department of major national grocery stores chain. Your stores hold aprox. 10 000 unique products (SKUs) per store, including food, cosmetics and staples items. While you invested heavily in past into data clening, you know that each family holds just one loyalty card of yours. Management of the chain charged you with the task to predict how many family memebers are in individual households of your customers. As an input for your task you have access to purchase data (item level of detail) of all customers for several years. How will you estimate household members number? Please state specific items and scatch calculations needed to run the estimate.
Task 3.2 - New TV set
You have been employed for several years with Elektroshop, the largest network of electronic appliances distributor in country. After successful career of store manager you have been promoted to central office and assigned rsponsibility for future sales planning. CEO stops by your office and upon shaking hands he registers with you that TV set sales predicition will be crucial for meeting the next year budget expectations. After few minutes of dispute, you agree to come up with model predicting who of your existing customers will most probably buy a new TV set within forthcoming 12 months. What will be your approach to set up the model?
Task 3.3 - Migrating mortgage
For 2 or 3 seasons Mortgage department, you are leading, has been on constatnt praise. As one of the top 4 retail banks in the country you have been doing extremely well in building the mortgage loan stock of the bank. However, mortgage market is quite unstable and thus stockpiled mortgages might turn into a burden if competing banks play on lower rate note. Assuming you are a primary bank for you mortgage clients, how would you identify customers who are most likely to switch the mortgage to some of the competitors?
If you want to discuss your solutions, feel free to email them to author of the blog to: [email protected] I promise a short feedback to all attempts delivered before 31.3.2016. (correct answers will be published here in blog within 3 weeks time)
[SK] Slovenská verzia blogu
Po úspešnom prvom a druhom kole marketingových hádaniek z minulého roka, pre tých z Vás čo chcú otestovať svoj dôvtip a marketingové myslenie, prichádza aj kolo tretie. V ňom pred vami opäť stoja 3 stredne ťažké marketingové hádanky, ktorých zadanie si za chvíľu predstavíme. Ešte než sa pustíme do samotného riešenia, rád by som Vás navnadil na zaujímavé a hodnotné ceny tohto kola. Pre dvoch najlepších pátračov je pripravený voľný vstup ( v hodnote 130 EUR !) na skvelú konferenciu o CRM a BigData, ktorá sa bude konať v Bratislave 31.3.2016. Okrem toho spomedzi všetkých odpovedí vyžrebujem jedného šťastlivca, ktorý dostane inšpiratívnu knihu o CRM a marketingu. Tento krát sú ceny naozaj horúce, tak čo, trúfate si aspoň na jednu správnu odpoveď ?
Úloha 3.1 Veľkosť rodiny
Pracujete ako analytik v oddelení vernostného programu najväčšej siete supermarketov. Vaše predajne majú v priemer 10.000 rôznych tovarových položiek potravín, drogérie a drobného spotrebného tovaru. Keďže ste investovali veľa úsilia do čistenia dát, viete že domácnosti majú vždy len jednu vernostnú kartu z Vašej siete. Vedenie spoločnosti od Vás chce, aby ste odhadli koľko členná je domácnosť jednotlivých držiteľov kariet. K tomuto účelu máte k dispozícii niekoľko ročnú, detailnú históriu nákupov až na úroveň konkrétnych položiek. Pozor, akceptované budú iba tie riešenia, ktoré popíšu presne postup odhadu (konkrétne položky sortimentu alebo parametre podľa ktorých sa početnosť jednotlivých domácností odhadne). Aký postup navrhnete ?
Úloha 3.2 Nová telka
Už niekoľko rokov pracujete pre spoločnosť Elektrošop, ktorá je jednou z celoštátnych sietí predajní elektrospotrebičov. Po úspešnej kariére manažéra predajne ste prijali ponuku povýšenia na centrálu, kde teraz zodpovedáte za plánovanie budúcich tržieb. Prvou úlohou, ktorou Vás generálny riaditeľ firmy v novej práci poveril, je navrhnúť postup ako odhadnúť, ktorí klienti z vášho portfólia si veľmi pravdepodobne kúpia novú televíziu za najbližších 12 mesiacov. Máte k dispozícii 8 ročnú históriu predajov, pričom k väčšine nákupov máte priradené aj meno a adresu klienta (zadávajú sa do systému pre účely servisu alebo prípadných budúcich reklamácií tovaru zo strany zákazníka). Aký postup zvolíte ?
Úloha 3.3 Migrujúca hypotéka
Posledné roky ste počuli na Vaše oddelenie od šéfstva samú chválu. Pracujete na oddelení Hypotekárnych úverov v jednej z TOP4 veľkých retailových bánk a v tejto oblasti sa Vašej banke za ostatné roky naozaj darilo. Vy však viete, že každá minca má dve strany. Hypotekárny trh je pomerne dynamický a vy viete, že nemalá časť vašich klientov s hypotékou môže dostať konkurenčnú ponuku na prenesenie hypotéky do inej banky. Hypotekárni klienti majú u vás vedený aj svoj hlavný bežný účet (na ktorý im chodí príjem) a nemalá časť z nich má u vás aj iné úvery alebo úspory. Ako odhaliť, ktorí klienti sú najviac náchylní na prenesenie hypotéky? Popíšte návrh príznakov/parametrov, podľa ktorých odhadnete pravdepodobnosť pre každého z Vašich klientov.
Úloha 3.4 Špeciálna úloha pre TUKE študentov
Zamestnali ste sa v online obchode s pomerne širokým záberom sortimentov (niečo na štýl mall.sk alebo alza.sk). Ako jednu zo svojich prvých úloh ste boli požiadaný odhadnúť, ktorí klienti by mohli mať záujem o KOLOBEŽKY a BICYKLE, novú kategóriu produktov, ktoré plánujete spustiť v dohľadnej dobe. Na odhad máte k dispozícii základné údaje o klientovi (meno, kontakt, bydlisko, približný vek, ...) a nákupnú históriu klientov. Doposiaľ v ponuke nemáte žiadne športové produkty, z ktorý by sa to priamo dalo odvodiť. Hlavnú ponuku Vašeho e-shopu tvoria elektrospotrebiče, drogéria a kozmetika, hračky pre deti, kancelársky spotrebný tovar, záhradná technika a náradie.
Ako by ste čo najpresnejšie odhadli cyklistov ?
[UPDATED] Správne riešenia úloh
Úloha 3.1 - Počet členov Rodiny:
Základom tohto riešenia je rozdeliť VŠETKY tovary do 4 skupín: a] čisto ženské produkty (napr. vložky), b] čisto mužské produkty (napr. mužský deodorant, mužské holenie, ...), c]detské produkty (plienky, sunar, detské verzie džúsov a sladkostí, ...) a d] neutrálne produkty (tie, čo nepatria do skupiny a] až c]). Produkty v neutrálnej skupine slúžia na určenie celkového počtu členov domácností (napr. pečivo, prací prášok, sprchovací gel, zubná pasta, jogurty, balené mäso, minerálky, toaletný papier, ...). Produkty z niektorej z kategorii A až C slúžia na určenie, či daná domácnosť má zástupcu danej kategórie a koľko ich má.
Viacerí z vás sa čiastkovo snažili identifikovať používaním len vybraných zástupcov týchto kategórii. Skutočnosť je taká, že občas aj dospeláci môžu mať chuť na kindervajce alebo kúpite niečo aj pre susedku, keď idete na nákup. Teda len výskyt danej položky ešte nie je smerodajný. Preto je potrebné rozdeliť tovary do skupín a sledovať počty nákupov a počty balení za jednotlivé skupiny. Tiež dôležitá poznámka, že potrebné je sledovať frekvenciu nákupov a počty kusov, nie nutne objemy nákupov.
V riešeniach sa objavili aj návrhy cez kalorické indexy alebo priemerné spotreby určitých tovarov. Tieto riešenia sú jednak veľmi, veľmi pracné a na druhej strane nie príliš stabilné. (napr. dieťa v puberte môže znásobiť svoju spotrebu jedla, takže to môže navodzovať pocit ďalšieho člena). Hoci ide o intelektuálne zaujímavé prístupy, ktorým som sa potešil, v praxi by pomer úsilie/výsledok pre tieto riešenia nebol príliš priaznivý.
Úloha 3.2 - Kúpa nového televízora:
Bolo pre mňa prekvapením, že táto úloha Vám robila najväčšie problémy. Pritom správne riešenie v skutočnosti nie je až tak (podľa mojej mienky) náročne, len je potrebné si uvedomiť všetky dimenzie problému.
Začnem tým, čo je asi najdôležitejšie a pritom triviálne: Vylúčiť non-buyers, teda tých, čo určite nekúpia. Možno Vás to prekvapí, ale pri týchto druhoch úloh je oveľa dôležitejšie povedať, kto nekúpi ako povedať, kto kúpi. Aj keď nikto z riešiteľov nemal plný súbor non-buyers, keby sme poskladali jednotlivé riešenia dokopy, takmer všetky dôležité aspekty navrhol aspoň jeden z riešiteľov. Tak len telegraficky, medzi non-buyers patria: 1) tí, čo kúpili TV nedávno, 2) ľudia, čo úspešne vyreklamovali pokazenú TV, 3) ľudia, čo kúpili nejaký substitút (napr. veľký TV monitor alebo projektor) a 4) ľudia, čo nepozerajú telku (nikdy nekúpili nič TV related za viac ako 10 rokov).
Okrem non-buyers je potrebné pri tejto úlohe ešte zahrnúť dve pozitívne identifikujúce skupiny (čo majú vysokú pravdepodobnosť kúpy). Prvou pozítivnou skupinou sú Vymieňači = skupina klientov, ktorí pravidelne aktualizujú technológie a je ich možné odhaliť buď podľa vzťahu novinka = hneď ju kúpim ALEBO vymieňam TV v určitom intevale (napr. každé 4 roky). Pri vymieňačoch je však potrebné aj odhanúť, či ich dôvod na výmenu nastane v najbližších 12M, lebo model mal hľadať práve takých, čo kúpia najbližší rok. Záujímavým podnetom vymieňačov boli športové udalosti. Musím úprimne povedať, že toto mi sprvoti nenapadlo, tak skladám poklonu tým, ktorí s tým prišli. (áno aj ja som vymenil TV pred jednou z olympiád).
Druhou pozítívnou skupinou sú Dokupovači = skupina klientov, ktorí na základe iných nákupov si veľmi pravdepodobne kúpia aj TV. Tu padalo veľa nápadov (herná konzola, DVR, set-top box, satelit, ...), takže sa nimi nebudum do podrobná zaoberať. Poviem len toľko, že väčšina týchto väzieb je pomerne slabým prediktorom nákupu (aj keď mnohí z riešiteľov boli presvedčení o ich sile). Preto je potrebné naskladať čo najviac takýchto markerov. Len na základe jedného markeru totiž nakúpi veľmi málo klientov skutočnosti. Najzaujímavejším markerom z riešení bol nápad s druhou TV do domu pre deti do detskej izby.
Asi najväčšou slepou uličkou tejto úlohy je sťahovanie sa. Tu si skúste dať dva kroky späť a zamyslieť sa. Pokiaľ máte novú TV, nebude si kupovať po roku ešte novšiu len preto, že sa sťahujete? Asi nie, proste ju presťahujete. Teda skôr ako sťahovaním sa ľudia riadia prirodzenou dobou obmeny TV. Áno, sťahovanie môže skrátiť o niečo interval, keď vymeníte TV nie po 6 rokoch ale po 5tich, lebo sa akurát sťahujete, ale inak je to relatívne slepá vetva. Ľudia, keď sa sťahujú skôr najprv vymieňajú bielu techniku ako TV.
Osobitnými kritériami pre hodnotenie riešení boli, či model predpovedal nákup vo všeobecnsoti alebo zohľadňoval aj najbližších 12M A ZÁROVEŇ či dokázal klientov zoradiť podľa rôznej pravdepodobnosti takéhoto nákupu.
Úloha 3.3 - Prenesenie hypotéky:
Táto téma nebola zvolená náhodne. Banky teraz čaká veľké zamýšľanie nad touto témou. Hoci mnohí pokladali úlohu za relatívne jednoduchú, jej úplne riešenie má svoje úskalia. Tak poďme na to po poriadku:
Rovnakej ako v druhej úlohe, je potrebné rozmýšlať o POZITÍVNOM vymedzení (kto je náchylnejší vymeniť hypotéku) a NEGATÍVNOM vymedzení (kto naopak je málo pravdepodobný). Pre obe strany je možné dať dokopy sadu markerov správania, ktoré môžu byť pomerne rozsiahle (riešenie, ktoré som videl v praxi malo cca 40 pozítívnych a cca 20 negatívnych markerov). Opäť mnohé z nich zazneli v riešeniach, tak len telegraficky spomeniem tie najdôležitešie:
Pozitívne = klient má nevýhodnú úrokovú mieru, na hrane s peniazmi, už zmenil v minulosti, aj k nám prišiel refinancovaním, už refinancovali iný úver, už predčasne splatil iný úver, prestali sme byť jeho primárna banka (nerobí transakcie našou kartou), sťažoval sa, dlho do skončenia úveru, ... Zaujímavými kategóriami, ktoré sú v západných krajinách silným prediktorom a u nás sa zatiaľ až tak nevyužívajú, sú kontakty s klientom (bol sa informovať na pobočke, zmenil frekvenciu prezerania si zostatkov v IB, pozeral si podmienky úveru v IB, ...).
Negatívne = klient nie je cenovo senzitívny, už niekoľko krát otočil s nami úver, má od nás aj iné úroky, má veľa trvalých príkazov a inkás z našej banky, má u nás čo najviac rôznych produktov, nikdy nezrušil produkt, nesťažoval sa, už len krátko do splatenia úveru ... Čo mnohých z vás prekvapí je, že ak má problém splácať úver, nie je to pozitívny marker, ale práve negatívny (iná banka ho nebude chcieť kvôli úverovému registru).
Pre riešenie tohto druhu úloh je veľmi vhodné, keď si zostavíte mini segmentáciu klientov podľa motivácie zmeniť alebo zostať (napr. cenovo zenzitívni, nespokojní, ...), čo niektorí z Vás aj urobili. Potom sa príznaky hľadajú oveľa jednoduchšie a môžete lepšie odhadnúť pravdepodobnosť, keď sa kumulujú rôzne markery pre ten istý dôvod odísť. Kombinovanie markerov pre rôzne dôvody odchodu totiž nie nutne zvyšujú pravdepodobnosť skutočného odchodu. (ak som jemne naštvaný a zároveň mám jemne nadprimernú výsku úveru neznamená, že tieto dva faktory sa kombinujú v podstatne vyššiu pravdepodobnosť môjho odchodu).
Ak sa chcete o niektorom z aspektov riešenia pobaviť bližšie, pokojne mi napíšte na [email protected] a môžeme to dodiskutovať. Rovnako uvítam akúkoľvek pozitívnu či negatívnu spätnú väzbu k tomuto kolu úloh, či celej sérii CRM hádaniek.
[UPDATED] Vyhodnotenie súťaže
Podávanie súťažných riešení bolo ukončené a súťaž je vyhodnotená. Celkovo boli vyhodnocované dve kategorie. V kategórii TROJBOJ (súčet bodov za riešenie všetkých troch úloh zvíťažil Matúš B. V prvej úlohe ponúkol najlepšie riešenie, v druhej úlohe II. najlepšie riešenie a v tretej úlohe síce nebol medzi prvými, ale jeho riešenie stále bolo v tej lepšej polovici štartovacieho poľa. Matúšovi samozrejme ďakujem za podnetné riešenia a gratulujem k výhre lístku skvelú eFOCUS konferenciu o CRM a BigData 31.3. v Bratislave!
Druhou kategóriou bol najoriginálnejšie riešenie tej úlohy, na ktorú prišlo najviac odpovedí. Najviac odpovedí prišlo na 3.1 a 3.2 úlohy a keďže Matúš B. ponúkol najlepšie riešenie 3.1, o druhom lístku na konferenciu rozhodovalo najoriginálnejšie riešenie úlohy 3.2 (nový televízor). V tejto časti súťaže ponúkla najlepšie riešenie Beáta M., ktorej týmto gratulujem k zisku druhého lístku na danú eFOCUS konferenciu!
Cena útechy, zaujímavá knižka, sa žrebovala z ostatných odpovedí náhodou a štastie sa usmialo na Matúša S., ktorému tiež týmto gratulujem.
Všetci výhercovia budú autorom blogu skontaktovaní tou cestou, ktorou doručili svoje riešenia. Ďakujem všetkým, ktorí sa zapojili a teším sa do budúcna na prípadné ďalšie kolá, do ktorých pripravujem opäť jednu podstatnú zmenu, na ktorú sa môžete tešiť.
Páčili sa Vám úlohy? Vyskúšajte si aj ostatné kolá:
Ak ste do marketingových rébusov zavítali prvý krát, pozrite si na ukážky otázok prvého kola (a ich riešenia) alebo zadania a riešenia II.kola hádaniek.
Riešenie úloh si vyžaduje zmeniť pohľad na bežné dáta. Niekoľko reálnych príkladov "ako na to" nájdete v niektorom z nasledovných blogov autora:
Prehľadný sumár blogov F. Víteka
Autor pracuje ako CRM manažér pre mediworx software solutions, a.s. . Všetky vyjadrenia v tomto blogu sú osobnými názormi autora a nie sú oficiálnym stanoviskom žiadnej organizácie, ktorej je autor členom alebo zamestnancom. Autora zastihnete na LinkedIN, Twittri ako aj na Google+.