Cvika z Dotazování s preferencemi, LS 2015

Ladislav Peška, S309, peska@ksi.mff.cuni.cz

Cvičení 18.5.

Poslední cvičení: výsledky soutěže, prezentace jednotlivých řešení, zápočty.
Slidy ke cvičení

Cvičení 27.4.

Čeká nás poslední várka algoritmů (rozhodovací stromy, meta algoritmy) a nakonec něco málo o semantizaci webu. Slidy ke cvičení
Na cvičeních 4.5. a 11.5. si poslechneme vaše referáty, 18.5. pak proběhne vyhodnocení soutěže, zápočty a dopočítání bonifikací ke zkoušce.

Cvičení 20.4.

Na cvičení mrkneme na nějaké další doporučovací algoritmy. Stihneme doufejme učení modelu desetiboje a faktorizace matic. Slidy ke cvičení

Cvičení 13.4.

Na cvičení jsme dopracovali seznam referátů - viz. následující tabulka:

Jméno,	Název článku,	Odkaz,	Termín prezentace
Emanuel Buzek	Restricted Boltzmann Machines for Collaborative Filtering	ICML 2007	4.5. 2015
Javkhlan Naranbaatar	Each to his own: How Different Users Call for Different Interaction Methods in Recommender Systems	RecSys 2011	4.5. 2015
Jan Vinárek	Evaluating Recommender Behavior For New Users	RecSys 2014	11.5. 2015
David Vondrák	Question Recommendation with Constraints for Massive Open Online Courses	RecSys 2014	?

Cvičení 30.3.

Na cvičení 30.3. se podíváme na 2 základní doporučovací algoritmy, zkusíme si je rozebrat trochu více do hloubky a podívat se na varianty jak je vylepšovat/upravovat.
Nejprve se mrkneme na K Nearest Neighbors (KNN) ve variantě hledání podobných uživatelů (collaborative-filtering) i ve variantě content-based podobnosti objektů.
Dále (snad zbyde čas) se mrkneme na Vector Space model (VSM), což je stále ještě jeden z nejpoužívanějších Content-based algoritmů.

Pro rozšiřující studium vřele doporučuji přednášku dr. Vomlelové o strojovém učení.
Slidy ke cvičení

Cvičení 23.3.

Na cvičení 23.3. jednak vyhodnotíme splnění DU1 a případně dořešíme problémy, které mohly vzniknout
Dál se zaměříme především na analýzu dat k soutěži - viz. MySQL tabulky a Excelovský dokument.

Cvičení 23.2.

- slidy ke cvičení

Zadání referátu z vědeckého článku

- vyberte si článek z některého ročníku konference RecSys (http://recsys.acm.org/), UMAP (http://www.um.org/umap2014/), případně po dohodě jiné obdobně zaměřené konference. Konference RecSys je zaměřená více prakticky - konkrétní algoritmy, studie použití, nové problémy z oblasti doporučovacích systémů. Konference UMAP je o něco víc teoretičtější, zeměřuje se spíš na uživatelské preference obecně a jejich různé možnosti použití. Z vybraného článku zpracujte referát na 20-30 minut, který odprezentujete na cvičení v druhé polovině semestru.

Výběr článku mi dejte vědět nejpozději na cvičení 30.3., s prezentacemi počítám ideálně na cvičeních v dubnu nebo květnu, po domluvě lze i jiný termín.

Zadání zápočtové soutěže

Uživatelské preference (UP) a doporučování - zápočtová soutěž
Jedna z ne příliš známých aplikací metod strojového učení jsou doporučovací systémy. Doporučovací systém má za cíl(obvykle na nějaké webové stránce) fungovat jako doplněk ke klasickému vyhledávání či katalogové struktuře a na základě zjištěných preferencí uživatele mu doporučit objekt(y), které by pro něj byly vhodné, ale které by zároveň jen složitě hledal, nebo o jejich možné existenci ani neví.
V rámci Vaší zápočtové práce si zkusíte takový doporučovací systém sami naprogramovat. Samozřejmě původní use-case dost zásadně zjednodušíme. Zaměříme se pouze na tzv. off-line experimenty, kde použijeme dříve získaná data o chování uživatelů, z první části se pokusíme naučit preference jednotlivých uživatelů (trénovací sada) a druhou část použijeme k ověření našeho modelu UP (testovací sada).
Budeme chtít znát pouze předpokládané hodnocení uživatele k předem zadaným objektům (testovací sada) a porovnáme je s jejich skutečným hodnocením.
Vašim cílem tedy bude napsat program, který na vstupu zpracovává hodnocení objektů uživateli a atributy objektů a následně pro libovolný pár uživatel-objekt spočítá předpokládané hodnocení tohoto objektu zadaným uživatelem.

Jako datová sada byly zvoleny tweety uživatelů, kteří mají propojený svůj IMDB účet s twitterem. Ten pak automaticky vytváří tweety cca ve tvaru: "Viděl jsem film [název_filmu] a ohodnotil ho na [0-10]/10."
K dispozici budete mít data o objektech (filmech) z IMDB api (omdbapi.com) a data o tweetu a jeho odesilateli z twitter API.

Zvolená platforma / programovací jazyk není podstatný (použijte váš oblíbený). Hodnocení bude prováděno pouze na základě dodaných predikcí (ale zdrojáky samozřejmě ve finále odevzdáváte taky - jen pro kontrolu).

Vstupní a výstupní data
Váš program bude zpracovávat následující soubory:

Soubor známého uživatelského hodnocení trainNDBI021.csv (trénovací sada) = CSV soubor ve tvaru:

user_id,	tweet_id,	object_id,	rating
1,	"11251324665498",	32124567,	8
1,	"14465268785463",	46532165	10
2,	"15864986456548",	79465133	1
...,	...,	...,	...

kde user_id je identifikátor uživatele (integer), tweet_id je identifikátor tweetu (string), object_id identifikátor objektu (filmu) v IMDB a hodnocení je bodové hodnocení daného objektu uživatelem z intevalu [0,10] (integer), 10=nejlepší, 0=nejhorší

Soubor atributů objektu itemsNDBI021.csv = CSV soubor ve tvaru:

object_id,	name,	rating,	rated_no,	awards_no,	metascore,	date,	country,	language,	genres,	director,	actors
0265086,	Black Hawk Down,	7.7,	240871,	0,	74,	2002,	USA;UK,	English;Somali,	Drama;History;Thriller,	Ridley Scott,	Josh Hartnett;Ewan McGregor;Tom Sizemore;Eric Bana
2278988,	Forgotten,	5.8,	307,	1,	0,	2012,	Germany,	German,	Drama;Mystery;Thriller,	Alex Schmidt,	Mina Tander;Laura de Boer;Katharina Thalbach;Max Riemelt

Rating, rated_no jsou informace o průměrném ratingu filmu a počtu hodnotících v rámci IMDB. Metascore je "magic method" kterou dopočítává IMDB z recenzí a hodnocení (z intervalu 0-100, větší=lepší). Awards_no = celkový počet získaných cen.
(pole jsou oddělena čárkou ",". Pokud je některé pole vícehodnotové - například žánry, nebo seznam herců - jsou jednotlivé položky odděleny středníkem ";")

Soubor atributů tweetu tweetNDBI021.csv = CSV soubor ve tvaru:

tweet_id, tweet_data

"307139025897152512", {"contributors": null, "truncated": false, "text": "", "in_reply_to_status_id": null, "id": 307139025897152512, "favorite_count": 0, "source": "IMDb Movies & TV on iOS", "retweeted": false, "coordinates": null, "entities": {"symbols": [], "user_mentions": [], "hashtags": [{"indices": [48, 53], "text": "IMDb"}], "urls": [{"url": "http://t.co/oSoACtR7Pb", "indices": [25, 47], "expanded_url": "http://www.imdb.com/title/tt0444778", "display_url": "imdb.com/title/tt0444778"}]}, "in_reply_to_screen_name": null, "id_str": "307139025897152512", "retweet_count": 0, "in_reply_to_user_id": null, "favorited": false, "user": {"follow_request_sent": false, "profile_use_background_image": true, "id": 296041028, "verified": false, "profile_text_color": "333333", "profile_image_url_https": "https://pbs.twimg.com/profile_images/3635577628/2fded110fafbe2389f074fc50831a59e_normal.jpeg", "profile_sidebar_fill_color": "EFEFEF", "is_translator": false, "geo_enabled": true, "entities": {"description": {"urls": []}}, "followers_count": 114, "protected": false, "location": "\u0e17\u0e35\u0e48\u0e40\u0e14\u0e34\u0e21~", "default_profile_image": false, "id_str": "296041028", "lang": "en", "utc_offset": 25200, "statuses_count": 47133, "description": "They said I could be anything.. So I became your Friend.// Mr.149", "friends_count": 474, "profile_link_color": "000000", "profile_image_url": "http://pbs.twimg.com/profile_images/3635577628/2fded110fafbe2389f074fc50831a59e_normal.jpeg", "notifications": false, "profile_background_image_url_https": "https://si0.twimg.com/profile_background_images/810193743/85c3b06e5a58288065117440931884a3.jpeg", "profile_background_color": "FFFFFF", "profile_banner_url": "https://pbs.twimg.com/profile_banners/296041028/1367973819", "profile_background_image_url": "http://a0.twimg.com/profile_background_images/810193743/85c3b06e5a58288065117440931884a3.jpeg", "name": "\u0e21\u0e34\u0e2a\u0e40\u0e15\u0e2d\u0e23\u0e4c\u0e1a\u0e25\u0e39\u0e02\u0e2d\u0e1a\u0e32\u0e22\u0e2a\u0e4c\u2667", "is_translation_enabled": false, "profile_background_tile": true, "favourites_count": 679, "screen_name": "Nat_ta_gun", "url": null, "created_at": "Tue May 10 03:03:19 +0000 2011", "contributors_enabled": false, "time_zone": "Bangkok", "profile_sidebar_border_color": "000000", "default_profile": false, "following": false, "listed_count": 2}, "geo": null, "in_reply_to_user_id_str": null, "possibly_sensitive": false, "lang": "en", "created_at": "Thu Feb 28 14:43:44 +0000 2013", "in_reply_to_status_id_str": null, "place": null}

tweet_id,	tweet_data
"307139025897152512",	{"contributors": null, "truncated": false, "text": "", "in_reply_to_status_id": null, "id": 307139025897152512, "favorite_count": 0, "source": "IMDb Movies & TV on iOS", "retweeted": false, "coordinates": null, "entities": {"symbols": [], "user_mentions": [], "hashtags": [{"indices": [48, 53], "text": "IMDb"}], "urls": [{"url": "http://t.co/oSoACtR7Pb", "indices": [25, 47], "expanded_url": "http://www.imdb.com/title/tt0444778", "display_url": "imdb.com/title/tt0444778"}]}, "in_reply_to_screen_name": null, "id_str": "307139025897152512", "retweet_count": 0, "in_reply_to_user_id": null, "favorited": false, "user": {"follow_request_sent": false, "profile_use_background_image": true, "id": 296041028, "verified": false, "profile_text_color": "333333", "profile_image_url_https": "https://pbs.twimg.com/profile_images/3635577628/2fded110fafbe2389f074fc50831a59e_normal.jpeg", "profile_sidebar_fill_color": "EFEFEF", "is_translator": false, "geo_enabled": true, "entities": {"description": {"urls": []}}, "followers_count": 114, "protected": false, "location": "\u0e17\u0e35\u0e48\u0e40\u0e14\u0e34\u0e21~", "default_profile_image": false, "id_str": "296041028", "lang": "en", "utc_offset": 25200, "statuses_count": 47133, "description": "They said I could be anything.. So I became your Friend.// Mr.149", "friends_count": 474, "profile_link_color": "000000", "profile_image_url": "http://pbs.twimg.com/profile_images/3635577628/2fded110fafbe2389f074fc50831a59e_normal.jpeg", "notifications": false, "profile_background_image_url_https": "https://si0.twimg.com/profile_background_images/810193743/85c3b06e5a58288065117440931884a3.jpeg", "profile_background_color": "FFFFFF", "profile_banner_url": "https://pbs.twimg.com/profile_banners/296041028/1367973819", "profile_background_image_url": "http://a0.twimg.com/profile_background_images/810193743/85c3b06e5a58288065117440931884a3.jpeg", "name": "\u0e21\u0e34\u0e2a\u0e40\u0e15\u0e2d\u0e23\u0e4c\u0e1a\u0e25\u0e39\u0e02\u0e2d\u0e1a\u0e32\u0e22\u0e2a\u0e4c\u2667", "is_translation_enabled": false, "profile_background_tile": true, "favourites_count": 679, "screen_name": "Nat_ta_gun", "url": null, "created_at": "Tue May 10 03:03:19 +0000 2011", "contributors_enabled": false, "time_zone": "Bangkok", "profile_sidebar_border_color": "000000", "default_profile": false, "following": false, "listed_count": 2}, "geo": null, "in_reply_to_user_id_str": null, "possibly_sensitive": false, "lang": "en", "created_at": "Thu Feb 28 14:43:44 +0000 2013", "in_reply_to_status_id_str": null, "place": null}

tweet_data je JSON tweetu tak, jak by mohl být získán z twitter api. Vymazán je samotný text tweetu, protože obsahuje hodnocení. Většina informací v tweetu je nezajímavá, ale za zmínku stojí například created_at, retweet/favorite count u tweetu, nebo followers count u uživatele.

Soubor neznámého uživatelského hodnocení testNDBI021.csv (testovací sada) = CSV soubor ve tvaru:

user_id,	tweet_ID,	object_id
1,	"14465268785463",	79533545
1,	"15864986456548",	12364567
2,	"11251324665498",	98765432
...,	...,	...

kde user_id je identifikátor uživatele (integer), tweet_ID je identifikátor tweetu, object_id identifikátor objektu (filmu) v IMDB

Výstupem Vašeho programu pak bude soubor solution.csv, který má stejný formát jako trainNDBI021.csv, ale obsahuje páry uživatel-objekt z testNDBI021.csv doplněné o Vaše předpokládané hodnocení.

Jak se bude hodnotit?
Potom co váš program vytvoří soubor solution.csv je třeba jej uploadovat přes formulář na adrese http://www.ksi.mff.cuni.cz/~peska/challenge_evaluator_formNDBI021.php

Úspěšnost Vašeho řešení se bude počítat na základě metriky RMSE, která zjednodušeně řečeno udává průměrnou odchylku mezi Vaším předpokládaným a skutečným hodnocením (čím menší, tím lepší).
V nejbližší době zveřejníme výsledky několika jednoduchých modelů UP (náhodné, user average, UP na základě baseline predictors). Vaším prvním cílem, je dosáhnout lepších výsledků, než tyto modely.
Dále bude na adrese http://www.ksi.mff.cuni.cz/~peska/challenge_hiscoreNDBI021.php zveřejněna tabulka nejlepších dosažených výsledků.

Proběhnou celkem 2 kola vyhodnocování průběžných výsledků, kde bonifikaci ke zkoušce získá vždy student s nejlepším výsledkem a závěrečné vyhodnocení, kde získáte bonifikaci ke zkoušce na základě procenutálního zlepšení výsledků oproti baseline algoritmům.
Baseline algoritmy jsou: Random, User average, Item average, Baseline predictors (viz. níže), počítat se bude zlepšení oproti nejlepšímu baseline. Úkol se považuje za splněný (máte nárok na zápočet), pokud vaše řešení překoná všechny baseliny.
Deadliny pro odevzdání řešení jsou:

5.4. 2015 do půlnoci - první průběžné kolo
26.4. 2015 do půlnoci - druhé průběžné kolo
17.5. 2015 do půlnoci - finální výsledky

Jak na to? probereme detailněji na dalších cvičeních. Řada z vás má zapsaný předmět Strojové učení, kde můžete získat dobrou inspiraci (doporučovací systémy jsou v zásadě specifickým příkladem strojového učení).
Existuje řada algoritmů pro zjišťování uživatelských preference a doporučování, níže uvedený seznam není kompletní, ale představuje rozumný průřez.
- Globální algoritmy (které neberou v úvahu uživatele), např. průměrné hodnocení daného objektu.
- Baseline prediktory (hodnocení = global_average + item_average + user_average)
- Collaborative filtering založené na podobnosti uživatelů skrze podobné hodnocení(k-nearest neighbors)
- Různé varianty algoritmů založené na Faktorizaci matic - Různé varianty content-based algoritmů založených na podobnosti objektů skrze atributy (Vector space model, Attributes based similarity, ...)
- Model desetiboje
- Kombinace a metamodely z výše uvedených algoritmů
- Metody pro strojové učení (rozhodovací stromy, neuronové sítě,...)
V žádném případě nezakazuju použití již existujících řešení/algoritmů - např. Weka, RapidMiner, MyMediaLite aj. ale nechci řešit situaci, kdy 2 lidé odevzdají zcela stejné výsledky.
Navíc vzhledem k tomu, že se jedná o veřejně dostupná data, teoreticky by nebyl problém zjistit si správné výsledky z testovací sady. Nedělejte to:) Baseliny nejsou nijak závratné, takže k získání zápočtu se moc nenadřete a stejně budu chtít vidět vaše zdrojáky.

Program a deadliny

2.3. Upřesnění zadání soutěže - zveřejněné datasety, kostra dummy doporučovače, evaluátor, tabulka výsledků...
do 22.3. DU-1 kostra vašeho řešení (dummy doporučovač a otestovaný přístup k evaluátoru: jde o to zkontrolovat, zda jste schopni vytvořit validní výstup, který evaluátor bez chyb zchroustá. Splnění DU-1 = alespoň 1 Váš zápis v tabulce výsledků
23.3., 13.4., 20.4., 27.4. blok cvičení, chtěl bych probrat nějaké základní doporučovací algoritmy (k-NN, VSM, rozhodovací stromy, možná faktorizace matic...), vztah Linked Open Data k doporučovacím systémům, transformace atributů, stárnutí dat, vliv kontextu a obecně na co si dávat pozor při konstrukci reálných doporučovačů.
Konzultace dle domluvy v dubnu a květnu.
Prezentace referátů z článků na prvních dvou květnových cvičeních.
do 17.5.2015 23:59 DU-2 možnost posílat své řešení do evaluátoru, zároveň do stejného data odeslání zdrojových kódů na adresu peska@ksi.mff.cuni.cz. Do předmětu napište "NDBI021 source codes"
18.5. 2015 Třetí cvičení - vyhodnocení výsledků (každý si připravte prezentaci na cca 5 minut o tom jaké řešení jste zvolili, co se podařilo, co fungovalo a nefungovalo...).

Kostra jednoduchého dummy doporučovače v PHP
Pěkný úvod do problematiky doporučovacích systémů