Ziskavani a zpracovani informaci z Webu

Program bude slouzit pro automaticke zpracovavani periodicky se menicich informaci na Webu (kurzy akcii, men, ceniky, aktualni zpravy).

Priklad pouziti: uzivatel najde na Internetu stranku obsahujici informaci, ktera je pro nej zajimava a rad by sledoval jeji vyvoj v case. Misto toho, aby se na stranku stale vracel, naspecifikuje "o jakou informaci jde a jakym zpusobem je pro nej zajimava". Program potom sleduje vyvoj teto informace automaticky a upozornuje uzivatele pouze na "pro nej zajimave zmeny".

Sledovana informace (povetsinou ciselneho charakteru, ale mozne je zpracovavat i textovou) bude na zadane strance lokalizovana uzivatelem specifikovanym zpusobem (cislo vety, odstavce, tabulky - cislo sloupce, radku, radek obsahujici klicove slovo.... kombinaci techto moznosti...). Tim se do jiste miry zaruci, ze i po zmene stranky (tedy po aktualizaci, zakladni struktura by musela pochopitelne zustat zachovana) bude mozne novou informaci na strance nalezt.

Ziskane informace se budou ukladat a uzivatel bude mit moznost je dale zpracovavat (automaticka tvorba statistik, souhrnu - pripadne jejich opetovne publikovani na Webu)

Uzivatel bude mit navic moznost specifikovat okolnosti (zmena sledovane informace, prudke zvyseni/snizeni ceny, nalezeni polozky v tabulce...) za kterych se provede nejaka akce (poslani emailu, SMSky...).


Uzivatel bude moci naspeficikovat tyto zalezitosti:

Vsechny tyto specifikace budou napsany v nejakem (existujicim/vlastnim) specifikacnim jazyce a ulozeny ve zvlastnich souborech v textove (citelne) podobe. Bude take vytvoren klient, ktery bude tyto speficikace generovat pomoci GUI. Urceni umisteni sledovane informace na strance (asi nejkritictejsi) lze v GUI realizovat napr. tak, ze se zobrazi dana stranka "WYSIWYG" a pote, co si uzivatel vybere objekt nesouci pozadovanou informaci (napr. konkretni cislo v tabulce), tak se zobrazi seznam moznych zpusobu specifikace umisteni tohoto objektu (prvni tabulka, tabulka s timto jmenem, tabulka za prvnim odstavcem...) a uzivatel si vybere ten, ktery co nejobecneji a zaroven jasne specifikuje dany objekt. (Pro automaticky generovane stranky by casto stacilo napr. "tabulka s klicovym slovem: jmeno meny, akcie"....). Navic pokud jiz nebude program schopen analyzovat stranku (moc velka zmena), tak o tom da vedet.


Jednotlive casti projektu (predbezny navrh):

  1. server - bezici na pocitaci pripojenem k Webu - cte specifikacni soubory aby vedel, co ma delat
  2. modul pro ziskavani informaci - spousten serverem v zadany cas
  3. modul pro zadavani ukolu - pro uzivatele (konfigurace po Internetu, pripadne pres WWW)
  4. modul pro zpracovani informaci - spousten serverem v zadany cas
  5. konfiguracni a administratorsky modul - spousten serverem v pripade potreby

Operacni system:

Navic pokud by byla mozna specifikace a konfigurace pres WWW, tak jakykoliv system s WWW prohlizecem.

Vedouci: zatim neni

Pocet studentu: 5

Kontaktni osoba: Lukas Kroc (lukas.kroc@st.mff.cuni.cz)