Česká stop slova (stop words)

Stop slova (v angličtině stop words) jsou pojmy, které nenesou samy o sobě žádný význam. V češtině jde především o předložky, spojky a některá další slova. V optimalizaci pro vyhledávače získala stop slova zvláštní postavení díky výpočtu hustoty klíčových slov. Vzhledem k tomu, že sama žádný význam nenesou, působí jako výplň, kterou je dobré vypustit z titulku a URL stránky.

Seznam českých stop slov

Seznam stop slov jsem doplnil o některá další slova, o kterých se domnívám, že by se v URL nemusela vyskytovat. Slova jsou uvedena bez diakritiky:

a, aby, aj, ale, anebo, ani, aniz, ano, asi, avska, az, ba, bez, bude, budem, budes, by, byl, byla, byli, bylo, byt, ci, clanek, clanku, clanky, co, com, coz, cz, dalsi, design, dnes, do, email, ho, i, jak, jake, jako, je, jeho, jej, jeji, jejich, jen, jeste, jenz, ji, jine, jiz, jsem, jses, jsi, jsme, jsou, jste, k, kam, kde, kdo, kdyz, ke, ktera, ktere, kteri, kterou, ktery, ku, ma, mate, me, mezi, mi, mit, mne, mnou, muj, muze, my, na, nad, nam, napiste, nas, nasi, ne, nebo, nebot, necht, nejsou, není, neni, net, nez, ni, nic, nove, novy, nybrz, o, od, ode, on, org, pak, po, pod, podle, pokud, pouze, prave, pred, pres, pri, pro, proc, proto, protoze, prvni, pta, re, s, se, si, sice, spol, strana, sve, svuj, svych, svym, svymi, ta, tak, take, takze, tamhle, tato, tedy, tema, te, ten, tedy, tento, teto, tim , timto, tipy, to, tohle, toho, tohoto, tom, tomto, tomuto, totiz, tu, tudiz, tuto, tvuj, ty, tyto, u, uz, v, vam, vas, vas, vase, ve, vedle, vice, vsak, vsechen, vy, vzdyt, z, za, zda, zde, ze, zpet, zpravy,

Chybí podle Vás ve výčtu českých stop slov nějaké? Napište ho do komentáře pod článek!

Komentáře ke článku Česká stop slova (stop words)
Lukáš Vlček (bez ověření) 20. 1. 2011 01:06
Dobrý den, chci se zeptat, jestli máte odkaz na nějaké zdroje, odkud jste čerpal. Subjektivně se mi některá slova zdají diskutabilní (například: "strana"). Dík, Lukáš
Michal Janík 28. 1. 2011 00:16
Tento seznam jsme používali pro nastavení automatického generování URL. Z pohledu SEO je to dnes složitější. Seznam neřeší víceslovné fráze atp.
Václav Jan (bez ověření) 31. 1. 2011 13:32
Dobrý den, můžete napsat slova s diakritikou? Ne vždy je doplnění jednoznačné, např. "prave" --> "právě" nebo "pravé" atd. Děkuji, vjs
Michal Janík 31. 1. 2011 13:45

Seznam byl určený pro moduly CMS, které mají na starosti generování URL. Takto, jak je, se dá seznam stop slov použít např. v modulu Path auto pro Drupal a obdobných modulech. Osobně diakritiku v URL nedoporučuji.

Co se týká stop slov z pohledu SEO, tak je takovýto jednoduchý seznam vlastně k ničemu. Přečtěte si tento článek na blogu Fulltextového týmu Seznamu. Pěkně ukazuje, proč nelze jednoznačně chápat např. slůvko "v" jako stop slovo, které můžeme hodit za hlavu. Zapomněli bychom totiž na víceslovné vyhledávací dotazy.

Václav Jan (bez ověření) 31. 1. 2011 20:52
Děkuji moc za rychlou odpověď. Hledám seznam (stopwords) pro analýzu textu, realizace je v Python s package NLTK, proto můj dotaz. Ještě jednou děkuji moc, přivedl jste mne na myšlenku, jak stopwords řešit :-), máte u mne jeden CopyLeft, vjs
Michal Janík 31. 1. 2011 21:22
Jsem rád, že jsem mohl pomoci :o)
Poslat nový komentář
Obsah tohoto pole je soukromý a nebude veřejně zobrazen.
f_alová: