Ngram, nazývaný také N-gram, je statistická analýza obsahu textu nebo řeči, který je třeba najít n (číslo) nějakého druhu položky v textu. Položkou hledání mohou být nejrůznější věci, včetně fonémů, předpon, frází a písmen. Ačkoli je Ngram mimo výzkumnou komunitu nejasný, používá se v různých oblastech a má mnoho důsledků pro vývojáře, kteří kódují počítačové programy, které rozumějí přirozenému mluvenému jazyku a reagují na něj. V případě prohlížeče Google Books Ngram Viewer text, který má být analyzován, pochází z velkého počtu knih ve veřejné doméně, které Google naskenoval, aby naplnil svůj vyhledávač Google Books. Pro Google Books Ngram Viewer označuje Google text, který se chystáte hledat, jako korpus. Prohlížeč Ngram agreguje podle jazyka, i když můžete britskou a americkou angličtinu analyzovat samostatně nebo je spojit dohromady.
Jak Ngram Viewer funguje
-
Přejděte na Google Books Ngram Viewer na adrese books.google.com/ngrams.
-
Zadejte libovolnou frázi nebo fráze, které chcete analyzovat. Jednotlivé fráze oddělte čárkou. Google vám na začátek navrhne „Albert Einstein, Sherlock Holmes, Frankenstein“. Ve vyhledávání NGram Viewer položky rozlišují velká a malá písmena, na rozdíl od webového vyhledávání Google.
-
Vyberte časové období. Výchozí hodnota je 1800 až 2000.
-
Vyberte si korpus. Můžete vyhledávat cizojazyčné texty nebo anglické texty a kromě standardních voleb si můžete všimnout položek jako „angličtina (2009)“ nebo „americká angličtina (2009)“ v dolní části seznamu. Jedná se o starší korpusy, které Google od té doby aktualizoval, ale můžete mít nějaký důvod pro srovnání se starými datovými sadami. Většina uživatelů je může ignorovat a soustředit se na nejnovější korpusy.
-
Nastavte úroveň vyhlazení. Vyhlazení označuje, jak hladký je graf na konci. Nejpřesnější zobrazení odráží úroveň vyhlazení 0, ale toto nastavení může být obtížně čitelné. Výchozí hodnota je 3. Ve většině případů ji nemusíte upravovat.
-
lis Prohledejte spoustu knih.
Pomocí prohlížeče Google Ngram Viewer se můžete podrobně podívat na data. Pokud byste chtěli hledat sloveso Ryba místo podstatného jména Ryba, můžete tak učinit pomocí značek. V tomto případě byste hledali fish_VERB.
Google poskytuje na svém webu kompletní seznam příkazů a další pokročilé dokumentace pro použití s Ngram Viewer.
Co ukazuje Ngram?
Google Books Ngram Viewer vytváří graf, který představuje použití konkrétní fráze v knihách v průběhu času. Pokud jste zadali více než jedno slovo nebo frázi, každé je reprezentováno barevně odlišenou čarou, která je v kontrastu s ostatními hledanými výrazy. Je to podobné jako v Google Trends, pouze vyhledávání pokrývá delší období.
Případová studie
Zvažte případovou studii octových koláčů. Jsou zmíněny v knize Laury Ingalls Wilder’s Malý dům na prérii série. Zkoumání pomocí webového vyhledávání Google, kde se dozvíte více o octových koláčích, odhaluje, že jsou považovány za součást americké jižní kuchyně a skutečně jsou vyrobeny z octa. Naslouchají době, kdy ne každý měl přístup k čerstvé produkci v každém ročním období, ale je to celý příběh? Hledat Google Ngram Viewer octový koláč, a setkáte se s některými zmínkami o koláči na začátku i na konci 19. století, se spoustou zmínek ve čtyřicátých letech minulého století a s narůstajícím počtem zmínek v poslední době. S úrovní vyhlazení 3 však uvidíte náhorní plošinu nad zmínkami v 19. století. Protože za tu dobu nebylo vydáno mnoho knih a protože jsou data nastavena na plynulý, obraz je zkreslený. Pravděpodobně pouze jedna kniha zmínila octový koláč a byla zprůměrována, aby se vyhnula špičce. Nastavením vyhlazování na 0 uvidíte, že je to přesně tak. Špička se soustřeďuje na rok 1869 a je tu další špička v letech 1897 a 1900. Je nepravděpodobné, že by po zbytek času nikdo nemluvil o octových koláčích: Pravděpodobně všude pluly recepty, ale lidé o nich nepsali v knihách, a to je důležité omezení vyhledávání Ngram.