Како да ја користите алатката "Ngram Viewer" во Google Книги

А Нграм, исто така честопати нарекуван Н-грам е статистичка анализа на текст или говорна содржина за да се најде n (број) на некој вид на ставка во текстот. Тоа може да биде секакви нешта, како што се фонеми, префикси, фрази или букви. Иако N-грам е малку нејасен надвор од истражувачот, тој всушност се користи во различни полиња и има многу импликации за луѓето што прават компјутерски програми кои разбираат и реагираат со природниот говор. Тоа, накусо, ќе биде интерес на Google за идејата.

Во случајот со Google Books Ngram Viewer, текстот што треба да се анализира доаѓа од огромното количество книги што Google ги скенира од јавните библиотеки за да го населат пребарувачот на Google Книги . За Google Books Ngram Viewer, тие се однесуваат на текстот што ќе го пребарувате како "корпус". Капаларот во Ngram Viewer се поделени по јазик, иако можете да одделно анализирате британски и американски англиски или да ги групирате заедно. Тоа завршува со тоа што е супер интересно да се префрлате од британско на американско користење на термини и да ги видите графиконите промени.

Како функционира Нграм

  1. Одете во Google Books Ngram Viewer на books.google.com/ngrams.
  2. Предметите се чувствителни на големи букви, за разлика од Google Web пребарувањата, па не заборавајте да профитирате со соодветни именки.
  3. Впишете ја секоја фраза или фрази што сакате да ги анализирате. Бидете сигурни да ја одделите секоја фраза со запирка. Google сугерира, "Алберт Ајнштајн, Шерлок Холмс, Франкенштајн" за да започнете.
  4. Следно, внесете временски период. Стандардно е 1800 до 2000 година, но има и понови книги (2011 беше најновата дадена во документацијата на Google, но тоа може да се промени.)
  5. Изберете корпус. Можете да пребарувате странски јазици или англиски, а покрај стандардните избори, на дното може да забележите работи како "Англиски (2009) или американски англиски (2009)". Овие се постари корпуси кои Google ги има обновено, но може да имате некоја причина да направите споредби со старите збирки на податоци. Повеќето корисници можат да ги игнорираат и да се фокусираат на најновите корпорации.
  6. Поставете го нивото на измазнување. Измазнување се однесува на тоа колку е мазен графикот на крајот. Најпрецизна претстава би била ниво на измазнување од 0, но тоа може да биде тешко да се прочита. Стандардно е поставен на 3. Во повеќето случаи, не треба да го прилагодите ова.
  1. Притиснете го копчето за пребарување на многу книги . (Можете исто така да го притиснете само внесете во полето за барање.)

Што претставува Нграм?

Google Books Ngram Viewer ќе изведе графикон кој претставува употреба на одредена фраза во книгите низ времето. Ако сте внеле повеќе од еден збор или фраза, ќе видите линии со кодирани бои за да ги прикажете различните термини за пребарување. Ова е прилично слично на Google Trends , само пребарувањето опфаќа подолг временски период.

Еве еден пример за вистински живот. Бевме љубопитни за оцетните пити неодамна. Тие се спомнуваат во Малата куќа на Лора Ингалс Вајлдер во серијата Прери , но ние никогаш не сме слушнале за такво нешто. Најпрво го користевме веб-пребарувањето на Google за да научиме повеќе за оцетните пити. Очигледно, тие се сметаат за дел од американската Јужна кујна и навистина се направени од оцет. Тие слушаат назад кога не сите имале пристап до свежи производи во секое време од годината. Дали е тоа целата приказна?

Баравме Google Ngram Viewer, а има и некои споменувања на пита во раните и до доцните 1800-ти, многу се споменува во 1940-тите години и се поголем број спомени во последно време (можеби некоја пила носталгија.) Па, има некои проблем со податоците на ниво на измазнување од 3. Постои плато над спомените во 1800-тите. Сигурно немаше еднаков број на споменувања на една конкретна пита секоја година за пет години? Она што се случува е дека поради тоа што нема многу објавени книги во тоа време, и бидејќи нашите податоци се поставени да се изедначат, ја искривуваат сликата. Веројатно имаше една книга во која се споменува оцетната пита, и тоа едноставно се во просек за да се избегне скок. Со поставување на измазнување на 0, можеме да видиме дека токму тоа е случај. Спајк центри на 1869 година, а има уште еден скок во 1897 и 1900 година.

Дали никој не зборуваше за оцет пити за остатокот од времето? Веројатно зборувале за тие пити. Имаше веројатно дека рецепти лебдат насекаде. Тие едноставно не пишуваа за нив во книгите, и тоа е ограничување на овие пребарувања на Нграм.

Напредно пребарување на Ngram

Се сеќавате ли како ние рековме дека Ngrams може да се состои од сите видови на различни текстуални пребарувања? Google ви овозможува да се разбудите доста со Ngram Viewer, исто така. Ако сакате да пребарувате за риба глаголот наместо риба именката, можете да го сторите тоа со користење на ознаки. Во овој случај, би барале "fish_VERB"

Google обезбедува комплетна листа на команди што можете да ги користите и други напредни документи на нивната веб-страница.