Класификација во податоци за рударство

Класификацијата е техника за рударство на податоци која доделува категории на збирка на податоци со цел да помогне во попрецизни предвидувања и анализи. Исто така наречен понекогаш наречен Одделение дрво , класификацијата е еден од неколкуте методи наменети да ја направат анализата на многу големи бази на податоци ефективни.

Зошто класификација?

Многу големи бази на податоци стануваат норма во денешниот свет на "големи податоци". Замислете база на податоци со повеќе терабајти на податоци-терабајт е еден трилион бајти на податоци.

Само Фејсбук крши 600 терабајти на нови податоци секој ден (од 2014 година, последен пат кога ги пријавил овие спецификации). Примарниот предизвик за големи податоци е како да се направи смисла за тоа.

И чиста обем не е единствениот проблем: големите податоци, исто така, имаат тенденција да бидат разновидни, неструктурирани и брзо менување. Размислете за аудио и видео податоци, објави за социјални медиуми, 3D податоци или геопросторни податоци. Овој вид на податоци не е лесно категоризиран или организиран.

За да се одговори на овој предизвик, развиена е низа автоматски методи за извлекување на корисни информации, меѓу нив класификација .

Како функционира класификацијата

При опасност да се пренасочиме во технолошки разговори, ајде да разговараме за тоа како функционира класификацијата. Целта е да се создаде сет на правила за класификација кои ќе одговорат на прашање, да донесат одлука или да го предвидат однесувањето. За да започнете, се подготвува сет од податоци за обука кои содржат одреден сет на атрибути, како и веројатен исход.

Работата на алгоритамот за класификација е да открие како тој сет на атрибути да достигне до заклучок.

Сценарио : Можеби компанијата за кредитни картички се обидува да утврди кои изгледи треба да добијат понуда за кредитна картичка.

Ова може да биде низа податоци за обука:

Податоци за обука
Име Возраст Пол Годишен приход Понуда со кредитни картички
Џон До 25 М. 39.500 долари Не
Јане До 56 F 125.000 долари Да

Колоните на "предвидувачот" Возраст , род и годишен приход ја одредуваат вредноста на "атрибутот на предиктор" со понуда за кредитни картички . Во сетот за обука, атрибутот на предиктор е познат. Класичниот алгоритам потоа се обидува да утврди како е постигната вредноста на атрибутот на предиктор: кои односи постојат помеѓу предикторите и одлуката? Ќе развие множество правила за предвидување, обично изјава IF / THEN, на пример:

АКО (возраст> 18 или возраст <75) И годишен приход> 40.000 THEN Кредитна картичка = Да

Очигледно, ова е едноставен пример, и на алгоритмот ќе треба многу поголемо земање примероци од двете евиденција прикажани овде. Понатаму, правилата за предвидување најверојатно ќе бидат далеку покомплексни, вклучувајќи ги и под-правилата за да се фатат детали за атрибутот.

Потоа, на алгоритам се дава "предвидување во собата" на податоци за анализа, но ова множество нема атрибут за предвидување (или одлука):

Податоци за прогноза
Име Возраст Пол Годишен приход Понуда со кредитни картички
Џек Фрост 42 М. 88.000 долари
Мери Мареј 16 F $ 0

Овие податоци за индикатори помагаат да се процени точноста на правилата за предвидување, а правилата потоа се менуваат додека развивачот не ги смета прогнозите за ефективни и корисни.

Секојдневни примери за класификација

Класификација и други техники за рударство на податоци, стои зад најголемиот дел од нашето секојдневно искуство како потрошувачи.

Предвидените временски услови може да ја користат класификацијата за да пријават дали денот ќе биде дождлив, сончев или облачен. Медицинската професија може да ги анализира здравствените услови за да ги предвиди медицинските резултати. Тип на метод на класификација, Наив Bayesian, користи условена веројатност да се категоризираат спам пораки. Од детекција на измама до понуди на производи, класификацијата е зад сцената секој ден анализирање на податоци и производство на предвидувања.