Skip to content

Využití klasifikace při dolování dat

23 de Červenec de 2021
GettyImages 609179193 5a4676eb842b170037c6e8a5

Klasifikace je těžební technika, která přiřazuje kategorie ke kolekci dat, aby pomohla s přesnějšími předpovědi a analýzou. Klasifikace je jednou z několika metod, které mají zefektivnit analýzu velmi velkých datových souborů.

Proč klasifikace?

Velmi velké databáze se v dnešním světě stávají normou velká data. Představte si databázi s terabajty dat – terabajt je jeden bilion bajtů dat. Samotný Facebook drtí každý den 600 terabajtů nových dat (od roku 2014, kdy tyto specifikace oznámil naposledy). Primární výzvou velkých dat je, jak to pochopit. A naprostý objem není jediným problémem: velká data mají také tendenci být různorodá, nestrukturovaná a rychle se měnící. Zvažte audio a video data, příspěvky na sociálních médiích, 3D data nebo geoprostorová data. Tento druh dat nelze snadno kategorizovat ani organizovat. Ke splnění této výzvy byla vyvinuta řada automatických metod pro získávání užitečných informací klasifikace.

Jak klasifikace funguje

Cílem analytika je vytvořit soubor klasifikačních pravidel, která zodpoví otázku, učiní rozhodnutí nebo předpovídají chování. Nejprve je vyvinuta sada tréninkových dat, která obsahuje určitou sadu atributů a pravděpodobný výsledek. Úkolem klasifikačního algoritmu je zjistit, jak tato sada atributů dosáhne svého závěru. Zvažte společnost vydávající kreditní karty, která se snaží určit, kteří vyhlídky by měly nabídku kreditních karet dostat. Údaje o školení společnosti mohou zahrnovat:

název Stáří Rod Roční příjem Nabídka kreditní karty
John Doe 25 M 39 500 $ Ne
Jane Doe 56 F 125 000 $ Ano
Údaje o školení
Sloupce prediktorů Stáří, Rod, a Roční příjem určit hodnotu „predikčního atributu“ Nabídka kreditní karty. V tréninkové sadě je známý atribut prediktoru. Klasifikační algoritmus se poté pokusí určit, jak bylo dosaženo hodnoty atributu prediktor: jaké vztahy existují mezi prediktory a rozhodnutím? Vypracuje sadu pravidel predikce, obvykle prohlášení IF / THEN. Je zřejmé, že se jedná o jednoduchý příklad a algoritmus by potřeboval mnohem větší vzorkování dat než zde uvedené dva záznamy. Pravidla predikce budou pravděpodobně mnohem složitější, včetně dílčích pravidel k zachycení podrobností atributů. Dále je algoritmu dána „predikční sada“ dat, která se mají analyzovat, ale této sadě chybí atribut predikce (nebo rozhodnutí):

název Stáří Rod Roční příjem Nabídka kreditní karty
Jack Frost 42 M 88 000 $
Mary Murray 16 F 0 $
Data prediktoru
Tato data prediktoru pomáhají odhadnout přesnost pravidel predikce a pravidla jsou poté vylepšena, dokud vývojář nepovažuje předpovědi za efektivní a užitečné.

Každodenní příklady klasifikace

Za naší každodenní zkušeností spotřebitelů stojí klasifikace a další těžební techniky. Předpovědi počasí využívají klasifikační techniky k hlášení, zda bude den deštivý, slunečný nebo oblačný. Lékařská profese analyzuje zdravotní stav a předpovídá pravděpodobné lékařské výsledky. Typ klasifikační metody, Naive Bayesian, používá podmíněnou pravděpodobnost ke kategorizaci nevyžádaných e-mailů. Více od Lifewire

  • Ilustrace trsátka obklopená elektronickými spoji představujícími dolování dat

    Definování regresního statistického modelu

  • podnikatel pracující s virtuální obrazovkou

    Co přesně jsou „velká data“?

  • Správce databáze pracující u stolu

    Definování domény databáze

  • Obchodní lidé diskutovat o notebooku u stolu na schůzce

    Atribut databáze definuje vlastnosti tabulky

  • Člověk používající více počítačů a smartphone

    Co je šifrování typu end-to-end?

  • Kvantový interiér počítače

    Co je to kvantové počítání?

  • Co je dolování dat?

  • Žena s kol na straně silnice

    Cyclemeter GPS Bicycling App pro iPhone

  • Disk WD My Passport SSD

    Recenze SSD WD My Passport

  • Fotografie osoby sedící u stolu s šálkem kávy, drží iPhone X. Na obrazovce iPhone X je zobrazena řada ikon aplikací.

    Mobilní technologie: AI v telefonech

  • Architekt při pohledu na databázi v počítači

    Definice relace databáze

  • Kaspersky Total Security

    Recenze Kaspersky Total Security

  • Diagram vztahu mezi entitami

    Definice diagramu entita-vztah

  • Tři podnikatelé prohlížení datových grafů na velké obrazovce

    Co je shlukování K-znamená?

  • Osoba, která pomocí aplikace pro smartphone šetří a vydělává peníze.

    7 nejlepších aplikací šetřících peníze roku 2021

  • Ruce webového designéra pomocí digitálního tabletu

    Plná funkční závislost v normalizaci databáze

Záchranný drát

Následuj nás

  • Facebook

  • O nás
  • Inzerovat
  • Zásady ochrany osobních údajů
  • Zásady používání souborů cookie
  • Kariéra
  • Redakční pokyny
  • Kontakt
  • Podmínky použití
  • Ochrana osobních údajů v EU
  • Oznámení o ochraně osobních údajů v Kalifornii
  • DŮVĚRYHODNÉ

Vaše práva na soukromí

Lifewire a naši partneři třetích stran používají soubory cookie a zpracovávají osobní údaje, jako jsou jedinečné identifikátory, na základě vašeho souhlasu s ukládáním a / nebo přístupem k informacím v zařízení, zobrazováním personalizovaných reklam a pro měření obsahu, přehled publika a vývoj produktů. Chcete-li změnit nebo odvolat váš výběr souhlasu pro Lifewire.com, včetně vašeho práva vznést námitku, kde je použit oprávněný zájem, klikněte níže. Nastavení můžete kdykoli aktualizovat pomocí odkazu „Ochrana osobních údajů v EU“ v dolní části jakékoli stránky. Tyto volby budou globálně signalizovány našim partnerům a nebudou mít vliv na data procházení. Seznam partnerů (prodejců)

My a naši partneři zpracováváme údaje pro:

Aktivně pro identifikaci skenujte vlastnosti zařízení. Používejte přesná geolokační data. Ukládejte a / nebo přistupujte k informacím na zařízení. Vyberte přizpůsobený obsah. Vytvořte si osobní profil obsahu. Měření výkonu reklamy. Vyberte základní reklamy. Vytvořte si přizpůsobený profil reklam. Vyberte přizpůsobené reklamy. Aplikujte průzkum trhu a získejte informace o publiku. Měření výkonu obsahu. Vyvíjejte a vylepšujte produkty. Seznam partnerů (prodejců)