視乎已經(jīng)聽到或看到無數(shù)遍數(shù)據(jù)挖掘了,那么,你知道那是什么嗎?關(guān)于什么是數(shù)據(jù)挖掘,很多學(xué)者和專家給出了不同的定義,以下我們列出幾種常見的說法: 簡單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識。該術(shù)語實(shí)際上有點(diǎn)用詞不當(dāng)。數(shù)據(jù)挖掘應(yīng)當(dāng)更正確地命名
視乎已經(jīng)聽到或看到無數(shù)遍數(shù)據(jù)挖掘了,那么,你知道那是什么嗎?關(guān)于什么是數(shù)據(jù)挖掘,很多學(xué)者和專家給出了不同的定義,以下我們列出幾種常見的說法:“簡單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或‘挖掘’知識。該術(shù)語實(shí)際上有點(diǎn)用詞不當(dāng)。數(shù)據(jù)挖掘應(yīng)當(dāng)更正確地命名為‘從數(shù)據(jù)中挖掘知識’,不幸的是它有點(diǎn)長。許多人把數(shù)據(jù)挖掘視為另一個(gè)常用的術(shù)語‘數(shù)據(jù)庫中知識發(fā)現(xiàn)’或KDD的同義詞。而另一些人只是把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個(gè)基本步驟。” ——《數(shù)據(jù)挖掘:概念與技術(shù)》(FreeEIM J. Han and M. Kamber)
“數(shù)據(jù)挖掘就是對觀測到的數(shù)據(jù)集(經(jīng)常是很龐大的)進(jìn)行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對其有價(jià)值的新穎方式來總結(jié)數(shù)據(jù)。”——《數(shù)據(jù)挖掘原理》(David Hand, et al)
“運(yùn)用基于計(jì)算機(jī)的方法,包括新技術(shù),從而在數(shù)據(jù)中獲得有用知識的整個(gè)過程,就叫做數(shù)據(jù)挖掘。”——《數(shù)據(jù)挖掘--概念、模型、方法和算法》(Mehmed Kantardzic openeim)
“數(shù)據(jù)挖掘,簡單地說,就是從一個(gè)數(shù)據(jù)庫中自動(dòng)地發(fā)現(xiàn)相關(guān)模式。”——《構(gòu)建面向CRM的數(shù)據(jù)挖掘應(yīng)用》(Alex Berson, et al)
“數(shù)據(jù)挖掘(DM)是從大型數(shù)據(jù)庫中將隱藏的預(yù)測信息抽取出來的過程。”——《數(shù)據(jù)挖掘:機(jī)遇與挑戰(zhàn)》(John Wang)
而作為數(shù)據(jù)挖掘領(lǐng)域的華人第一人,韓家煒教授在《數(shù)據(jù)挖掘:概念與技術(shù)》的教學(xué)幻燈片中,給出一個(gè)更清晰的定義:“數(shù)據(jù)挖掘,就是從大型數(shù)據(jù)庫中抽取有意義的(非平凡的,隱含的,以前未知的并且是有潛在價(jià)值的)信息或模式的過程。”
這里我們可以看到數(shù)據(jù)挖掘具有以下幾個(gè)特點(diǎn):
l 基于大量數(shù)據(jù):并非說小數(shù)據(jù)量上就不可以進(jìn)行挖掘,實(shí)際上大多數(shù)數(shù)據(jù)挖掘的算法都可以在小數(shù)據(jù)量上運(yùn)行并得到結(jié)果。但是,一方面過小的數(shù)據(jù)量完全可以通過人工分析來總結(jié)規(guī)律,另一方面來說,小數(shù)據(jù)量常常無法反映出真實(shí)世界中的普遍特性。
l 非平凡性:所謂非平凡,指的是挖掘出來的知識應(yīng)該是不簡單的,絕不能是類似某著名體育評論員所說的“經(jīng)過我的計(jì)算,我發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,到本場比賽結(jié)束為止,這屆世界杯的進(jìn)球數(shù)和失球數(shù)是一樣的。非常的巧合!”那種知識。這點(diǎn)看起來勿庸贅言,但是很多不懂業(yè)務(wù)知識的數(shù)據(jù)挖掘新手卻常常犯這種錯(cuò)誤。
l 隱含性:數(shù)據(jù)挖掘是要發(fā)現(xiàn)深藏在數(shù)據(jù)內(nèi)部的知識,而不是那些直接浮現(xiàn)在數(shù)據(jù)表面的信息。常用的BI工具,例如報(bào)表和OLAP,完全可以讓用戶找出這些信息。
l 新奇性:挖掘出來的知識應(yīng)該是以前未知的,否則只不過是驗(yàn)證了業(yè)務(wù)專家的經(jīng)驗(yàn)而已。只有全新的知識,才可以幫助企業(yè)獲得進(jìn)一步的洞察力。
l 價(jià)值性:挖掘的結(jié)果必須能給企業(yè)帶來直接的或間接的效益。有人說數(shù)據(jù)挖掘只是“屠龍之技”,看起來神乎其神,卻什么用處也沒有。這只是一種誤解,不可否認(rèn)的是在一些數(shù)據(jù)挖掘項(xiàng)目中,或者因?yàn)槿狈γ鞔_的業(yè)務(wù)目標(biāo),或者因?yàn)閿?shù)據(jù)質(zhì)量的不足,或者因?yàn)槿藗儗Ω淖儤I(yè)務(wù)流程的抵制,或者因?yàn)橥诰蛉藛T的經(jīng)驗(yàn)不足,都會導(dǎo)致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數(shù)據(jù)挖掘的確可以變成提升效益的利器。
“數(shù)據(jù)挖掘”這個(gè)術(shù)語是在什么時(shí)候被大家普遍接受的,已經(jīng)難以考證,大約在上世紀(jì)90年代開始興起。其中還有一段趣話。在科研界,最初一直沿用“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”(即KDD,Knowledge Discovery in Database 5z20)。在第一屆KDD國際會議中,委員會曾經(jīng)展開討論,是繼續(xù)沿用KDD,還是改名為Data Mining(數(shù)據(jù)挖掘)?最后大家決定投票表決,采納票數(shù)多的一方的選擇。投票結(jié)果頗有戲劇性,一共14名委員,其中7位投票贊成KDD,另7位贊成Data Mining。最后一位元老提出“數(shù)據(jù)挖掘這個(gè)術(shù)語過于含糊,做科研應(yīng)該要有知識”,于是在科研界便繼續(xù)沿用KDD這個(gè)術(shù)語。而在商用領(lǐng)域,因?yàn)?ldquo;數(shù)據(jù)庫中的知識發(fā)現(xiàn)”顯得過于冗長,就普遍采用了更加通俗簡單的術(shù)語——“數(shù)據(jù)挖掘”。
嚴(yán)格地說,數(shù)據(jù)挖掘并不是一個(gè)全新的領(lǐng)域,它頗有點(diǎn)“新瓶裝舊酒”的意味。組成數(shù)據(jù)挖掘的三大支柱包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫等領(lǐng)域內(nèi)的研究成果,其它還包含了可視化、信息科學(xué)等內(nèi)容。數(shù)據(jù)挖掘納入了統(tǒng)計(jì)學(xué)中的回歸分析、判別分析、聚類分析以及置信區(qū)間等技術(shù),機(jī)器學(xué)習(xí)中的決策樹、神經(jīng)網(wǎng)絡(luò)等技術(shù),數(shù)據(jù)庫中的關(guān)聯(lián)分析、序列分析等技術(shù)。
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com