歡迎來(lái)到 常識(shí)詞典網(wǎng) , 一個(gè)專業(yè)的常識(shí)知識(shí)學(xué)習(xí)網(wǎng)站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
雖然不能這么絕對(duì)的判斷一定誰(shuí)比誰(shuí)重要,但在實(shí)際應(yīng)用中很多時(shí)候的確是數(shù)據(jù)更加重要。有幾方面的原因:在很多問(wèn)題中,算法的『好壞』在沒有大量有效數(shù)據(jù)的支撐下是沒有意義的。換句話說(shuō),很多算法得到的結(jié)果的質(zhì)量完全取決于其和真實(shí)數(shù)據(jù)的擬合程度。如果沒有足夠的數(shù)據(jù)支撐、檢驗(yàn),設(shè)計(jì)算法幾乎等于閉門造車。
很多算-有一堆可調(diào)參數(shù)。這些參數(shù)的選擇并沒有什么標(biāo)準(zhǔn)可依,無(wú)非是扔給大量數(shù)據(jù),看參數(shù)的變化會(huì)帶來(lái)什么樣的結(jié)果的變化。大量、有效的數(shù)據(jù)成為優(yōu)化這類算法的唯一可行方法。
更極端的例子是,算法本身很簡(jiǎn)單,程序的完善全靠數(shù)據(jù)訓(xùn)練。比如神經(jīng)網(wǎng)絡(luò)。
對(duì)于很多成熟的算法,優(yōu)化算法的增量改善通常遠(yuǎn)小于增大輸入數(shù)據(jù)(這是個(gè)經(jīng)濟(jì)性的考慮)。
比如問(wèn)題中舉例的 Google。在它之前的搜索引擎已經(jīng)把基于網(wǎng)頁(yè)內(nèi)容的索引算法做得很好了,要想有更大的改善需要換思路。PageRank 算法的采用大大增加了輸入的數(shù)據(jù)量,而且鏈接數(shù)據(jù)本身對(duì)于網(wǎng)頁(yè)排名相當(dāng)關(guān)鍵(當(dāng)然他們也做了大量算法的優(yōu)化)?!静逶挘涸谶@樣的思想指導(dǎo)下,Google 想要插手社交網(wǎng)絡(luò)或微博也不足為奇了吧?實(shí)時(shí)搜索、排名沒有真人的互動(dòng)怎么可能?!縉etflix 挑戰(zhàn)賽的例子中,Netflix 本身的推薦算法也是優(yōu)化到極致了。再?gòu)乃惴ū旧砣フ腋倪M(jìn)之處,投入產(chǎn)出比太低。引文中的學(xué)生僅僅是加入了 IMDB 數(shù)據(jù)庫(kù)關(guān)于電影分類(從而更加明確觀眾的偏好)就能帶來(lái)比復(fù)雜算法更加顯著的改善,試想如果他們能拿到 Rotten To-toes 的數(shù)據(jù)會(huì)怎樣?W-en people are equally -art, big data wins.這個(gè)結(jié)論的悲摧之處在于,在類似行業(yè)中,今后小的創(chuàng)業(yè)公司想要打敗巨頭就不那么容易。要么要改變思路,要么要改變策略。指望靠小聰明扳倒大象會(huì)很成問(wèn)題。當(dāng)然這也不是絕對(duì)的。比如典型的反例(算法比數(shù)據(jù)重要)是 Google 剛被批準(zhǔn)收購(gòu)的 ITA Software。這家牛 B 烘烘(估計(jì)是現(xiàn)存最大的 Lisp s-op)的公司的機(jī)票搜索引擎驅(qū)動(dòng)著世界各大航空公司、票務(wù)中介的后臺(tái)系統(tǒng)。它的數(shù)據(jù)來(lái)自一個(gè)各大航空公司授權(quán)的公司,其他競(jìng)爭(zhēng)者也可以花錢(雖然不便宜)買到同樣的數(shù)據(jù)。但它的牛 B 之處在于能從同樣的數(shù)據(jù)里比別人更快挖出更好的結(jié)果。答案 2:
我強(qiáng)烈同意數(shù)據(jù)比算法重要!雖然我們可以打官腔說(shuō)這兩個(gè)同樣重要,但如果是一個(gè)資深的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究人員,絕對(duì)不會(huì)掩飾他們對(duì)數(shù)據(jù)的渴望,當(dāng)然對(duì)他們來(lái)說(shuō)設(shè)計(jì)好的算法是很容易的,但好的數(shù)據(jù)卻是不容易拿到的。答案 3:
數(shù)據(jù)比算法更重要,這是有一定道理的,但是在拿它當(dāng)信條之前,必須知道在什么場(chǎng)景下它有道理。所有的格言都一樣,是對(duì)態(tài)度簡(jiǎn)短有力的描述,但因?yàn)楹?jiǎn)短,就不可能全面。比如“成功在于堅(jiān)持”,當(dāng)然有道理,但不加分析地事事堅(jiān)持,就很沒道理了。數(shù)據(jù)比算法更重要,它的意義在于告訴我們,在試圖設(shè)計(jì)更復(fù)雜的算法去提高性能之前,先看看有沒有辦法收集更多的、質(zhì)量更高的數(shù)據(jù),因?yàn)檫@往往是提高性能更簡(jiǎn)潔有效的手段。另外,除了先驗(yàn)知識(shí)外,算法能達(dá)到的最佳性能,受限于數(shù)據(jù)所提供的有用信息容量,當(dāng)算法性能接近這個(gè)容量時(shí),不管你再怎么改進(jìn)算法,基本都沒有意義了,唯一的手段就是去獲得更多有用的數(shù)據(jù)。但要注意的是,這句話的意思決不是說(shuō)算法沒有用,或者沒有必要去研究算法,好的算法之所以好就在于它能充分地利用數(shù)據(jù),如果你的算法根本就不能有效利用數(shù)據(jù),獲取再多的數(shù)據(jù)也是徒勞。具體到Anand Rajara-n的帖子,我記得Netflix Prize獲獎(jiǎng)團(tuán)隊(duì)主要成員Ye-uda Koren有一個(gè)評(píng)論:在他們的實(shí)驗(yàn)里,IMDB的數(shù)據(jù)根本沒用。因?yàn)镮MDB的數(shù)據(jù)主要能用來(lái)描述item-item關(guān)系,如果Netflix Prize競(jìng)賽中這方面數(shù)據(jù)稀疏,那IMDB的數(shù)據(jù)就是很好的補(bǔ)充。但是Netflix Prize競(jìng)賽中,item數(shù)量只有不到兩萬(wàn),提供的數(shù)據(jù)已經(jīng)足夠構(gòu)建item-item關(guān)系,根本用不著IMDB的數(shù)據(jù)。Netflix Prize競(jìng)賽中數(shù)據(jù)的不足主要在于user-item關(guān)系得不到充分描述,因?yàn)閡ser數(shù)量太大了(50萬(wàn)?)。剛才看了看帖子,沒有找到這條評(píng)論,可能是在別人轉(zhuǎn)述的帖子上Ye-uda Koren做了評(píng)論。答案 4:
程序 = 數(shù)據(jù)結(jié)構(gòu) + 算法,數(shù)據(jù)結(jié)構(gòu)用來(lái)干啥的,裝數(shù)據(jù)的呀。 數(shù)據(jù)能干啥?數(shù)據(jù)是信息的源泉,沒有足夠的數(shù)據(jù),就沒有信息,信息技術(shù)沒有信息啥都沒有。 算法能干啥?把數(shù)據(jù)中信息提取出來(lái),不經(jīng)過(guò)提取,數(shù)據(jù)還是數(shù)據(jù),變不成有用的信息。 這倆不是并列的關(guān)系,而是一體的,如何能說(shuō)誰(shuí)重要呢?腦子重要還是心臟重要,你給我說(shuō)說(shuō)。 此外,數(shù)據(jù)的好壞如何衡量?不是越多越好,當(dāng)然數(shù)據(jù)越多往往所蘊(yùn)含的信息越大,這個(gè)容易看得出來(lái);算法的好壞如何衡量?不是越復(fù)雜約好,能從海量的垃圾中找到有用的信息的算法就是好的算法,雖然不這么復(fù)雜,不是所有的人都能看到這點(diǎn)。 我最想說(shuō)的是什么?如果不是事不關(guān)己的旁觀者,數(shù)據(jù)往往是自己能拿到最多的數(shù)據(jù),然后根據(jù)自己的這些數(shù)據(jù)去找最合適的算法。答案 5:
我認(rèn)為算法和數(shù)據(jù)不能割裂開來(lái)看。寬泛一點(diǎn)說(shuō),考慮采用什么樣的數(shù)據(jù)也是算法設(shè)計(jì)中的一部分。答案 6:
嚴(yán)格角度講,數(shù)據(jù)重要,算法也重要。但是,我覺得大多數(shù)情況下,數(shù)據(jù)更加重要。第一,算法對(duì)于整個(gè)研究領(lǐng)域而言是相對(duì)透明的,你能想到的方法別人也可以想到,一般成熟的算法都是已經(jīng)提出來(lái)兩三年的,是業(yè)界公認(rèn)的;第二,數(shù)據(jù)往往更加事倍功半,算法改進(jìn)很難(如果已經(jīng)有一定基礎(chǔ)的話),但是,如果能得到優(yōu)質(zhì)數(shù)據(jù),一旦數(shù)據(jù)量達(dá)到原來(lái)數(shù)倍甚至更多的增加,發(fā)現(xiàn)效果會(huì)得到十分明顯的改善;第三,優(yōu)質(zhì)的數(shù)據(jù)往往能為算法提供方向,甚至直接驅(qū)動(dòng)需求;機(jī)器學(xué)習(xí)領(lǐng)域常出現(xiàn)這樣的情況,在一個(gè)數(shù)據(jù)集上得到的結(jié)論往往在一個(gè)更大更復(fù)雜的數(shù)據(jù)集上變得不同(有人做過(guò)實(shí)驗(yàn),采用一種公認(rèn)很差的算法能在一些曾經(jīng)被使用的比較toy的數(shù)據(jù)集上取得比好算法差不多甚至更好的效果),所以,好的接近實(shí)際應(yīng)用的數(shù)據(jù)集才能告訴什么是真正好的算法;而對(duì)實(shí)際數(shù)據(jù)分析的結(jié)果往往會(huì)改變我們固有的對(duì)主要問(wèn)題的觀念,就是你覺得重要的不一定重要,你沒注意的反而是影響問(wèn)題的最重要因素。第四,好算法常有而優(yōu)質(zhì)數(shù)據(jù)不常有;看-總是可以看到更多更好的idea,但是優(yōu)質(zhì)數(shù)據(jù)(比如淘寶)卻是可遇而不可求;答案 7:
數(shù)據(jù)可以直接賣錢,算法要等算出數(shù)據(jù)才能賣錢。答案 8:
還是不要這么比較吧,意義不大。具體問(wèn)題要具體分析。雖然我這說(shuō)了和沒說(shuō)一樣,我只是不同意這樣做這樣的比較。答案 9:
借用一個(gè)比方,要做魚香肉絲,算法是菜譜,數(shù)據(jù)是里脊胡蘿卜。沒有菜譜,做出來(lái)的可能是鍋包肉或溜肉段,但做不出來(lái)鍋包肉;反過(guò)來(lái),沒有原料肯定不行,原料多了,存在進(jìn)一步改良菜譜的可能,鍋包肉有了新的口味。理解了二者的關(guān)系就足夠了,非要分清誰(shuí)更重要,圖什么呢?答案 10:
算法和數(shù)據(jù)是一件事的多個(gè)面,您舉的例子里,我看到的主要評(píng)價(jià)標(biāo)準(zhǔn)就是“數(shù)據(jù)挖掘結(jié)果的有效性”這一點(diǎn)。而從其中拆分出的“算法 和 數(shù)據(jù) 孰輕孰重”的問(wèn)題似乎是要在一元標(biāo)準(zhǔn)上建立兩個(gè)主次標(biāo)準(zhǔn),我認(rèn)為這樣做只會(huì)讓這件事更糊涂。 如果想知道現(xiàn)在的時(shí)間,最好只看一個(gè)表。對(duì)于做事來(lái)說(shuō),就是只選擇一個(gè)參照系來(lái)做評(píng)判,即使所選擇的參照系(“表”)不太準(zhǔn),你也能得到一個(gè)比較清晰的結(jié)論。如果再拆分出更多的“表”來(lái)評(píng)價(jià)這件事,不僅把問(wèn)題復(fù)雜化了,也增加了很多無(wú)效的思考工作。在很多領(lǐng)域其實(shí)都會(huì)出現(xiàn)這種現(xiàn)象,比如有的老板認(rèn)為績(jī)效需要考勤作為基礎(chǔ),為了提高績(jī)效而抓員工的考勤,從而制定出考勤+績(jī)效的雙重考核標(biāo)準(zhǔn),這樣看起來(lái)很科學(xué),實(shí)際上更多只是徒增了管理成本,我認(rèn)為這是費(fèi)力不討好的。答案 11:
LZ的問(wèn)題就好像 廚藝和食材哪個(gè)重要。。答案 12:
巧婦難為無(wú)米之炊,沒有數(shù)據(jù),再牛b的算法也是沒有意義的。答案 13:
想起了以前看過(guò)的一篇-,在big data的數(shù)據(jù)集,簡(jiǎn)單算法也可以達(dá)到比較理想的效果答案 14:
對(duì)于同一算法f,性能如下遞增f(x) 數(shù)據(jù):xf(x+) 海量數(shù)據(jù):x+f(x*) 好的衍生數(shù)據(jù):x*f(x+*) 海量好的衍生數(shù)據(jù):x+*選擇什么算法f,看問(wèn)題復(fù)雜性和效率的重要與否。不過(guò)當(dāng)有海量好的衍生數(shù)據(jù),好的算法帶來(lái)的改善不會(huì)太明顯。另外,挖掘出好的數(shù)據(jù)(feature engineering,mining...)是一個(gè)費(fèi)時(shí)費(fèi)力試錯(cuò)的工作,非常依賴與你的洞察力和采用的算法。答案 15:
實(shí)際應(yīng)用中,算法為數(shù)據(jù)服務(wù)?,F(xiàn)在看來(lái),數(shù)據(jù)為王是一個(gè)大勢(shì)。很多領(lǐng)域,因?yàn)閿?shù)據(jù)量的問(wèn)題,已經(jīng)漸漸變成大企業(yè)才能玩得轉(zhuǎn)的了。答案 16:
問(wèn)題類似 好的食材重要,還是好廚具重要?看似都重要,不過(guò)說(shuō)實(shí)話,好食材比好廚具稀缺多了。不過(guò)對(duì)于大數(shù)據(jù)集,研究的組合有無(wú)限多種,先確定要自己要分析什么比較重要。答案 17:
算法就那么多,數(shù)據(jù)卻不是想要就能有的,于是這個(gè)說(shuō)法在多數(shù)情況下就成立了。要是能無(wú)條件獲得到互聯(lián)網(wǎng)的任意數(shù)據(jù)就無(wú)敵了...答案 18:
一個(gè)是雪中送炭,一個(gè)是錦上添花。沒有諸葛亮,只有一群臭皮匠難成大器;有了諸葛亮,卻不能充分發(fā)揮其才能,也是白瞎答案 19:
沒有絕對(duì)的東西,要看在什么條件下答案 20:
在一堆繁雜的數(shù)據(jù)面前,好的算法尤為重要,沒有算法,你壓根不知道這一堆是啥東西!答案 21:
讓人啼笑皆非的描述,因?yàn)樗惴?,其?shí)是處理數(shù)據(jù)的(廣義的)。 存在兩個(gè)過(guò)程,數(shù)據(jù)的表述和數(shù)據(jù)的處理(流動(dòng)),這從來(lái)就不是誰(shuí)重要誰(shuí)不重要的問(wèn)題,而是缺了誰(shuí),就沒法運(yùn)行的問(wèn)題。答案 22:
我認(rèn)為這兩者不能直接比較,并且這兩者的比較沒有意義。只是可能來(lái)說(shuō),在不同階段數(shù)據(jù)顯得更重要,而另外的階段如何做好算法則是更重要了。答案 23:
在數(shù)據(jù)挖掘領(lǐng)域當(dāng)然是數(shù)據(jù)更重要。在解決大部分工程性問(wèn)題的時(shí)候,數(shù)據(jù)結(jié)構(gòu)往往比算法分析更實(shí)用。因此似乎很容易得出數(shù)據(jù)比算法重要的結(jié)論,但算法更多體現(xiàn)的是一種思想,是一種思考并解決問(wèn)題的方法,數(shù)據(jù)結(jié)構(gòu)的選擇更是這種思想的體現(xiàn)。答案 24:
很顯然這種說(shuō)法是不科學(xué)的。答案 25:
不同意這么絕對(duì)的說(shuō)法. 算法必須有數(shù)據(jù)才能執(zhí)行, 問(wèn)題是沒了算法數(shù)據(jù)就是垃圾下一篇:中國(guó)那么多的事后諸葛、馬后炮? 下一篇 【方向鍵 ( → )下一篇】
上一篇:西方上流社會(huì)似乎格外喜歡加烈葡萄酒,呢? 上一篇 【方向鍵 ( ← )上一篇】
快搜