ubuntu14.04 安裝
pip install xgboost
報錯
sudo apt-get update
結果一樣的錯
解決方法:
sudo -H pip install --pre xgboost Successfully installed xgboost Cleaning up...
成功了!
過擬合
當你觀察訓練精度高,但檢測精度低,很可能你遇到過度擬合問題。
xgboost是速度快效果好的boosting模型。
Boosting分類器屬于集成學習模型,基本思想是把成百上千個分類準確率較低的樹模型組合起來,成為一個準確率很高的模型。這個模型會不斷地迭代,每次迭代就生成一顆新的樹。對于如何在每一步生成合理的樹,大家提出了很多的方法,我們這里簡要介紹由Friedman提出的Gradient Boosting Machine。它在生成每一棵樹的時候采用梯度下降的思想,以之前生成的所有樹為基礎,向著最小化給定目標函數的方向多走一步。在合理的參數設置下,我們往往要生成一定數量的樹才能達到令人滿意的準確率。在數據集較大較復雜的時候,我們可能需要幾千次迭代運算,如果生成一個樹模型需要幾秒鐘,那么這么多迭代的運算耗時,應該能讓你專心地想靜靜……
現在,我們希望能通過xgboost工具更好地解決這個問題。xgboost的全稱是eXtreme Gradient Boosting。正如其名,它是Gradient Boosting Machine的一個c++實現,作者為正在華盛頓大學研究機器學習的大牛陳天奇。他在研究中深感自己受制于現有庫的計算速度和精度,因此在一年前開始著手搭建xgboost項目,并在去年夏天逐漸成型。xgboost最大的特點在于,它能夠自動利用CPU的多線程進行并行,同時在算法上加以改進提高了精度。它的處女秀是Kaggle的希格斯子信號識別競賽,因為出眾的效率與較高的預測準確度在比賽論壇中引起了參賽選手的廣泛關注,在1700多支隊伍的激烈競爭中占有一席之地。隨著它在Kaggle社區知名度的提高,最近也有隊伍借助xgboost在比賽中奪得第一。
為了方便大家使用,陳天奇將xgboost封裝成了python庫。我有幸和他合作,制作了xgboost工具的R語言接口,并將其提交到了CRAN上。也有用戶將其封裝成了julia庫。python和R接口的功能一直在不斷更新,大家可以通過下文了解大致的功能,然后選擇自己最熟悉的語言進行學習。
命令行直接輸入
ipython notebook
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com