libsvm2.9數據格式


所有關於libsvm2.9的前期工作准備好以后,就必須考慮將自己的數據轉換為libsvm對應的格式來做分類驗證的問題

 

 

訓練與測試數據文件的格式如下所示

<label> <index1>:<value1> <index2>:<value2>…

.

.

.

每行包含一個實例,並且以字符’/n’結束。對於分類來講,<label>是整型數據,表示類別(支持多分類)。對於回歸來講,<label>是任意實數(浮點數),表示目標值。one-class SVM並不使用這個參數,所以使用什么數值都可以。除非使用預計算好的內核(稍候章節介紹),否則<index>:<value>是描述屬性值的。<index>(索引)是從1開始的整型數據,而<value>(值)是實數(浮點型)。索引必須升序排列。在測試文件中的標簽只是用於計算精確度或錯誤率。如果它們是未知的,那么只要將第一列賦任意數值

 

本包含有一個用於分類的示例數據文件,文件名是“heart_scale”。要驗證你的數據格式的正確性,請使用“tools/checkdata.py”工具(詳見文件“tools/README”)。

鍵入“svm-train heart_scale”,程序會讀讀入訓練數據並生成模型文件“heart_scale.model”。假設你有一個名為“heart_scale.t”的測試集,那么鍵入“svm-predict heart_scale.t heart_scale.model output”以測試預測精確度。文件“output”中含有預測的分類標簽。

本包中還有一些別的實用程序:

 

1.svm-scale(對數據進行歸一化):

        將輸入數據數值化的工具。

       用法:svmscale [-l lower] [-u upper] [-y y_lower y_upper] [-s save_filename] [-r restore_filename] filename (缺省值: lower = -1,upper = 1,沒有對y進行縮放) 其中:

       -l:數據下限標記;lower:縮放后數據下限;

       -u:數據上限標記;upper:縮放后數據上限;

       -y:是否對目標值同時進行縮放;y_lower為下限值,y_upper為上限值;(回歸需要對目標進行縮放,因此該參數可以設定為 –y -1 1 )

        -s save_filename:表示將縮放的規則保存為文件save_filename;

        -r restore_filename:表示將縮放規則文件restore_filename載入后按此縮放; f

        ilename:待縮放的數據文件(要求滿足前面所述的格式)。

 

     縮放規則文件可以用文本瀏覽器打開,看到其格式為:

     y
     lower upper min max x
     lower upper
     index1 min1 max1
     index2 min2 max2
„„ 其中的lower 與upper 與使用時所設置的lower 與upper 含義相同;index 表 示特征序號;min 轉換前該特征的最小值;max 轉換前該特征的最大值。

 

     數據集的縮放結果在此情況下通過DOS窗口輸出,當然也可以通過DOS的文件重定向符號“>”將結果另存為指定的文件。

     例:原始文件AORG,用svm-scale歸一化:svm-scale AORG >AORG.scale

 

    該文件中的參數可用於最后面對目標值的反歸一化。反歸一化的公式為:
    (Value-lower)*(max-min)/(upper - lower)+lower
    其中value為歸一化后的值,其他參數與前面介紹的相同。
    建議將訓練數據集與測試數據集放在同一個文本文件中一起歸一化,然后再將歸一化結果分成訓練集和測試集。


 

2.svmtrain(訓練數據,生成模型):

用法: svmtrain [options] training_set_file [model_file]
其中, options(操作參數):可用的選項即表示的涵義如下所示 -s svm類型:設置SVM 類型,默認值為0,可選類型有(對於回歸只能選3或4):
0 -- C- SVC 1 -- n - SVC 2 -- one-class-SVM 3 -- e - SVR 4 -- n - SVR -t 核函數類型:設置核函數類型,默認值為2,可選類型有: 0 -- 線性核:u'*v 1 -- 多項式核: (g*u'*v+ coef 0)deg ree 2 -- RBF 核:e( u v 2) g - 3 -- sigmoid 核:tanh(g*u'*v+ coef 0) -d degree:核函數中的degree設置,默認值為3;
-g g :設置核函數中的g ,默認值為1/ k ; -r coef 0:設置核函數中的coef 0,默認值為0; -c cost:設置C- SVC、e - SVR、n - SVR中從懲罰系數C,默認值為1; -n n :設置n - SVC、one-class-SVM 與n - SVR 中參數n ,默認值0.5; -p e :設置n - SVR的損失函數中的e ,默認值為0.1; -m cachesize:設置cache內存大小,以MB為單位,默認值為40; -e e :設置終止准則中的可容忍偏差,默認值為0.001; -h shrinking:是否使用啟發式,可選值為0 或1,默認值為1; -b 概率估計:是否計算SVC或SVR的概率估計,可選值0 或1,默認0; -wi weight:對各類樣本的懲罰系數C加權,默認值為1; -v n:n折交叉驗證模式。
其中-g選項中的k是指輸入數據中的屬性數。操作參數 -v 隨機地將數據剖分為n 部分並計算交叉檢驗准確度和均方根誤差。以上這些參數設置可以按照SVM 的類型和核函數所支持的參數進行任意組合,如果設置的參數在函數或SVM 類型中沒有也不會產生影響,程序不會接受該參數;如果應有的參數設置不正確,參數將采用默認值。training_set_file是要進行訓練的數據集;model_file是訓練結束后產生的模型文件,該參數如果不設置將采用默認的文件名,也可以設置成自己慣用的文件名。
本實驗中的參數-s取3,-t取2(默認)還需確定的參數是-c,-g,-p

另, 實驗中所需調整的重要參數是-c 和 –g,-c和-g的調整除了自己根據經驗試之外,還可以使用gridregression.py 對這兩個參數進行優化。(需要補充)
該優化過程需要用到Python(2.5),Gnuplot(4.2),gridregression.py(該文件需要修改路徑)。
然后在命令行下面運行:
python.exe gridregression.py -log2c -10,10,1 -log2g -10,10,1 -log2p -10,10,1 -s 3 –t 2 -v 5 -svmtrain E:/libsvm/libsvm-2.86/windows/svm-train.exe -gnuplot E:/libsvm/libsvm-2.86/gnuplot/bin/pgnuplot.exe E:/libsvm/libsvm-2.86/windows/train.txt > gridregression_feature.parameter
以上三個路徑根據實際安裝情況進行修改。
-log2c是給出參數c的范圍和步長 -log2g是給出參數g的范圍和步長 -log2p是給出參數p的范圍和步長上面三個參數可以用默認范圍和步長 -s選擇SVM類型,也是只能選3或者4 -t是選擇核函數 -v 10 將訓練數據分成10份做交叉驗證。默認為5
為了方便將gridregression.py是存放在python.exe安裝目錄下
trian.txt為訓練數據,參數存放在gridregression_feature.parameter中,可以自己命名。

搜索結束后可以在gridregression_feature.parameter中最后一行看到最優參數。
其中,最后一行的第一個參數即為-c,第二個為-g,第三個為-p,最后一個參數為均方誤差。前三個參數可以直接用於模型的訓練。

然后,根據搜索得到的參數,重新訓練,得到模型。

 

3.svm-predict(測試):

用法:svmpredict [options] test_file model_file output_file options(操作參數): -b probability_estimates:是否需要進行概率估計預測,可選值為0 或者1,默認值為0。 model_file 是由svmtrain 產生的模型文件;
test_file 是要進行預測的數據文件;
output_file 是svmpredict 的輸出文件,表示預測的結果值。
輸出結果包括均方誤差(Mean squared error)和相關系數(Squared correlation coefficient)。

 

 

4.svm-toy:

        簡單的圖形界面工具,它可以展示支持向 量機怎樣在二維空間(即平面)上將數據分類。你可以在該窗口上面單擊以繪制數據點。使用“change”按鈕來選擇類別1,2或3(也就是說,最多支持三 類),按“load”按鈕可以從文件載入數據,按“save”按鈕可以將數據保存到文件,按“run”按鈕可以獲得一個SVM模型(根據繪制的點集或從文 件載入的數據),按“clear”按鈕可以清屏。

 

        在該窗口的底部文本框內,你可以輸入參 數,參數的句法和“svm-train”一樣。

 

        注意:“load”和“save”只考 慮數據分類而不考慮回歸的情況。每個數據點擁有一個標簽(顏色,必須是1,2或3)和兩個屬性(橫坐標和縱座標),取值區間[0,1]。

 

 


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com