winsor var1, gen(var11) p(.05) 先安裝這個命令后可以直接用
大家在寫論文時可能經常會遇到大數據樣本中異常數據批量剔除的問題,本文在于向大家推薦在Stata中運用winsorize方法,來對數據進行處理(縮尾使數據平滑,或直接刪除),經試驗有效,希望有所幫助。
材料/工具
Stata(網上有面安裝款,解壓能直接運行),實驗數據
比如對變量size在1%的水平下進行winsorize處理,并生成新變量size_w,命令為winsor size,gen(size_w) p(0.01),像這些比較基礎的問題一把都可以直接搜到答案的
方法
打開stata,在命令行輸入ssc install winsor2, replace,自動安裝 winsor2
一個分類進行描述統計的命令(sum的進階版): tabstat price weight length, by(foreign) stat (me sd N) nototal longstub 按照foreign分類,對 price weight length進行描述統計,統計量分別包括me(均值) sd(標準差) N(樣本數) 星號不
準備數據(注意輸入格式)
如果要對多個變量縮尾,例如下。對一個變量縮尾也是一樣。 local vlist "roe size lev" foreach v of local vlist{ winsor `v', gen(`v'_w) p(0.01) }
導入數據File-Inport
winsor var1, gen(var11) p(.05) 先安裝這個命令后可以直接用
輸入命令winsor2 變量名 變量名, replace cuts(1 99),此條命令是先找到各個變量的1%,99%所對應的分位數,比如對于變量ac1,其分位數分別為a、b,那么將數據中小于a的數替換成a,將大于b的數替換成b,原始數據直接變為新數據,這樣就是縮尾,使數據平滑(口徑為1%)。若輸入命令winsor2 變量名 變量名, replace cuts(1 99) trim,則不替換,將小于a和大于b的直接刪除
stata數據分析。 在規定條件下,傳感器校準曲線與擬合直線間的最大偏差(ΔYmax)與滿量程輸出(Y)的百分比,稱為線性度(線性度又稱為“非線性誤差”),該值越小,表明線性特性越好。表示為公式如下: δ=ΔYmax/ Y*100%? ±1%表示最大偏差ΔYmax為
最后一張圖顯示的是命令winsor2 ac1 ac2, replace cuts(1 99) trim命令的執行結果,大家看到數據表中的“.”,即是刪除完異常值后的結果,批量處理后可以File-Export將數據導出,在Excel上排序后即可將其刪除(或在STATA上用其他命令也可)
比如對變量size在1%的水平下進行winsorize處理,并生成新變量size_w,命令為winsor size,gen(size_w) p(0.01),像這些比較基礎的問題一把都可以直接搜到答案的
擴展閱讀,以下內容您可能還感興趣。
怎么在stata中將數據縮尾10%處理?最好寫出程序代碼,O(∩_∩)O謝謝!
winsor var1, gen(var11) p(.05)
先安裝這個命令后可以直接用本回答被提問者和網友采納
所有連續變量進行1%縮尾處理是什么意思?
stata數據分析。
在規定條件下,傳感器校準曲線與擬合直線間的最大偏差(ΔYmax)與滿量程輸出(Y)的百分比,稱為線性度(線性度又稱為“非線性誤差”),該值越小,表明線性特性越好。表示為公式如下:
δ=ΔYmax/ Y*100%?
±1%表示最大偏差ΔYmax為滿量程輸出Y的±1%
拓展:其他相關精度誤差定義如下:
1.絕對誤差:實測值與理想值之差;
2.相對誤差:被測點的絕對誤差與被測點的理想值之比;
3.引用誤差:被測點的絕對誤差與基準值(量程)之比;
4.基本誤差:在標準條件下,基準值(量程)范圍內的引用誤差;
5.線性誤差:實測曲線與理想直線之間的偏差;
6.精度:由傳感器的基本誤差極限和影響量(如溫度變化、濕度變化、電源波動、頻率改變等)引起的改變量極限確定。
7.線性范圍:傳感器在線性工作時的可測量范圍。
stata中的數據縮尾調整怎么弄?具體的程序是什么?
help winsor
怎樣用STATA對數據進行Winsorize
比如對變量size在1%的水平下進行winsorize處理,并生成新變量size_w,命令為winsor size,gen(size_w) p(0.01),像這些比較基礎的問題一把都可以直接搜到答案的
STATA中如何將foreach循環和縮尾處理結合起來一次性對多個變量進行縮尾
一個分類進行描述統計的命令(sum的進階版):
tabstat price weight length, by(foreign) stat (me sd N) nototal longstub
按照foreign分類,對 price weight length進行描述統計,統計量分別包括me(均值) sd(標準差) N(樣本數)
星號不知怎么一并加進去,你檢測完手工加吧……追問我不是要做描述統計啊。。。
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com