量化交易基礎-描述性分析
Photo by Naser Tamimi on Unsplash
金融數據分析是量化投資工作不可或缺的一環,有的投資者因為正確地分析數據而獲得巨額利潤,也有投資者因誤判訊息而錯失良機,可以說正確分析經濟金融數據是投資成功的一大關鍵。
— 蔡立崙
統計分析(Statical Analysis)
統計分析是以數據為基礎進行分析與推斷的方法,包括以下兩大部分。
將數據進行整理(Organization),如排序、統計頻數(又稱次數)、繪製頻數分佈等,也可以計算指標對數據進行總結(Summarization),包括平均數、中位數、最大與最小值等,對已知數據進行整理、歸類、簡化或繪製圖表來呈現數據特徵是描述性統計主要的內容。
對於某一特定事物所有可能發生的結果形成的集合,稱之為母體(Population),而其中一部分可觀察到的結果則稱為樣本(Sample)。透過分析有限樣本推測母體的特徵是推論統計主要的工作內容,也是統計分析的重點所在。
抽樣的方法是統計學中重要的環節,樣本的好壞很大程度影響了推論統計的結果,所以抽樣方法希望最大程度上保證抽取出的樣本可以充分的包含母體的特徵訊息。常見的方法有簡單抽樣(Simple Random Sampling)、系統抽樣(Systematic Sampling)、分層抽樣(Stratified Sampling)等。
數據類型(Data Type)
- 定性數據(Qualitative Data)
定性數據是呈現事物性質特徵的數據,如比特幣與以太幣屬於虛擬貨幣、台積電(2330)與元大台灣50(0050)屬於股票,那麼虛擬貨幣與股票即為定性數據。
- 定量數據(Quantitative Data)
定量數據是呈現事物數量特徵的數據,由不同大小的數字與單位組成,例如股票的收盤價、日漲幅、年增率等。
圖表(Figure)
資料視覺化是最直觀瞭解數據特徵的方法,常見的圖表有以下種。
- 直方圖
可以快速地觀察數據分佈情況,進階分析可以再計算偏度(Skew)來查看資料集中情況與峰度(Kurtosis)來確定資料的常態性。
- 折線圖
觀察定量數據變化的情形,如股票收盤價。
- 散佈圖
查看二維數據彼此之間的分布情況
位置指標
描述數據的位置特性常用的指標
- 樣本平均數
- 幾何平均數
- 中位數
- 眾數
- 百分位數
離散指標
描述數據離散程度的指標
- 全距
- 平均絕對偏差
- 變異數
- 標準差
參考資料:《金融科技實戰Python與量化投資》