<ins id="pbxhv"></ins>
<form id="pbxhv"><nobr id="pbxhv"></nobr></form>
    <address id="pbxhv"></address>

    <noframes id="pbxhv">
    <form id="pbxhv"><th id="pbxhv"><progress id="pbxhv"></progress></th></form>

      <address id="pbxhv"><address id="pbxhv"><listing id="pbxhv"></listing></address></address>
        首頁 > 大數據 > 正文

        數據科學異常值檢測原理之經驗法則

        2020-03-19 12:04:30  來源:阿里云棲社區

        摘要:數據樣本符合標準正態分布,正態分布的核心是中心極限定理即:如果一個事物受到多種因素的影響,不管每個因素本身是什么分布,它們加總后,結果的平均值就是正態分布。
        關鍵詞: 數據科學
          前提:
         
          數據樣本符合標準正態分布,正態分布的核心是中心極限定理即:如果一個事物受到多種因素的影響,不管每個因素本身是什么分布,它們加總后,結果的平均值就是正態分布。如果要符合正態分布則這些因素必須彼此獨立,彼此不獨立的各項因素會互相加強影響,那么就構不成正態分布。(還有對數正態分布是指各種因素對結果的影響不是相加,而是相乘)
         
          經驗法則原理:
         
          標準正態分布下的曲線為鐘型曲線,期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布。因此對于一組數據,如果符合正態分布,則可以通過經驗法則來檢測異常值,同圖中可以發現,68.2%的測量值落在μ值處正負一個標準差σ的區間內,95.4%的測量值將落在μ值處正負兩個標準差σ的區間內,99.7%的值落在μ值處正負三個標準差σ的區間內。因此,對于一組符合正態分布的數據,如果某個值距離μ值超過三個標準差σ則可以判斷這個值屬于異常數據。
         
        \
         
          計算步驟:
         
          μ值:μ是遵從正態分布的隨機變量的均值,由于前提是各種因素對結果的影響為相加,因此μ值的計算可以為樣本數據的算術平均值。
         
          標準差σ:所有數據減去其平均值的平方和,所得結果除以該組數之個數N(數據集為總體數據情況,一般用于大數據算法)或者個數N減1(數據集為樣本數據情況,認為數據集不是總體數據而是總體數據的一部分,一般用于統計學),再把所得值開根號,所得之數就是這組數據的標準差。
         
        \
         
          判斷邏輯:計算μ+3σ,μ-3σ,當單個數據大于μ+3σ或者小于μ-3σ時,認為此數據為異常值,因為按照經驗法則,此數據在數據集的99.7%范圍外。

        第三十屆CIO班招生
        法國布雷斯特商學院碩士班招生
        北達軟EXIN網絡空間與IT安全基礎認證培訓
        北達軟EXIN DevOps Professional認證培訓
        責編:baiyl
        三级床上长片完整版录像 - 视频 - 在线观看 - 影视资讯 - 品爱网