總覽:Topic Overview

Sketching / Streaming

  • "Sketch" :代表有個 「運算/估計函式」能夠取得整體數據概略的呈現方式,C(X)。有時候函式會有兩個變數,可以得到C(X), C(Y) → C(x) 代表將「數據X被壓縮的數據」

  • 原因:當有大量數據需要傳送時,需要耗費很多資源,但若能在本地先行運算出較為簡單的估計結果時,就可以大量節省傳送成本。舉例:如果要運算A、B兩地資料的加總,若將兩地的資料統整再運算會耗費資源,若先行運算各自的總值再傳送加總,就可以很快速地算出結果。

  • "Streaming" :當數據繼續更新時,如何能夠繼續維持獲得 C(X)

Dimensionality Reduction

  • 動機:如何將資料有效地從高維降到低維,便可以加快運算效率

Large-scale machine learning problem

  • 以「回歸問題」舉例:yi = f(xi)+noise ,盡量找到 X 跟 Y 的關係式

    • 線性回歸:透過最小平方和的算法找到權重 W ,如果參數越大,則運算量就會越大

    • 還有其他種回歸:PCA,matrix completion

Compressed Serising

  • 動機:壓縮或快速獲得高維度且有結構的訊號

  • 舉例:圖片是高維度的資料,且分布幾乎沒有零散。但但像素相鄰之間的變化很微小,所以這些些微的變化就有很大的空間可以壓縮。像是:JPEG(img compression)、MRI

External Memory Model

  • 動機:因為隨機尋找硬碟的位置很昂貴,所以用測量硬碟的 I/O's 而不是指令的數量。
  • 因為大數據需要大量存取硬碟,所以關於記憶體的設計也需要很重視

Other Models (如果時間允許)

  • 比如像是,MapReduce

results for ""

    No results matching ""