單字離散化的問題:
錯失尚未增進字典裏面的字詞,若需要修改會需要大量人力
電腦很難計算兩個字詞的相似性
主流統計方式的NLP,將單字視為「原子性」(atomic)的符號,以"one-hot"的方式表現,如下圖。
兩個演算法:
Skip-grams (SG):
Stochastic Gradients Descent(SGD):將多次的運算結果加總再更新
缺點:隨著單字量的增加,要更多儲存空間,但儲存的內容很稀疏 (sparse) → 分類的模型會比較不 robust