資料內(nèi)容:
第二章 機器學(xué)習(xí)基礎(chǔ)
機器學(xué)習(xí)起源于上世紀50年代,1959年在IBM工作的Arthur Samuel設(shè)計了一個下棋程序,這個程序具有學(xué)習(xí)的能力,它可以在不斷的對弈中提高自己。由此提出了“機器學(xué)習(xí)”這個概念,它是一個結(jié)合了多個學(xué)科如概率論,優(yōu)化理論,統(tǒng)計等,最終在計算機上實現(xiàn)自我獲取新知識,學(xué)習(xí)改善自己的這樣一個研究領(lǐng)域。機器學(xué)習(xí)是人工智能的一個子集,目前已經(jīng)發(fā)展出許多有用的方法,比如支持向量機,回歸,決策樹,隨機森林,強化方法,集成學(xué)習(xí),深度學(xué)習(xí)等等,一定程度上可以幫助人們完成一些數(shù)據(jù)預(yù)測,自動化,自動決策,最優(yōu)化等初步替代腦力的任務(wù)。本章我們主要介紹下機器學(xué)習(xí)的基本概念、監(jiān)督學(xué)習(xí)、分類算法、邏輯回歸、代價函數(shù)、損失函數(shù)、LDA、PCA、決策樹、支持向量機、EM算法、聚類和降維以及模型評估有哪些方法、指標等等。
2.1 基本概念
2.1.1 大話理解機器學(xué)習(xí)本質(zhì)
機器學(xué)習(xí)(Machine Learning, ML),顧名思義,讓機器去學(xué)習(xí)。這里,機器指的是計算機,是算法運行的物理載體,你也可以把各種算法本身當(dāng)做一個有輸入和輸出的機器。那么到底讓計算機去學(xué)習(xí)什么呢?對于一個任務(wù)及其表現(xiàn)的度量方法,設(shè)計一種算法,讓算法能夠提取中數(shù)據(jù)所蘊含的規(guī)律,這就叫機器學(xué)習(xí)。如果輸入機器的數(shù)據(jù)是帶有標簽的,就稱作有監(jiān)督學(xué)習(xí)。如果數(shù)據(jù)是無標簽的,就是無監(jiān)督學(xué)習(xí)。
2.1.2 什么是神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)就是按照一定規(guī)則將多個神經(jīng)元連接起來的網(wǎng)絡(luò)。不同的神經(jīng)網(wǎng)絡(luò),具有不同的連接規(guī)則。例如全連接(Full Connected, FC)神經(jīng)網(wǎng)絡(luò),它的規(guī)則包括:
(1)有三種層:輸入層,輸出層,隱藏層。
(2)同一層的神經(jīng)元之間沒有連接。
(3)fully connected的含義:第 N 層的每個神經(jīng)元和第 N-1 層的所有神經(jīng)元相連,第 N-1 層神經(jīng)元的輸出就是第 N 層神經(jīng)元的輸入。
(4)每個連接都有一個權(quán)值。
神經(jīng)網(wǎng)絡(luò)架構(gòu) ? 圖2-1就是一個神經(jīng)網(wǎng)絡(luò)系統(tǒng),它由很多層組成。輸入層負責(zé)接收信息,比如一只貓的圖片。輸出層是計算機對這個輸入信息的判斷結(jié)果,它是不是貓。隱藏層就是對輸入信息的傳遞和加工處理。