基于統(tǒng)計分類的方法:
(1)基于KNN方法(最近鄰法):利用相似度,找出k個訓練樣本,然后打分,按得分值排序。
(2)基于Naive Bayes算法:計算概率,構建分類模型。
引導:
醫(yī)生對病人進行診斷就是一個典型的分類過程,任何一個醫(yī)生都無法直接看到病人的病情,只能觀察病人表現(xiàn)出的癥狀和各種化驗檢測數(shù)據來推斷病情,這時醫(yī)生就好比一個分類器,而這個醫(yī)生診斷的準確率,與他當初受到的教育方式(構造方法)、病人的癥狀是否突出(待分類數(shù)據的特性)以及醫(yī)生的經驗多少(訓練樣本數(shù)量)都有密切關系。
一、KNN分類器
1.1.1最近鄰算法
定義:計算未知樣本與所有訓練樣本的距離,并以最近鄰者的類別作為決策未知樣本類別的唯一依據。
缺陷:對噪聲數(shù)據過于敏感。
措施:將被決策樣本周邊的多個最近樣本計算在內,擴大參與決策的樣本量,以避免個別數(shù)據直接決定決策結果。
1.1.2K-最近鄰算法(KNN)
基本思路:選擇未知樣本一定范圍內的K個樣本,該K個樣本中某一類型出現(xiàn)的次數(shù)最大,則未知樣本判定為該類型。
舉例說明:
如果K=3,綠色圓點的最近的3個鄰居是2個紅色小三角形和1個藍色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點屬于紅色的三角形一類。如果K=5,綠色圓點的最近的5個鄰居是2個紅色三角形和3個藍色的正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點屬于藍色的正方形一類。
算法執(zhí)行步驟:
(1)輸入測試集。
(2)設定參數(shù)k。
(3)遍歷測試集,對于測試集中每個樣本,計算該樣本(測試集中)到訓練集中每個樣本的距離;取出訓練集中到該樣本(測試集中)的距離最小的k個樣本的類別標簽;對類別標簽進行計數(shù),類別標簽次數(shù)最多的就是該樣本(測試集中)的類別標簽。
(4)遍歷完畢,輸出測試集的類別。
1.1.3 知識補充
距離度量表示的是兩樣本之間的相似程度。
常用距離度量方式:
二、樸素貝葉斯分類器
2.1貝葉斯公式
貝葉斯公式理解
(怎樣用非數(shù)學語言講解貝葉斯定理(Bayes’s theorem)?)
2.2樸素貝葉斯分類器
2.2.1基本思想
對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。
2.2.2樸素貝葉斯“公式”
2.2.3樸素貝葉斯分類器
三、瑕疵缺陷檢測
檢測方法:
(1)瑕疵缺陷圖像特征的選擇與提取。
(2)計算缺陷圖像與標準圖像關于灰度的差值。
(3)通過差值與設定閾值比較判斷是否存在缺陷。
3.1缺陷圖像差分法
3.1.1基本原理
3.1.2基本流程
(1)有效檢測區(qū)域的設定
(2)圖像配準與剪裁
(3)設定差分閾值
(4)缺陷位置的判別
3.2缺陷圖像特征的選擇與提取
3.2.1特征提取方法
(1)灰度值特征
(2)灰度差特征
(3)直方圖特征
(4)變換系數(shù)特征
(5)線條和角點的特征
(5)灰度邊緣特征
(6)紋理特征
3.2.2特征選擇(數(shù)據降維)
降維的原因:在機器學習中,如果特征值即維度過多,會引發(fā)維度災難。維度災難最直接的后果就是過擬合現(xiàn)象,進而導致分類識別的錯誤,因此我們需要對所提的特征進行降維處理。
基本原理:特征選擇是將原始空間進行變換,重新生成一個維數(shù)更小各維之間更獨立的特征空間。
降維面臨的問題:
(1)降維后數(shù)據應該包含更多的信息?
(2)降維后會損失多少信息?
(3)降維后對分類識別效果有多大影響?
數(shù)據降維后的好處:
(1)進行數(shù)據壓縮,減少數(shù)據存儲所需空間以及計算所需時間。
(2)消除數(shù)據間的冗余,以簡化數(shù)據,提高計算效率。
(3)去除噪聲,提高模型性能。
(4)改善數(shù)據的可理解性,提高學習算法的精度。
(5)將數(shù)據維度減少到2維或者3維,進行可視化。
常用方法:主成分分析,隨機映射,非負矩陣分解。
3.2.3主成分分析(PCA)
方法概述:此方法目標是找到數(shù)據中最主要的元素和結構,去除噪音冗余,將原有的復雜數(shù)據降維,揭露出隱藏在復雜數(shù)據背后的簡單結構。主成分分析就是試圖在力保數(shù)據信息丟失最少的原則下,對這種多變量的數(shù)據表進行最佳綜合簡化。這些綜合指標就稱為主成分,也就是說,對高維變量空間進行降維處理,很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。從線性代數(shù)角度來看,PCA目標是找到一組新正交基去重新描述得到的數(shù)據空間,這個維度就是主元。
3.3灰度形態(tài)學的缺陷檢測
3.3.1概述
灰度數(shù)學形態(tài)學的基本運算有膨脹、腐獨、開啟和關閉,其中利用膨脹和腐蝕的組合可構成開啟和關閉,而利用開啟和關閉又可構成形態(tài)濾波器。
在灰度圖像的形態(tài)分析中,結構元素可以是何的三維結構,常用的有圓錐、圓柱、半球或拋物線。模板尺寸總是奇數(shù),這樣檬板中心正好對應一個像素。
3.3.2 形態(tài)操作對圖像影響
(1)膨脹灰度圖像的結果是,比背景亮的部分得到擴張,而比背景暗的部分受到收縮。
(2)腐蝕灰度圖像的結果是,比背景暗的部分得到擴張,而比背景亮的部分受到收縮。
(3)開啟一幅圖像可消除圖中的孤島或尖峰等過亮的點。
(4)關閉一幅圖可將比背景暗且尺寸比結構元素小的結構除掉。
(5)形態(tài)濾波器是非線性信號濾波器,它通過變換來局部地修改信號的幾何特征。將開運算和閉運算結合起來可消除噪聲。
(6)如果用一個小的結構元素先開啟再閉合一幅圖像,就有可能將圖像中小于結構元素的類似噪聲結構除去。
3.3.3實例說明
電路板布線的缺陷檢測:對于一幅大小為1100×870、灰度級為256的電路板灰度圖像,其布線缺陷分為斷線和毛刺,利用灰度形態(tài)學檢測這些缺陷。取結構元素為5×5的半球模板,首先對原圖灰度開啟,消除比鄰域亮且尺寸比結構元素小的區(qū)域;然后對原圖灰度閉合,消除比鄰域暗且尺寸比結構元素小的區(qū)域,兩次結果差異即為缺陷。
四、劃痕檢查
概述:劃痕檢測的基本分析過程分為兩步首張,確定檢測產品表面是否有劃痕,其次,在確定被分析圖像上存在劃痕之后,對劃痕進行提取。由于在工業(yè)檢測中圖像的多樣性,對于每一種圈像,都要經過分析綜合考慮各種手段來進行處理達到效果。一般來說,劃痕部分的灰度值和周圍正常部分相比要暗,也就是劃痕部分灰度值偏小,而且大多都是在光滑表面,所以整幅圖的灰度變化總體來說非常均勻,缺乏紋理特征。
基本方法:基于統(tǒng)計的灰度特征或者閾值分割的方法將劃痕部分標出。
版權聲明:本文為CSDN博主「橡皮人生」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權協(xié)議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_40719550/java/article/details/84030419