梁蕙姿 簡禎富 彭金堂 國立清華大學工業工程與工程管理研究所 國立清華大學工業工程與工程管理研究所 元培科學技術學院經營管理研究所
摘 要
為因應半導體製造過程中產品製程技術的快速變化、複雜產品組合及生產週期時間長的生產環境,如何在自動化系統輔助的大量生產之下,在製造過程中提供工程人員可確認正確的製程參數,以及發現產品異常時可立即針對問題的特徵進行問題真因追蹤與分析,針對取得的資訊進行合適的決策並將可能已受影響的產品列表管理,以減少產品的良率損失,已成為重要的產業應用與學術研究議題。
本研究目的係研究資料挖礦技術中關聯規則的Apriori 演算法,結合半導體領域知識,將製造過程中追蹤已發生問題的解決方式,進行關聯資料的搜尋並予以模式化,並利用決策樹歸納法進行可疑原因區別的建議;本研究並建構此半導體製造過程中的資料挖礦應用系統雛型,而以目前半導體製造中自動化系統所蒐集的資料結合此方法而建構一半導體製造過程中的資料挖礦應用系統為此研究的實作驗證,以完整地檢驗資料挖礦的方法與步驟進行大量資料的篩選、推演與模式建構等過程;結論歸納本研究結果與貢獻,並探討
未來研究方向。
關鍵字:資料挖礦、決策分析、半導體製造管理、關聯規則
The Study of Data Mining Techniques for Analyzing Semiconductor
Manufacturing Product Abnormal
Hui-Tzu Liang Chen-Fu Chien Jin-Tang Peng
Department of Industrial Engineering and Engineering Management,
National Tsing Hua University
Department of Industrial Engineering and Engineering Management,
National Tsing Hua University
Graduate Institute of Business and Management, Yuanpei Institute of Science and Technology
ABSTRACT
The environment within the semiconductor industry is one that is made up of rapidly changing technologies, complicated product groups, extensive production hours. The following points have become crucial issues for industrial application and academic research within the semiconductor industry: methods by which accurate processing parameters may be provided for engineers to confirm to, within an automation system during mass production; methods by which abnormal wafers may be instantly tracked and analyzed, based on the problems/defects of each individual case; methods by which obtained data may be appropriately processed, by which affected products may be managed through a report chart, and by which yield loss of products may be lessened.
This study will focus on the Apriori algorithm used in data mining technologies, and will incorporate working knowledge of the semiconductor industry, to search for, and to develop the solution used to track existing problems within the fabrication process. The decision tree analysis method will also be used to categorize and differentiate possible problem sources. This study will also configure an initial prototype of a data mining application system to be used within the semiconductor fabrication process. The data mining application system produced from combining this prototype with the automation system currently used for semiconductor fabs will be set forth as a feasible example in this study, and comprehensive data will be filtered, calculated, and modeling, based upon data mining methods and procedures. Research results of this study will be classified and organized, and a goal for future studies will be examined. Keywords:Data Mining、Decision Analysis、Semiconductor Manufacture Management、Association Rule
一、前言
我國半導體產業不論是產值、全球佔有率、或是自給能力近年來皆有顯著的表現。根據統計1987年時台灣半導體產品產值達全球的0.6%,在企業與政府的全力合作及衝刺之下,於1995年已上升至2.6%(何宜佳,民92)。在半導體製造技術日趨進步與純熟之下,已進入八吋、十二吋晶圓的年代,這其中大量資金的投入是不可或缺的,特別是十二吋晶圓廠其所投入的金額約需30億美元。因此,在如此龐大的投資金額與技術快速變化之下,如何規避經營風險已是台灣甚至全球半導體業者共同面對的重要課題。
在半導體廠製造環境中,不乏包含200種以上的製程與設備種類,若以半導體製程的創新速度與產品多樣性生産特性、或是生産能力及其大批量生産方式發展而言,對於目前已存在的八吋廠或是十二吋廠來說,不論是製程設備或是自動化系統的規劃上,皆會影響晶圓廠的成本與生產效率。因此,為因應製造過程中產品的製程技術變化、以及在自動化系統的輔助大量生產之下,如何在製造過程中提供工程人員可確認正確的製程參數、以及發現產品異常時,可立即針對問題的特徵進行問題真因追蹤與分析,並將可能已受影響的產品列表管理,以減少產品的良率損失與如何針對取得的資訊進行合適的決策,將是生產人員所必須面對的挑戰。
就目前的企業對於數以百萬筆的歷史資料處理方式而言,當產品發生異常或為特定任務而必須得到部份資訊的支援時,若將其一一分類並運用於分析上,其實是件耗時且相當困難的工作;通常在自動化系統中資料庫僅記錄現場正使用的已設定參數值,因而當產品被發現已產生異常時往往無法及時取得當時製造過程中的參數設定值,必須依賴製程或設
備工程人員的紀錄或是其他備份的資料庫,資料不易取得且方法繁雜。但由於資料挖礦(Data Mining)技術的發展,使得從龐大複雜的資料中萃取出隱含有用的資訊,以客觀的統計分析提供快速且正確的訊息變為可能。資料挖礦技術是一種統計工具的應用,其結合該產業領域的專業與資料庫知識,從資料庫或其他資料儲藏系統中,針對大量的資料進行篩選、推演與模式建構等程序,以挖掘隱含在資料與模式中的訊息進而轉換成為商機,或是提供決策者新的知識以利於決策的進行(簡禎富等,民90;簡禎富等,民92)。因此,本研究將以目前半導體製造中自動化系統所蒐集的資料結合資料挖礦技術的應用,建立半導體製造過程中所蒐集資料的資料挖礦分析,以提供工程師問題追蹤的另一種方法的選擇。
本研究是使用半導體自動化系統的資料庫為資料挖礦的資料來源,並運用資料挖礦中的關聯規則作為分析問題的方法,藉此協助製程工程人員如何在大量的生產資料中找出可能隱藏的訊息,以快速的找出與問題相關性的關聯資訊,確保問題能在較短的時間內予以解決,不至於造成產品的損失擴大。因此本研究目的有以下三點︰
1. 建構一半導體製造過程中所蒐集資料的資料挖礦分析方法,以發現資料中隱含的有用資訊,以提供決策者參考。
2. 建構製造過程中製程參數與機台資料的關聯規則,以提供一可追蹤產品、製程或設備參數設定值的有用資訊,幫助製程或設備工程人員進行問題追蹤。
3. 針對問題的特徵進行大量資料的匯整並挖掘其中隱含的資訊,以協助工程人員的問題真因追蹤與分析,並將可能已受影響的產品列表管理,以減少產品的良率損失。
二、文獻探討
2-1半導體製程
半導體技術變化快速,目前已進入深次微米的時代,產業的生產趨勢將是集中資源於最具核心競爭力產品的生產方式。過去政府對於半導體產業的推動與規劃不遺餘力,自設置科學工業園區開始,陸續引進該產業的科技工業及科技人才,並著手培訓國內人才以帶動我國工業技術的研究與創新,以促進高科技產業生根發展,加速我國的經濟建設為目的。目前在半導體產業的硬體建設上雖可滿足產業的大量需求,但是隨之而來的將是如何在快速生產與大量產能中,提升良率與及時發現異常等問題。
半導體的製造流程是由矽晶圓開始,經過一連串製程步驟,如圖1半導體製程示意圖中,包括最初的磊晶沉積、沉積、微影處理的光學顯影、快速高溫製程、化學氣相沉積、離子植入、蝕刻、化學研磨與製程監控等前段製程,以及封裝、測試等後段製程才可完成一顆可運用的IC。自1947年發明電晶體後,新的技術亦不斷的被發現,其技術的創新與快速使得積體電路製造在短短的數十年間迅速發展至今日的奈米半導體製程。
半導體製程示意圖前段製程磊晶沉積晶圓投入沉積離子植入化學研磨後段製程蝕刻處理微影處理 圖1 半導體製程示意圖
2-2晶圓廠自動化系統
半導體產業的「自動化製造系統」一般稱之為CIM(Computer Integrated Manufacture),CIM是以IT技術應用於製造環境中,將公司內部各個獨立的局部自動化系統加以整合使生產作業自動化,以因應大量產品的需求與產品品質的提升,進而發揮整體的效益。關於晶圓廠自動化系統之資料倉儲,以前段製程FAB生產流程中的Lot Transportation、Lot History、Recipe、Data Collection等四種資料流來了解在自動化系統的製造環境中,系統是如何紀錄與取得各產品的生產資料以及所需要的資料是存放於何處。首先是Lot Transportation,系統中將會紀錄每一批產品在製造過程中即時的資料,如進出機台的時間、使用的參數、製造時間等,並將這些經過設計存放的資料依需要將其存放於固定的空間,以作為資料分析的依據,這也就是所謂的Lot History;系統對與Lot Transportation與Lot History的存放方式是在製造過程中同時進行的。其次是Recipe即製程參數的資料流,當使用者透過自動化系統的介面取得機台與Lot ID的關係之後,系統將提供一組適合該Lot在此機台製造的參數,這就是自動化系統所帶來的便利之一。最後的一項資料流Data Collection,一批Lot在製造的過程中是需要不斷的進行檢測以確保產品的品質,生產機台也是如此必須在固定時間或生產片數達一定數量後進行檢測與維護,所以在這些過程中系統將會依據所設計的蒐集條件完整的紀錄資料,而這些資料也將會是所需的部分。不論是即時的生產資料或是歷史資料將存放在系統所指定的資料庫中。
通常自動化製造系統的資料庫中除了儲存產品製造時所需的機台、產品、製程參數等
基本資料之外,也包含生產過程中各需求點的量測值與量測規格需求。這些資料經過規劃之後有規則的將及時資料與歷史資料個別置於關聯的資料項中,並適當適時的進行儲存與備份的工作。也因此當工程人員欲進行資料追蹤或異常產品原因追查時,往往必須透過多方單位的資料支援與溝通即費時又浪費人力,容易延誤問題的解決,所以如何解決工程人員快速的取得資料與正確的分析資料是各企業所需要的。在本研究中將以資料挖礦的技術建立一適合使用者查詢與分析資料的方法,以協助工程人員的問題追蹤與分析。
2-3資料挖礦
對於資料挖礦的意義有很多學者提出不同的解釋,也提出很多意義相近卻不同的名稱,例如資料庫知識發現(Knowledge Discovery in Databases; KDD)、知識萃取(Knowledge extraction)、資料考古學(Data archeology)、資料捕撈(Data dredging)(Han and Kamber, 2001)。而比較常用的名稱是資料挖礦與資料庫知識發現,Fayyad et al. (1996)定義資料庫知識發現的過程是,一個包含很多重要搜尋步驟的程序過程,從資料中來發現有效的、新穎的、潛在有用的、以及最終可理解的樣型,資料挖礦是知識發現過程中一個最關鍵的步驟;Berry and Linoff (1997)則定義資料挖礦是經由自動或半自動的方式探索和分析資料,從大量資料中能夠擷取出有意義的樣型和規則。
綜合以上,資料庫知識發現和資料挖礦的目的皆相同,同樣是從資料庫的大量資料中發現有用的資訊以提供決策者參考,只是資料庫知識發現描述出資料準備階段之過程,也就是資料如何從資料庫轉換成資料挖礦工具可運用的程序皆完整的描述,然而要達到資料
挖礦的目的,資料挖礦的定義已隱含有資料準備的概念,因此,可直接採用資料挖礦此一名詞。也因此,本研究定義資料挖礦為經由自動或半自動的方式探索和分析資料,從大量資料中能夠擷取出有意義的樣型和規則,發現事先未知的隱含資訊與知識,以提供決策者相關的參考資訊。
資料挖礦中所使用的挖掘技術與類型,通常包含關聯規則、分類規則、叢集規則、預測分析、趨勢分析、偏差分析等類型。為完成以上的各類型,在資料挖礦的技術中將運用資料庫理論、資料倉儲、人工智慧、機器學習、統計學等領域,包含統計分析方法(Statistical Analysis)、決策樹(Decision Tree)、類神經網路(Neural Network)、基因演算法(Genetic Algorithms)、粗糙集(Rough Set)、線上分析處理 (OLAP)的技術等。
2-4關聯規則
關聯規則是資料挖礦模式中最常被應用模式之一(Berry and Linoff, 1997; Han and Fu, 1999; Han and Kamber, 2001; Tung et al., 2003; 陳家仁等,民92)。關聯規則主要是從龐大資料中,探索資料間欄位的相關性。過去對於關聯規則已有相當多的研究,也證明關聯規則為一有效之方法,其方法的特性主要是,關聯規則能容易解釋其產生的規則,且可完整呈現變數之間的影響,但篩選規則的條件設定很重要,否則條件太鬆可能造成結果多且凌亂,相反地,如果條件太嚴可能忽略掉一些罕見變數的有趣樣型。
關聯規則方法是Agrawal et al.在1993年提出,T是指一筆交易記錄(Transaction)內物品項的集合。而D則是所有交易記錄T的集合。假若在集合D中,項目X與項目Y產
生關聯規則,表示當交易記錄T有項目X時,有很大機會也會同時有項目Y,此規則可表示為XY〈If X, then Y〉,X為前提項目組(Antecedent item set),Y為結果項目組(Consequent item set),X和Y皆為所有相異物品項目集合的子集合,且XY。
針對每一項關聯規則〈If X, then Y〉可以用支持度(Support)、信賴度(Confidence)以及增益(Lift)等三個指標來評估其效用和重要性。此三項指標的計算公式與物理意義分別闡述如下:
1. 支持度:P(XY),即代表前提項目X與結果項目Y一起出現的機率。也就是在規則中,前提項目X與結果項目Y一起出現的交易記錄筆數佔全部交易記錄筆數的百分比。 2. 信賴度:P(Y|X)P(XY),即代表在前提項目X發生的情況下,前提項目X與結果P(X)項目Y又同時發生的機率。此為關聯規則的預測強度。此指標之物理意義為當前提項目X發生時,可推得結論為結果項目Y的信賴度。 3. 增益:
P(Y|X),比較信賴度與結果項目Y單獨發生時之機率兩者間的大小。其代表的P(Y)物理意義為關聯規則的條件機率比母體中原本發生的機率大才具有意義。
關聯規則的產生必需滿足決策者所訂定之最小支持度(Minimum support threshold)和最小信賴度(Minimum confidence threshold),當滿足這兩個條件後,再判斷增益是否大於1,當三個指標皆成立,即推導出有意義的關聯規則。
就一般資料庫的探勘關聯規則上,其過程可為下列步驟(Han and Kamber, 2001): 1. 找出所有頻繁項目集合(Frequent Itemset):依據定義,頻繁項目集合所出現的次數必須與使用者預先定義的最小支持度數目相同。
2. 由頻繁項目集合產生強關聯規則:依據定義,其所產生的規則必須滿足最小支持度與最小信賴度,如此規則方可成立。
過程中其關聯規則的總體效能是由步驟(1)所決定,因此有效的找出頻繁項目集合是關聯規則的重點。Apriori演算法是關聯規則中最為常用來找尋頻繁項目集合的演算法,Apriori演算法是使用逐層搜尋的方法(Agrawal and Srikant, 1994),依據上述的探勘關聯規則步驟,可逐步敘述Apriori演算法流程如下:
1. 定義最小支持度及最小信賴度。Apriori演算法使用了候選項目集合(Candidate Itemset) 的觀念,若候選項目集合的支持度大於或等於最小支持度,則該候選項目集合為頻繁項目集合。
2. 首先由資料庫讀入所有的交易,得出候選1項目集合 (Candidate 1-Itemset)的支持度,在找出頻繁單項目集合(Frequent 1-Itemset),並利用這些頻繁單項目集合的結合,產生候選2項目集合 (Candidate 2-Itemset) 。
3. 在搜尋資料庫,得出候選2項目集合的支持度以後,在找出頻繁2項目集合,並利用這些頻繁2項目集合的結合,產生3項目集合。
4. 重覆搜尋資料庫,與最小支持度比較,產生頻繁項目集合,再結合產生下一級候選項目集合,直到不再結合產生出新的候選項目集合為止。
關於關聯規則的研究,主要是研究發掘關聯規則的演算法,如何從含有大量資料的資料庫中,快速的找出有意義的關聯規則(Srikant and Agrawal, 1996; Han and Fu, 1999; Berzal et al., 2001; Changchien and Lu, 2001; Tung et al., 2003),在實務應用上,Srikant and Agrawal
(1997)有提及關聯規則在商業、保險、醫學等之應用,其他主要的應用領域包括購物籃分析(Fayyad et al., 1996)、商品擺架安排(Srikant and Agrawal, 1997)、欺騙行為偵查(Berry and Linoff, 1997)、醫學研究(葉忠和吳恆睿,2002),在半導體的應用上,如透過半導體晶圓允收測試資料,建構製程事故診斷資料挖礦架構,以作為工程師及領域專家解決問題的參考,進而提升其製程良率的改善(簡禎富等,民90; Han and Kamber, 2000)。資料挖礦技術應用於半導體領域的研究很多,本研究將著重於半導體自動化系統生產製造過程中,所蒐集的資料以配合資料挖礦技術的應用,提供工程師一快速的搜尋規則及方案建議。
三、研究方法
本節將探討半導體製造過程中,對於產品量測(Lot QC)資料異常及報廢的產品如何應用資料挖礦技術尋求合適的資訊以提供解決方案的選擇。本研究之研究架構係依據資料挖礦模式及資料挖礦流程建構,包含問題定義、資料處理、資料挖礦應用、以及評估等步驟,研究架構如圖2所示。本研究在資料分類及彙整部分,為了提供資料挖礦模式一正確、乾淨、完整的資料,必須確保來源資料的完整性,使得產生的資訊品質達到有效性及正確性的要求,在資料挖礦部分採用關聯規則的Apriori演算法進行關聯資料的搜尋,以及決策樹歸納法進行可疑原因區別的建議。
3-1問題定義
本研究將探討在半導體製造過程中,發生產品報廢問題與Lot QC時產生Data Lost或產
生OOS (Out Of Spec.)時,如何從資料庫中快速的追蹤所產生的問題,藉由資料挖礦技術的應用將可能造成的因素從資料庫中篩選出,以提供工程師能掌握有利的資料進行分析。
3-2資料處理
為了使資料挖礦的資訊能符合實際需要及其正確性與完整性,對於挖掘前的資料處理是重要的關鍵。因此,本研究將對於產品報廢的現象原因與歷史資料進行分類及彙整,以作為領域資料的一部分。在於Lot QC方面將建置搜尋Data Lost及OOS的規則,說明如下︰ 1. 產品報廢現象原因分類及彙整
半導體的製造程序是環環相扣的,如有任一程序發生異常通常會影響未來的製程甚至導致產品報廢。當報廢發生時若能在較短時間內找出原因,對於有同樣製程的產品即可立即追蹤並掌握問題,可減少產品的報廢數量。製造過程中產生報廢的原因錯綜複雜,就以現行工程師的經驗中,再彙整出現象原因及解決方案於領域資料庫中如表1所示,運用此彙整的表格提供工程師一對應的訊息,以縮短找尋資料及因個人經驗判別的時間,並且將其他同生產條件的產品列出可能發生此現象報廢的產品,以盡早提出因應措施。依據表1的現象為區分的類別,各類別原因的分類及各原因的處理方式對應如圖3所示,依各類別原因及對策的對應關聯,若有新的現象發生將可再陸續加入領域資料庫中。 2. Lot QC data lost及發生OOS問題時的追蹤
通常一批Lot在投片開始至完成前段製程的歷程中,將經歷多次的量測以確保產品在製
1.問題定義產品報廢與Lot QC 追蹤2.資料處理從CIM資料庫選取資料資料整理、整合、轉置指出目標變數與屬性是否需刪減預測變數?是統計檢定否有顯著預測變數?是3.資料挖礦輸入分類資料否關聯規則挖掘特徵組合決策樹分類區隔特徵萃取條件規則文件化呈現樹狀結構視覺化呈現4.評估是否有樣型存在?是分類、規則、描述否增加新資料建議
圖2 半導體製造過程產品異常應用資料挖礦研究架構圖
造過程中能確實符合製程上的規格,因此量測出的數值將影響該批Lot的品質。以目前具有
自動化系統的半導體廠而言,量測的方法或資料的蒐集與運算已是非常正確與快速,但是在這之前的量測參數是否正確的被設定於自動化系統中,以及資料是否完整的被系統所蒐集,將有賴於系統的設計及參數的設定。Data lost的發生有兩種狀況,一為參數設定的不完整,可能是由資料維護時遺漏或工程師提供不完整;另一為機台與系統的data傳送出現異常,可能是機台端當機或傳送機制停擺或系統端產生異常;至於OOS的產生即是製程條件的異常所致。因此,在以上所提的這些問題將可由自動化系統人員與製程工程師共同建立解決方案,至於如何在Lot QC data lost及OOS仍然發生時快速找到問題,本研究將運用資料挖礦技術提供一快速的搜尋方法,以縮短工程師進入資料庫摸索的時間,並減少不符合量測規格的產品繼續產出。此階段將以關聯規則的Apriori演算法與自動化系統工程師的領域知識配合建置一合宜的搜尋方式。
表1 產品報廢分類對應表範例
現象破片 分類 污漬 ……… CLEANENG CLEANN-SCRAP 水痕 ……… 報廢Box盒蓋及旋乾破片 治工治工具E.P未人為及旋乾鬆脫造成具造造成破抓到 破片 原因異常異常破片 說明 ABNOR …. 成破片-晶片 …. 舟 …. ABNOR …. …. …. …. …. check run Check card是否Recipe ……… 因應異常造成方式 Box盒蓋未正常蓋上 設定是否異常
3-3資料挖礦
本研究運用關聯規則的Apriori演算法取得產品報廢的現況與因素分析,計算其支持度與信賴度以確定分析出來的資訊是否為正確有效的,並以決策樹歸納法配合領域資料的分析,建議其合宜的解決方案。至於Lot QC方面,亦是以關聯規則的Apriori演算法與自動化系統的領域資料推導出發生問題的可能因素,以提供快速的資料搜尋途徑。資料挖礦流程如圖4所示。以下問題產品報廢及Lot QC問題追蹤為例,說明資料挖礦流程逐層分析。
當發生Lot QC的Data lost時,工程師可提供該產品的發生站點、時間、量測的機台等訊息,依據所提供的訊息進入CIM資料庫中確認基本資料的設定、系統與機台端傳送及機台端的資訊。基本資料的設定將確認其參數值、規格值、量測機台與生產機台的對應及產品與機台的對應關係等,而機台端將確認其是否已將資料完整蒐集。若基本資料的設定問題已發生則調整設定,若機台端已發現未完整蒐集資料則是機台端問題,若基本資料的設定及機台端皆正確,則建議著重在系統與機台端傳送問題。當OOS發生時,工程師可提供該產品的發生站點、時間、量測的機台等訊息,依據所提供的訊息進入CIM資料庫中確認基本資料的設定值,若基本資料的設定問題已發生則調整設定。在產品報廢現象原因追蹤上運用Apriori的逐層搜尋疊代方法的特性,方法如下:
現象分類現象1(S1)現象2(S2)現象3(S3)現象N(SN)因素1(R1)因素2(R2)因素3(R3)現象與因素分類因因素素45(R4)(R5)因素n(Rn)各因素可因應的處理方式
圖3 Domain Knowledge階層資料表圖例
1. 首先必須將該產品發生的現象及特徵提供給模式如產品型號、發生的站點、發生的機台、報廢的現象、報廢的特徵等。
2. 依據該產品發生的現象及特徵進行第一次的資料庫掃描並定義最小支持度及最小信賴度。
3. 得出該現象的候選1項目集合(1-Itemset)的支持度,以及找出頻繁單項目集合(Frequent 1-Itemset),利用這些頻繁單項目集合的結合產生候選2項目集合(2-Itemset)。支持度的計算為:將輸入的屬性與目標屬性以一對一或一對多的方式產生多種項目集合,並計算各項目集合中X與Y同時出現的資料筆數佔所有資料筆數的百分比。
4. 再搜尋資料庫,得出該現象的候選2項目集合的支持度,再找出頻繁2項目集合,並
利用這些頻繁2項目集合的結合,產生3項目集合。
5. 重覆搜尋資料庫,與最小支持度比較,若產生的頻繁項目集合(Lk)大於或等於使用者所定義的最小支持度,則頻繁項目集合即被找到。 6. 當頻繁項目集合出現之後進行信賴度的計算。
7. 當頻繁項目集合的信賴度與最小信賴度比較,若大於或等於使用者所定義的最小信賴度,則候選規則產生並進行所有頻繁項目集合最小信賴度比較。
8. 計算所有候選規則的增益,若增益值大於1則選取,小於或等於1則放棄,最後將產生顯著的關聯規則。
9. 最後整理頻繁項目集合,以產出所定義的目標。
訓練資料目標變數處理指出目標變數與屬性是否需刪減預測變數?是統計檢定否有顯著預測變數?是產生法則輸入分類資料否計算項目集合的支持度比較最小支持度等於或大於頻繁項目集合低頻項目集合小於計算頻繁項目集合的信賴度比較最小信賴度等於或大於後選規則Life > 1大於規則萃取產生 X->Y 關聯規則整理Y為目標變數的規則不顯著規則小於不顯著規則小於
圖4 資料挖礦流程
3-4評估
資料挖礦中除了資料庫理論、資料倉儲、人工智慧、機器學習、統計學等領域之外,在專家領域知識上更是不可缺少,以本研究而言是針對半導體製造過程的問題追蹤,因此,結合半導體製造、製程、設備以及自動化系統的領域知識等是必要的,在挖掘的結果
上不論是分類、規則、表示方式皆需要符合領域專家的認知與經驗。經過一連串的資料挖礦技術應用,將報廢產品及Lot QC問題追蹤建構出追蹤規則,使同樣生產條件的產品可提前防範相同狀況發生,以減少損失並適時的提出其決策建議。
四、實證研究
4-1產品報廢追蹤
1. 問題定義
在一般製造過程中,除非是顯著的現象才會立即的被判定產品報廢(例如,破片),但是起因若為製程參數設定異常,或是設備異常則較難被立即發現,因此潛藏於在製品中的報廢因素如何被過濾出,並加以防範將是重要的問題。以產品發生報廢為例,當報廢的產品在工程師初步判斷之後,彙整報廢的特徵為電性偏低,並列出有影響的站點,以作為以下資料處理的線索來源。 2. 資料處理
將發生產品報廢的產品批號、型號、目前製程站點、發生報廢的站點、發生報廢的機台、發生報廢時所使用的製程參數、特徵等,輸入於雛型系統中以利於資料挖掘。 3. 資料挖礦
由產品報廢的特徵與現象可以歸類出Recipe Fail、Etch不淨、Vt不合等三種可能報廢類型,如表2產品報廢分類對應表。依據本研究提出的資料挖礦流程處理如下:
表2 產品報廢分類對應表
現象類別 Recipe Fail 因素對應 1.TSF Down load Fail 2.CIM data error 3.設備異常 4.製程不合而PASS 5.製程污染 6.製程重覆做 Etch不淨 7.製程漏做 1.TSF Down load Fail 2.CIM data error 3.設備異常 2.CIM data error 4.製程不合而PASS 6.製程重覆做
(1). Eng判別造成此現象的可能發生站點List。
(2). 依據該產品發生的現象及特徵進行第一次的資料庫掃描並定義最小支持度為1.94及
最小信賴度50%。也就是說,在310筆資料中,產生報廢的可能因素有6類,若為均勻分配的情況,則每一類平均約為60筆資料,因此其支持度應大於60/310=1.94%,才代表足夠之顯著程度;而設定信賴度為獲得關聯規則其顯著程度達一半以上。 (3). 得出該現象的候選1項目集合的支持度,以及找出頻繁單項目集合,利用這些頻繁單
項目集合的結合產生候選2項目集合。結果如表3所示。
(4). 再搜尋資料庫,得出該現象的候選2項目集合的支持度,再找出頻繁2項目集合,並
利用這些頻繁2項目集合的結合,產生3項目集合。結果如表4所示。
(5). 再搜尋資料庫,得出該現象的候選3項目集合的支持度,再找出頻繁3項目集合,並
Vt不合 利用這些頻繁3項目集合的結合,產生4項目集合。結果如表5所示。
(6). 重覆搜尋資料庫,與最小支持度比較,若產生的頻繁項目集合(Lk)大於或等於使用者
所定義的最小支持度,則頻繁項目集合即被找到。結果如表6所示。 (7). 當頻繁項目集合出現之後進行信賴度的計算,結果如表6所示。
(8). 最後工程師可將列出的因素對應存於領域資料庫中的處理方式建議,其處理方式如表
7報廢現象分類對應表,並且追蹤同樣生產條件的產品如表8可疑產品追蹤清單。
表3 候選1項目集合
Itemset 1.TSF Down load Fail 2.CIM data error 3.設備異常 4.製程不合而PASS 5.製程污染 6.製程重覆做 7.製程漏做
表4 候選2項目集合
Itemset 1.TSF Down load Fail且2.CIM data error 1.TSF Down load Fail且3.設備異常 1.TSF Down load Fail且2.CIM data error 1.TSF Down load Fail且3.設備異常 1.TSF Down load Fail且4.製程不合而PASS 1.TSF Down load Fail且5.製程污染 1.TSF Down load Fail且6.製程重覆做 2.CIM data error 且3.設備異常 2.CIM data error 且4.製程不合而PASS Sup.count 2 3 2 3 1 1 1 2 2 Sup.count 2 3 2 2 4 2 1 2.CIM data error 且5.製程污染 2.CIM data error 且6.製程重覆做 3.設備異常且4.製程不合而PASS 3.設備異常且5.製程污染 3.設備異常且6.製程重覆做 4.製程不合而PASS 且5.製程污染 4.製程不合而PASS且6.製程重覆做 5.製程污染且 6.製程重覆做
表5 候選3項目集合
Itemset 1.TSF Down load Fail且2.CIM data error 1.TSF Down load Fail且3.設備異常 2.CIM data error 且3.設備異常 2.CIM data error 且4.製程不合而PASS 2.CIM data error 且6.製程重覆做 4.製程不合而PASS且6.製程重覆做
表6 候選4項目集合
Itemset 2.CIM data error 且3.設備異常 2.CIM data error 且4.製程不合而PASS 2.CIM data error 且6.製程重覆做 4.製程不合而PASS且6.製程重覆做
表7 報廢現象分類對應表
原因 2.CIM data error 且3.設備異常 因應方式 1. 確認CIM資料維護歷史資料 2. 確認該設備異常紀錄狀況 Sup.count Conf. 2 2 2 2 Sup.count 1 2 1 1 1 1 2 1 2 3 2 2 2 2 64.67% 97.00% 97.00% 97.00% 原因 因應方式 2.CIM data error 且4.製程不合而PASS 1. 確認CIM資料維護歷史資料 2. 進一步確認 LQC 時的實際量測值 2.CIM data error 且6.製程重覆做 4.製程不合而PASS且6.製程重覆做
表8 可疑產品追蹤清單
Lot ID Product ID Route ID Current Oper. ID PastTime 1. 確認CIM資料維護歷史資料 2. 確認該產品的製造過程歷史資料 1. 確認 LQC 時的實際量測值 2. 確認該產品的製造過程歷史資料 Data_Lot_08 Data_Prod_A1 Data_Route_A Data_Oper_6010 2004/2/14 15:00 Data_Lot_08 Data_Prod_B1 Data_Route_B Data_Oper_2405 2004/2/15 09:00 Data_Lot_18 Data_Prod_B1 Data_Route_B Data_Oper_2506 2004/2/16 02:01 Data_Lot_20 Data_Prod_B1 Data_Route_B Data_Oper_2607 2004/2/16 05:00 Data_Lot_09 Data_Prod_B1 Data_Route_B Data_Oper_2607 2004/2/17 11:00 Data_Lot_10 Data_Prod_B1 Data_Route_B Data_Oper_2608 2004/2/17 11:00
4-2結果與討論
在實際半導體製造過程中,工程師必須透過部門與部門之間的協調,之後經過資料庫管理部門的核可,才可透過資料庫管理人員依工程師的需要,進行資料搜尋,在經過一連串的資料取得步驟之後,工程師最後才能再進行分析與討論,如此程序完成後問題可能已擱置數日了。因此,若工程師在初步的問題確認後,可立即透過本研究資料挖礦架構的篩選,將可減少以上繁覆的程序與核可步驟,若進一步結合自動化工程師、製程工程師、或
是設備工程師的經驗,將可縮短問題追蹤的時間與產品的損失、或是因人員異動而失去的解決問題的經驗值。
關聯規則之Apriori演算法是使用逐層搜尋的方法,每進行一個層次的搜尋則必須掃描資料庫一次,直到條件完成,即找到符合條件的頻繁項目集合,然而當程式的條件愈為複雜,則相對的其重覆搜尋資料庫次數亦提高;也就是說與最小支持度比較產生頻繁項目集合,再結合產生下一級候選項目集合,直到不再結合產生出新的候選項目集合為止。因此,當資料庫的資料量愈大及程式的條件愈嚴謹,系統必須相對付出的是掃描資料庫資料時的系統負荷,因此在Apriori演算法應用於大量資料與系統負荷方面,將會影響資料挖礦的效能。就程式運作上,Apriori演算法是必須完整的執行結束,因為其逐層搜尋的方式必須由第一層開始,逐層比較其支持度再產生頻繁項目集合,若中途停止後其所產生的支持度將不具完整性,也無法真實呈現產出的結果。因此,若有此現象將需要重新執行探勘程式,以確保效度檢定的合理性與正確性。
五、結論與建議
本研究對於半導體製造過程的問題追蹤,藉由資料挖礦的方法與步驟,進行大量資料的篩選、推演與模式建構等過程,協助工程人員處理問題,盡可能減少在龐大的資料中挖掘的困難度,使其方便的挖掘出隱含的訊息,以及快速的找到與問題相關的關聯資訊。在資料挖礦的過程中,領域資料與相關人員的經驗扮演著重要的角色,若能將經驗予以有系統的保存,其在資料挖礦的過程上將可給予相當程度的幫助。
本研究驗證上所採用的資料量及資料種類,與實際半導體系統的資料量比較相對較少,因此在執行程式的速度與取得的資料方面會與實際值有落差。在研究方法上,以關聯規則的Apriori演算法雖可達到驗證的目的,但是當實際應用於半導體產業中時,除了系統軟體與硬體上的提升外,領域資料的再補充以及方法效率亦是探討的重點。在未來的研究上,將資料挖礦觀念導入半導體製造過程中,則對於半導體整體的Wafer Level Tracking上,即由前端的Wafer Start以至於EDA(Engineer Data Analysis)的資料分析,將是另一種追蹤問題的方式,但是必需先將半導體自動化系統資料庫進行整合,以及建置更完整的領域經驗知識庫,方可進行較為完善的資料挖礦。
參考文獻
Agrawal, R., Imielinski, T. and Swami, A., (1993), “Mining Association Rules Between Sets of
Items in Large Databases,” Proceedings of The 1993 ACM SIGMOD International Conference on Management of Data, Washington DC, USA.
Agrawal, R. and Srikant, R., (1994), “Fast Algorithms for Mining Association Rule, ” Proceedings of the 20th International Conference on Very Large Data Bases, pp. 487-499. Berry, M. and Linoff, G., (1997), Data Mining Techniques for Marketing, Sales and Customer
Support, New York: John Wiley and Sons.
Berzal, F., Cubero, J., Mann, N., and Serrano, J., (2001), “TBAR: An Efficient Method for
Association Rule Mining in Relational Databases,” Data and Knowledge Engineering, 37, pp. 47-64.
Changchien, S. W. and Lu, T. C., (2001), “Mining Association Rules Procedure to Support
On-Line Recommendation by Customers and Products Fragmentation,” Expert Systems with Applications, 20, pp. 325-335.
Fayyad, U., Piatetsky-Shapiro, G. and Smyth, P., (1996), “The KDD Process for Extracting
Useful Knowledge from Volumes of Data,” Communication of The ACM, 39(11), pp. 27-34. Han, J. and Fu, Y., (1999), “Mining Multiple-Level Association Rules in Large Databases,” IEEE
Transactions on Knowledge and Data Engineering, 11(5), pp. 789-805.
Han, J. and Kamber, M., (2001), Data Mining: Concepts and Techniques, San Francisco: Morgan
Kaufmann Publishers.
Srikant, R. and Agrawal, R., (1996), “Mining Quantitative Association Rules in Large Relational
Tables,” Proceedings of The 1996 ACM SIGMOD International Conference on Management of Data, Montreal, Canada.
Srikant, R. and Agrawal, R., (1997), “Mining Generalized Association Rules,” Future
Generation Computer Systems, 13, pp. 161-180.
Tung, K. H., Lu, H., Han, J. and Feng, L., (2003), “Efficient Mining of Intertransaction
Association Rules,” IEEE Transactions on Knowledge and Data Engineering, 15(1), pp. 43-56. 何宜佳(民92),「台灣IC製造業發展現況」,台灣半導體產業協會(TSIA)簡訊專文。 陳家仁、陳彥良、陳禹辰(民92),「在少樣商品或短交易長度情況下挖掘關聯規則」,資
訊管理學報,9(2),頁55-72。
簡禎富、林鼎浩、徐紹鐘、彭誠湧(民90),「建構半導體晶圓允收測試資料挖礦架構及其實證研究」,工業工程學刊,18(4),頁37-48。
簡禎富、李培瑞、彭誠湧(民92),「半導體製程資料特徵萃取與資料挖礦之研究」,資訊管理學報,10(1),頁63-84。
因篇幅问题不能全部显示,请点此查看更多更全内容