發布時間:2023-06-06 15:56:21
序言:寫作是分享個人見解和探索未知領域的橋梁,我們為您精選了8篇的數據分析的方法樣本,期待這些樣本能夠為您提供豐富的參考和啟發,請盡情閱讀。
關鍵詞:大數據;數據分析;數據挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)03-0104-02
1 綜述
1.1 簡介
在數字化時代,需要新一代系統架構提升業務創新能力。在新一代系統架構中,大數據是核心要素。業務應用能否自主發現與自助獲得高質量的大數據,就成為業務創新成敗的關鍵。這就要在搭建大數據平臺時,就著手大數據治理相關建設。
1.2 需求和意義
從某種意義上說大數據治理架構需要以元數據為核心、提高大數據質量、透明化大數據資產、自助化數據開發、自動化數據、智能化數據安全,提升大數據平臺服務能力,讓大數據平臺變得易使用、易獲得、高質量。
但是,目前很多技術解決方案存在諸多安全和效率隱患:業務系統多,監管力度大;數據量龐大且呈碎片化分布,急需提升大數據質量;數據格式不規范、難以在短時間內找到所需數據;數據在各階段的應用角度不同,需要降低系統間的集成復雜度。
2 功能設計
2.1 總體架構
本文講述的數據分析方法及實現技術是建立在Hadoop/Spark技術生態圈的基礎之上,以實現用戶集成處理、、清理、分析的一個統一的數據處理平臺;按數據類別分為線數據、歸檔數據;按數據格式分為非結構化數據、結構化數據;按數據模型分類為范式化模型數據、維度模型數據;按數據采集頻度分為非實時數據、準實時數據處理架構;并提供數據中心平臺與安全管理方案,為企業級用戶建立一個通用數據處理和分析中心。如圖1所示。
2.2 在線數據
在線數據在線通過接口去獲得的數據,一般要求為秒級或速度更快。首先應當將數據進行區分:在線數據、或歸檔數據。本平臺中采用:Storm或Spark Streaming框架進行實現。Spark Streaming將數據切分成片段,變成小批量時間間隔處理,Spark抽象一個持續的數據流稱為DStream(離散流),一個DStream是RDD彈性分布式數據集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數操作,也可以通過一個滑動窗口的數據進行變換。
2.3 歸檔數據
歸檔數據是在線存儲周期超過數據生命周期規劃的數據,處理的要求一般在分鐘級或速度更慢。通常歸檔數據的計算量、數據量、數據復雜度均超過試試數據處理。本平臺中采用:Hadoop、Spark技術生態體系內的框架進行計算,這里不詳細闡述。
2.4 非結構化數據
通常非結構化的數據不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復和重復的子字段組成,不僅可以包含結構化數據,更適合處理非結構化數據。常見的非結構化數據包括XML、文本、圖象、聲音、影音、各類應用軟件產生的文件。
針對包含文字、數據的為結構化數據應當先利用數據清洗、數據治理工具進行提取,這項工作目前仍依賴技術員進行操作,由于格式的復雜性所以難以使用自動化方式進行較為高效的批處理。在治理數據的過程中,需要根據情況對數據本身額外建立描述數據結構的元數據、以及檢索數據的索引服務,以便后續更佳深度利用數據。
2.5 結構化數據
結構化數據具備特定的數據結構,通常可以轉換后最終用二維的結構的數據,并且其字段的含義明確,是挖掘數據價值的主要對象。
本平臺中主要使用Hadoop Impala和Spark SQL來進行結構化數據的處理。Impale底層采用C++實現,而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結構化數據的簡便的narrow-waist操作,為高級的數據分析統一了SQL結構化查詢語言與命令式語言的混合使用。
結構化數據根據采集頻度可以繼續分類為:非實時數據、準實時數據。
2.6 準實時數據
通常準實時數據是指數據存儲在平臺本身,但更新頻率接近于接口調用數據源的數據。適合用于支持數據和信息的查詢,但數據的再處理度不高,具有計算并發度高、數據規模大、結果可靠性較高的特點。通常使用分布式數據處理提高數據規模、使用內存數據進行計算過程緩沖和優化。本平臺主要采用Spark SQL結合高速緩存Redis的技術來實現。Spark SQL作為大數據的基本查詢框架,Redis作為高速緩存去緩存數據熱區,減小高并發下的系統負載。
2.7 非實時數據
非實時數據主要應用于支持分析型應用,時效性較低。通常用于數據的深度利用和挖掘,例如:因素分析、信息分類、語義網絡、圖計算、數值擬合等。
非實時數據根據數據模型可繼續分類為:范式化模型數據、維度模型數據。
2.8 范式化模型
范式化模型主要是針對關系型數據庫設計范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數據查詢、數據主題的整合。范式化模型數據的數據存儲區,建議使用并行MPP數據庫集群,既具備關系型數據庫的優點,又兼顧了大數據下的處理。
2.9 基于維度模型
維度模型數據主要應用于業務系統的數據挖掘和分析。過去多維度數據處理主要依賴OLAP、BI等中間件技術,而在大數據和開源框架的時代下,本技術平臺采用Hadoop Impala來進行實現。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數據庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優化。
3 應用效果
本系統在不同的業務領域上都可以應用,以2016年在某銀行的應用案例為例:該銀行已完成數據倉庫建設,但眾多數據質量問題嚴重影響了數據應用的效果,以不同的數據存儲方式,以更高的要求去進行數據的統一管理。通過組織、制度、流程三個方面的實施,以元數據、數據標準、數據質量平臺為支撐,實現了數據管控在50多個分支,60個局,1000余處的全面推廣,實現了全行的覆蓋;管理了120個系統和數據倉庫,顯著提升了新系統的快速接入能力;通過14個數據規范和流程明確了數據管控的分工;數據考核機制的實施,使其在數據質量評比中名列前茅。
4 結語
本文介紹了大數據下數據分析方法及實現技術的大體設計和思路,從需求分析、總體架構和數據處理以及數據分析這幾個方面來介紹。文章在最后介紹出了這種平臺的應用效果。筆者相信這些思路和技術能夠在業務中能得到很好的應用。
參考文獻
一、以認知沖突,引發學生產生數據收集與整理的強烈愿望
學生每一個學習行為的背后,都是有目的、有價值、有意義的。簡言之,學生自己要真正認識到這種學習是有用的,哪怕僅僅是因為有趣、好玩,才能激發學生進行相關學習的愿望和興趣。對于數據分析觀念的培養,教師有必要替學生問一個“為什么”,問題不必明確提出,但一定要把相關信息告訴學生,引發學生強烈的認知沖突,才會產生進行數據收集、整理與分析的欲望,才會使他們認識到學習數據分析的必要性,產生興趣,從而建立與培養其初步的數據分析觀念。
以二年級上冊“統計”一課的學習為例,學生首次接觸“統計”的相關內容。在學生尚不真正知道與理解該詞的確切含義的情況下,教材提供的課例是“統計最喜歡的動物”,以統計圖形式呈現出喜歡四種動物(小貓、小狗、小兔、烏龜)的學生的人數,并提供了3道題目,但教材始終沒有告訴學生,“為什么我要學習這個知識”、“為什么我要進行數據分析”。此時,對這一問題的提出與引導學生思考,只能由教師在不動聲色中完成。所以,教學時,利用學生愛吃零食的特點,我調整了教學思路,首先,我征得學生同意,打算用班上賣廢品的錢給學生買糖吃。此舉得到學生們的一致歡迎;其次,我要求5個小組長提前去學校門口的超市,了解糖塊的種類與價格,并告知其他同學;再次,我要求班委成員負責了解班上每一名同學的需求并進行分類、計算總量。每人限一塊,以便于合理安排買糖的數量與花費;再次,將買來的糖帶入教室,上課,進行相關的數據整理與分析;最后,完成全部教學任務后,吃糖。
當我將此想法與實際的授課過程講給其他老師聽時,有老師笑談“孩子們學習的動力就是吃糖”。我不否認這是學生們積極參與教學活動的動力之一,因為事先我有告訴學生全部的活動過程與“完不成就不會有糖吃”的話。但不可否認的是,對于二年級的學生來說,為了達成“每個同學都能吃到自己想吃的糖”這一目標,要在活動的每一個步驟都進行相關數據的收集、整理與分析,才能正確且順利地完成任務。簡言之,等于我們告訴學生,“為什么要進行數據分析”、“只因為我們需要達成一定的目的”,并且,活動的每一步驟的數據分析都有學生親自進行,并明確知曉這樣做的原因——當然不是教師的程式化的要求,這就使得學生的數據分析工作是主動的,各成員之間是相互合作的,既使學生愉快地接受了數據分析的內容與過程,也在增強學生數據分析觀念的同時,培養了學生主動學習與合作的精神。
二、挖掘數據中蘊藏的深層信息,體驗數據分析的應用價值
統計教學的一個重要目標,是鼓勵學生通過分析從統計圖表中獲取盡可能多的信息,為后續的某項工作或學習做出合理的決策。表現在教材中,數據分析觀念的首次引入即是一個簡單的“最喜歡的動物”的統計圖,接下來的每一個問題的答案無不需要從該統計圖進行尋找。這樣的例子,在學生生活中也是有接觸的。但是,教學過程中,也存在一個常見現象,學生通過統計圖表獲取的信息,多是一些最基本的、一眼即可看出的直接信息,而很少能夠對圖表上的數據信息進行更為深入的整理與分析,挖掘出更多有價值和有意義的信息來做出合理的決策。
關鍵詞:Matlab軟件;制流與分壓電路實驗;特性研究
一、分壓電路特性研究及參數的變化
首先,用1000Ω滑線變阻作分壓器,負載電阻用1000Ω(K=1),測出滑線電阻滑動端的位置參數X和U/Umax分壓比,并作出U/Umax的關系曲線。其次,同上,用1000Ω滑線電阻和500Ω的負載電阻(K=0.1),測出X和U/Umax,記錄不同的K值。在Matlab軟件中編寫下列程序實現分壓電路實驗數據的處理和圖像的擬合:
x0=0:0.1:1.0;
y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];
z1=max(y1);
y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];
z2=max(y2);
y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];
z3=max(y3);
y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
由實驗可得不同K值的分壓特性曲線,如圖1所示。從曲線可以清楚看出分壓電路有如下幾個特點:第一,不論R0的大小,負載RZ的電壓調節范圍均可從0■E;第二,K越小電壓調節越不均勻,曲線線性程度越差,細調程度較差;第三,K越大電壓調節越均勻,因此要電壓U在0到Umax整個范圍內均勻變化,則取K>1比較合適。
■
圖1 不同K值的分壓特性曲線
二、制流電路特性研究及參數的變化
首先,用1000Ω滑線變阻作制流器,負載電阻用100Ω(K=0.1),測出滑線電阻滑動端的位置參數X和分壓比I/Imax,并作出I/Imax-x的關系曲線。其次,同上,用10000Ω滑線電阻和20Ω的負載電阻(K=0.02),測出X和I/Imax,記錄不同的K值,并作出關系曲線,在Matlab軟件中編寫下列程序實現制流電路實驗數據的處理和圖像的擬合:
x0=0:0.1:1.0;
y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];
z1=max(y1);
y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];
z2=max(y2);
y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];
z3=max(y3);
y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
(上接第47頁)
■
圖2 不同值的制流特性曲線
圖2表示不同K值的制流特性曲線,從曲線可以清楚地看到制流電路有以下幾個特點:第一,K越大電流調節范圍越小;電流調節越均勻,曲線線性程度較好;第二,K(K≥1)時調節的線性較好;第三,K較小時(即R0>RZ),電流調節范圍大,電流調節越不均勻,曲線線性程度越差,細調程度較差;第四,不論R0大小如何,負載RZ上通過的電流都不可能為零。第五,制流電路適用于負載電阻較小,功耗較大,電壓調節范圍較小的場合。
綜上所述,當負載電阻較大時,要求調節范圍較寬時宜采用分壓電路。相反,在負載電阻較小,功耗較大且調節范圍不太大時,選用制流電路較好。
參考文獻:
[1]陳玉林,李傳起.大學物理實驗[M].北京:科學出版社,2007:186-190.
[2]穆曉東.制流與分壓電路實驗參數的選擇與確定[J].大學物理實驗,2004,(01).
從現實著眼,從宏觀層面反映城市在全國范圍內的競爭力與綜合影響力的“國內知名度”對于進行中國區域城市的比較研究具有重大意義:一方面,通過分析中國城市在經歷從帶有濃厚農業社會傳統向快速現代化轉型的進程,有利于揭示政治、經濟和文化在城市知名度建構機制中的作用關系;另一方面,在中國區域現代化發展進入到攻堅期的背景下,城市國內知名度的研究可以為區域城市競爭力對比分析提供精準切入點。特別是對于處于中國經濟和文化中心的蘇南地區而言,對區域內城市的國內知名度的變遷軌跡和結構特征進行歷史比較分析,并與其他區域的代表性城市進行空間對照觀察,能夠在一般意義上歸納出在社會轉型過程中中國城市的發展機理以及動力構成。
盡管關于城市知名度的研究日益成為城市文化領域的“顯學”,但梳理以往的相關研究,我們不難發現:絕大多數研究是以理論探討為旨趣,并且研究視域較為狹隘,缺乏從全面整體的維度對城市文化影響力進行研究。并且在一些采取量化分析方法的研究中,其操作化指標在可信性、全面性、有效性等方面也備受質疑。究其原因,一方面是由于采用抽樣調查的資料收集方法不可避免地要承受成本巨大和樣本代表性難以得到可靠保證的風險,而更為關鍵的則是在現有的技術條件下既難以在空間維度上保證基于全國范圍內的系統測量和分析,也無法在時間維度上完成大跨度的歷史回溯和描述。Gary King認為,由互聯網時代衍生而來的、具備超大規模和海量信息特性的“大數據”很有可能會打破定性與定量研究的方法和技術壁壘,進而為社會科學、人文科學領域開拓嶄新的分析思維和研究路徑。因此,在互聯網時代蓬勃興起的“大數據”為我們針對大跨度的城市國內知名度歷史演化進程進行精準測量提供了新的研究路徑。特別是通過大數據的比較和總結性的分析,可以看到城市知名度不僅可以作為城市形象一般性表達的符號和說明,而且也是建構城市核心競爭力和提升城市軟實力能級的前提和必要條件,知名度特別是在高美譽度前提下形成的城市知名度,既是一個城市的特色和文化價值的表達,也是城市文化軟實力的集中表現,還是“城市文化資本”再生產的前提和文化場域。
(二)以谷歌圖書和百度指數為基礎的大數據
谷歌圖書(Google Books)的創立和互聯網搜索引擎的發展,為在社會科學領域內有效克服“大數據”所存在的資料獲取難度大、以及學界對其與社會科學研究之間適用性、樣本代表性、測量方法的信度和效度等爭議提供了有力支持。自2004年年底以來,谷歌公司與哈佛大學、劍橋大學等40多所國際知名大學及相關出版社合作,對館藏圖書及出版社贈書進行了數字化的建設,截止到2013年,谷歌圖書最新版語料庫中被掃描和識別的圖書已經超過3000多萬種,目前可供進行全文檢索和數據分析的書籍高達8116746種,詞匯量為8613億。其中,漢語(簡體)書籍和詞匯數量分別為30萬種和269億。表1展示了谷歌圖書語料庫2012年第2版的主要構成,其數據資源規模的超大體量性和極佳的時空代表性為從事中國社會問題的歷史性組群對象和現實社會問題的研究提供了技術可行性支持。
此外,由于近年互聯網的迅速崛起已經深刻改變人類社會信息資源聚合方式,加之谷歌圖書書籍詞頻檢索時間存在的限制(截至到2008年),并且基于中國大陸網絡用戶對于搜索引擎使用習慣的考慮,我們認為有必要結合中國國情引入在中文世界中占據核心地位的百度搜索引擎來更加精確、全面地反映處于中國大陸范圍內各大城市在本土的受關注度情況,以進一步提高樣本的規模性和代表性。我們采用2011-2016年百度指數的“用戶關注度’,大數據來分析蘇南城市及其他中國主要大城市國內知名度在此期間的變動情況。
這一分析方法的意義還有,對于相關城市地名出現的頻率和范圍可以從一般意義上佐證知名度的程度和價值,雖然個別大事件,特別是負面意義的大事件,對城市知名度的影響度有較大的影響。但是,在一個較長的時間段內,人們主要關注的是某一城市的整體文化意義,如人們對某城市的歷史領域、建筑領域、文化藝術領域等所進行的學術研究和傳統文獻的表述。因為城市本身的歷史與現實的價值而對某城市本身的關注較多,其知名度自然以正面取向和積極意義為主。不言而喻,知名度本身選詞的海量意義來說,知名高與經濟社會發展的正向、城市優良的環境、城市創新性及向上的積極意義呈正相關。
(三)城市國內知名度的概念操作化及測量
應該明確,本文所研究的城市知名度是指公眾對某城市綜合意象的正向性認知,并且依托在全社會諸領域內的綜合影響力而提升關注度,而非藉由惡意炒作而“吸引眼球”,以及因重大安全事件和集體性事件而增加關注度。因此,如何尋找更具科學性的測量工具以便從海量無結構的數據中提煉出同時具有時空結構性和研究匹配性的數據就顯得尤為重要。筆者認為,語言學中的語料庫詞頻分析的方法可以對某一關鍵詞在特定時段內其所蘊含的文化影響力進行有效測量。在社會科學領域應用“詞頻比例”方法具有充分的邏輯嚴密性與系統科學性。一方面,從語言學角度來看,社會歷史進程中的多數事件和現象都是依靠書籍語言得以記錄,其在承載知識、思維和觀念等抽象事物上最具有正式性和權威性。而且,書籍語言不僅蘊含了筆者的觀點和意圖,而且更能反映當時公眾思維傾向和社會整體風尚。超過半個世紀的漢語印刷書籍在某種意義上匯聚了建國以來整個中國社會的知識、觀念與經驗。由于谷歌圖書語料庫具有充分的規模性、跨度性和代表性,我們可以邏輯性地假定某一詞匯出現在其中的相對頻次能夠近似地反映這個詞匯本身及其蘊含的“文化影響力”,即知名度、公眾關注度等,甚至折射出某種社會趨勢、風尚或思潮。目前,基于谷歌圖書的詞頻統計研究已經在國際語言學和歷史學界得到廣泛應用。比如Jean-Baptiste Michel等人率先利用谷歌圖書語料庫展開的文化史定量分析,阿瑟比等人對其中的情感用詞變遷和英語地區差異進行的研究,以及賓利等人在書籍詞匯與經濟發展周期之間進行的關聯性分析等[l0],都給我們帶來很好的研究經驗與證明。
在本研究中,我們利用谷歌圖書的所有漢語(簡體)書籍(1949-2008年)和百度指數(2011-2016年)的全部搜索記錄作為語料庫(Corpus ),并將提及有關蘇南地區和其他城市的詞匯頻次,作為衡量城市國內知名度的測度,從而在超越以往相關研究的時空跨度上對區域性城市乃至全國范圍的城市國內知名度的歷史變遷軌跡進行全景探索和深度分析。在具體算法上,由于谷歌圖書內漢語書籍中的詞匯在數量上不盡相同,為增強數據的時間可比性,
我們用關鍵詞出現頻數除以當年的詞匯總量。具體的計算公式為:
其中,F表示在公元Y年城市i的出現次數,F為在公元y年中出版書籍的全部詞匯量、為在公元y年城市i的同頻比例,即國內知名度。
百度指數中用戶關注度的計算公式是根據在所選定時段內百度網頁或百度新聞的用戶搜索量的周平均值得出,其如下:
關鍵詞:質量管理,統計分析,船舶設計
中圖分類號:U673.2 文獻標識碼:A
Data Analysis Method of Quality Control Applied for Ship Design Project
LI Lanjuan
( Guangzhou Marine Engineering Corporation, Guangzhou 510250 )
Abstract:Statistic and analysis for drawings which are censored by CCS with a new data analysis method of quality control. It can reflect technique level of each profession clearly, then we can adjust to achieve the aim of improve design according to requires.
Key words: Quality control; Data analysis; Ship design
1概述
在船舶設計項目質量管理中,對設計圖紙的差錯率進行統計分析非常重要,不僅可以總結經驗,還可以找出設計環節中的薄弱之處,進而有針對性地采取改進措施,降低圖紙差錯率和圖紙修改率,最終達到提高設計質量的目的。本文將一種全新的質量管理數據分析方法應用到船舶設計項目中,對某船送中國船級社(CCS)廣州審圖中心的各專業圖樣文件進行了統計和分析。首先對CCS審圖意見類別及其導致修改的原因進行統計,然后對統計結果進行分析,最后針對產生原因采取相應的改進措施。
2專業審圖意見類別和原因分析
對各專業分別進行統計和分析,有利于了解各專業本身技術力量的實際情況,以便專業負責人做出適時的調整,對薄弱之處加以改進和提高。根據CCS的審圖意見類別,對某船各專業的圖樣文件進行統計,然后根據CCS提出的意見進行原因分析。
為了方便分析,設置下列不同的代碼,表示不同的審圖意見類別和原因分析含義。
(1)審圖意見類別代碼含義:
A-認可無意見;
AC-認可有意見;
N-備查無意見;
NC-備查有意見;
TS-轉送現場驗船師審核;
RS-不予批準,需修改后重新送審。
(2)原因分析代碼含義:
B1-設計方案欠妥;
B2-設計接口不協調;
B3-不符合現行有效的規范、法規要求;
B4-標識不明或有誤;
B5-其它。
下面對輪機專業進行舉例說明:
該專業的意見類別統計見表1,原因分析統計見表2。
表1輪機專業CCS審圖意見類別統計表
表2輪機專業原因分析統計表
由表1可清楚地看出某船輪機專業圖樣文件的退審意見分布情況。其它專業也分別如此進行歸類和統計,便能了解本專業圖樣文件的退審意見分布情況,并且還可將各專業的退審情況進行比較。
由表2可清楚地看出某船輪機專業圖樣文件的差錯分布較為集中在B3 (不符合現行有效的規范、法規要求),其次是B1(設計方案欠妥),說明輪機專業在這兩方面需采取措施加以改進。其它專業也分別如此歸類和統計,這樣就能清楚地了解各專業自身的薄弱環節在何處,從而可采取相應的措施來改進和提高。
3全船審圖意見類別和原因分析
為了使分析具有全局性,對各專業之間進行比較之后,需對全船進行統計和分析,這樣有利于找出整體中的薄弱環節在何處。某船全船圖樣文件的CCS審圖意見類別統計見表3;原因分析統計見表4。
表3全船CCS審圖意見類別數據統計表
表4全船原因分析統計表
由表3可清楚地看出各個專業退審圖樣文件的總體情況。由表4可看出各個專業圖樣文件的退審意見主要集中在B3(不符合現行有效的規范、法規要求),說明在這一環節所有專業均比較薄弱,特別是電氣專業,因此需專門針對這一環節制定改進措施。
通過對全船的退審圖樣文件進行統計和分析后,使項目負責人能清楚地掌握各專業的實際工作情況與整個項目組中的薄弱環節所在,以便采取改進措施,從全局出發對各專業的技術力量進行調整,進而提高產品項目設計質量。
4結論
在船舶設計項目中采用這種全新的質量管理數據分析方法,不僅能清晰地反映出各專業本身的優劣勢,還能反映出各個專業之間技術力量的強弱差別。這樣不但讓專業負責人能了解本專業的問題所在,并采取相應的改進措施,同時也能讓項目負責人掌控全局,根據需要對各專業進行協調,從而提高產品項目的質量,降低圖樣文件的差錯率。
作者簡介:李蘭娟(1979-),女,工程師。從事項目管理與質量管理工作。
收稿日期:2013-07-05
國際動態
日本獲得6艘靈便型散貨船訂單
近日,Sesoda公司表示,通過其子公司及合資公司(JV)訂造了2艘34000DWT型及4艘38000DWT型散貨船。相關散貨船的新造船價分別為“每艘2500萬美元以下”及“最高2600萬美元”水平。
這些新造船將在日本Namura(名村)造船、Imabari(今治)造船以及匿名的其他日本造船廠進行建造,安排在2016-2018年交付。
南日本造船獲4艘甲醇運輸船訂單
1.1 系統建設必要性
隨著世界經濟形勢和金融環境發生的巨大變化,作為金融市場中的重要組成部分,商業銀行在發展中面臨的風險很多,而信用風險始終是其面臨的最主要風險之一,也是影響一國經濟發展的主要因素。與此同時,監管部門也規定商業銀行新資本協議的整體規劃和實施路徑中,信用風險數據集市是新協議實施合規達標的必要條件之一。
在此背景下,結合時下迅速發展起來的“大數據”思想,在商業銀行信用風險管理中,構建信用風險數據集市成已為必然的選擇。
1.2 銀行同業系統建設情況
近年來國內外同業銀行期紛紛開展風險數據標準設計與風險數據集市建設項目。通過數據系統的建設加大對各類內外部數據的運用,借此提高風險管理的能力和水平。
國外方面,在不斷加大對信用風險管理的關注力度和研究力度的同時,各類數據運用系統的建設已全面展開并在信用風險管理中得到了運用。Mckinsey公司的研究表明:信用風險占銀行總體風險敞口的60%,是導致銀行破產的最主要因素,也是導致區域性金融危機甚至全球性金融危機的根本原因之一[1]。國外的許多先進銀行已實現了內外部數據的高度整合,并已積累了大量歷史數據,建立起各自的信用風險違約數據庫。
國內方面,我國的商業銀行也在緊跟國際發展步伐,近年來也逐步建立起了基于計算機技術的信用風險管理體系。如:平安銀行開展了“風險數據集市建設項目”;寧波鄞州銀行開展了“全面風險管理系統項目”;徽商銀行開展了“徽商銀行零售信用風險數據集市項目”;天津農商行開展了“信用風險數據集市管理系統項目”等[2]。但與國外先進銀行相比,還存在較大的差距,因此需要加快基于數據的信用風險管理系統。
2 信用風險數據集市構建探索
2.1 信用風險數據集市定位
信用風險數據集市的定位是構建一個適應商業銀行數據特點和信用風險管理需求的數據中心系統,為進一步完善商業銀行全方位、多層次的信用風險管控體系服務。通過對海量的內外部數據按不同主題進行區分和加工,計算出各類指標等中間數據和衍生數據,將數據中的隱含信息最大程度的加以挖掘、表達和運用,為信用風險管理提供服務。
2.2 信用風險數據集市建設目標
信用風險數據集市的總體建設目標是建立一個以信用風險管理為主、面向全行各業務部門的、支持各類信用風險應用的數據集市環境。數據集市的數據范圍需要覆蓋銀行內部客戶方面、交易與投資業務方面、信貸資產業方面的所有細節數據與相關風險應用的派生數據,為各個不同的風險應用系統之間提供數據共享服務,以保證全行一致的風險數據視圖根據信用風險數據集市的定位,并結合商業銀行信用風險管理的需求和特點,系統的建設目標主要包括以下幾方面:
1) 解決各系統數據分散、彼此獨立的問題,構建全行性的數據平臺,對來自不同系統的數據進行整合后的共享,實現數據的統一管理和利用。
2) 盡可能多的收集并利用與信用風險相關的各類外部數據,如工商、稅務、征信等方面的數據,使商業銀行內部的信用風險管理從有限的內部資源中延伸到廣闊的外部環境中,利用更多有價值的數據信息為信用風險管理服務。
3) 對獲取的基礎數據進行掘取和加工,提煉出客戶、產品、行業、機構等不同維度中的隱含信息,分析并掌握數據背后的潛在規律,為信用風險管理提供依據,完成業務數據向信用風險管理信息的過渡。
4) 面對信用風險管理中不同下游應用系統的數據需求,在集市內部區分不同的數據模型,在集市外部提供統一的數據供應平臺,保證各應用系統間數據的統一性。
5) 解決行內各部門間信息不對稱的問題,統一內外部監管報表數的據口徑,實現集市自動對不同系統、不同報表之間數據的校驗,提高報表數據質量,并提供靈活查詢工具實現隨時、隨需提取數據生產報表。
3 系統總體架構
3.1 數據采集方案
信用風險數據集市是對數據進行應用的系統,因此數據采集是保證系統性能和應用效果的前提和基礎。在設計數據采集方案時需要重點考慮數據質量、采集效率、ODS數據庫建設以及數據處理過程ETL的實現。
為保證數據質量,除了在系統建設初期通過數據分析和業務部門訪談來查找和修正錯誤數據外,在系統架構的設計中也應該引入數據質量管理和控制機制,在數據采集的源頭上做好數據質量管理和控制,避免因數據質量問題造成上層應用的失真。
數據質量管理和控制機制的工作原理如圖1所示。采集來的數據被存儲在數據存儲區中,在數據存儲區之后設定一系列的數據質量檢查規則對數據質量進行檢查。質量檢查規則是通過數據質量規則庫來完成的,數據質量規則庫是事先定義好的檢查規則,當然也可以隨時對其中的規則進行修改和補充。
ODS數據庫對數據的采集應當實現的目標是:將內部各業務系統數據及外部不同來源的數據采集至統一的ODS數據倉庫,再經過統一的ETL處理過程后供應給信用風險數據集市,如圖2所示。
各業務系統數據先經過ODS匯總后,再統一供應給集市,這樣可大大提高數據采集效率,同時減少數據冗余問題,并節省存儲空間。
ETL的處理過程是指數據的抽取、轉換和裝載,主要作用是減少對數據倉庫時間窗口的占用,減少數據的轉換過程。隨著基于信用風險數據集市應用的增多,ODS到ETL的過程應減少依賴性,避免應用的增加造成ETL的重復開發。
上述的數據采集架構,從數據的采集路徑與環節看,數據流明確,環節簡單,對原業務系統影響很小。而信用風險數據集市的數據統一來源于ODS,也能保證系統的安全性也較高,且有效避免了重復的數據整合與轉換工作[3] 。
3.2 系統邏輯結構設計
信用風險數據集市以挖掘數據中的信用風險信息為目的,對于數據的應用應打破關系型數據庫理論中標準泛式的約束,將業務系統的數據重新組織和整理,為各類信用風險應用提供數據支持。在對整個系統的邏輯結構進行設計時,應從面向應用的角度出發,采用“自頂向下”的設計方法,對數據分層處理、逐層加工。按照這個思想,將信用風險數據集市的邏輯結構設計如圖3所示。
系統邏輯架構自下而上分為三層 :基礎層、模型層和應用層。基礎層包括從ODS數據倉庫以及ETL處理過程;模型層包括數據緩沖層、基礎整合層、加工匯總層和應用接口層;應用層指針對信用風險數據的各類應用,如:為相關系統供數、RWA及經濟資本計算、固定報表、靈活查詢、指標查詢等。
3.2.1 基礎層的設計
基礎層的關鍵在于ETL過程的設計。ETL過程的作用是將ODS獲取的數據,經過一系列加工處理加載進信用風險數據集市的過程。ETL處理流程主要包括以下主要步驟[4]:
數據抽取:數據抽取就是將集市需要的業務數據從ODS數據倉庫抽取到ETL的數據轉換區的過程;
數據檢查和出錯處理:在數據轉換區中,對源數據質量進行檢查,形成檢查報告,并進行相應的出錯處理,對于嚴重錯誤,需要系統維護人員現場做出相應的處理。
數據轉換:數據轉換包括對源系統數據進行整理、剔除、合并、驗證等一系列轉換工作,最后形成集市數據結構所需的數據,存放在轉換區的數據表中。
數據加載:數據加載將數據轉換的結果數據加載到集市,并形成數據加載情況的報告。
經過以上ETL處理流程,能夠使數據源穩定的、周期性的導入到信用風險數據集市中。
3.2.2 模型層的設計
模型層是信用風險數據集市的核心,這層的作用是組織信用風險管理所需的數據,形成信用風險類應用的數據基礎。基礎區按不同風險主題采用模型化結構存儲信用風險應用所需的各類明細業務數據。因為各類信用風險采用的計量方法不盡相同,因此基礎區按不同風險主題對數據進行整合。又因基礎數據來自不同的源系統,結構復雜多樣,為將這些數據整合、關聯起來,形成完整的信用風險數據信息,同時在結構上保持一定的穩定性和一致性,因此在不同主題下采用模型化結構對帶有同樣業務特征的數據進行分類存儲。
在模型層,經過ETL處理后的數據被存儲在數據緩沖層中。數據緩沖層是一個數據臨時存儲區,其作用是等待數據被進一步調用。
在數據緩沖層之上是基礎數據整合層,在這層中,集市將按照不同主題域對數據做初步的區分和整理。主題域的劃分是逐層細化的,基礎整合層主要有對公信貸、零售信貸、公共主題、投資交易幾個主題。其中對公信貸包括參與主題、客戶評級、交易活動、業務流程、風險緩釋、債項評級、不良資產、財務信息等二級主題;零售信貸包括個貸、個人征信、信用卡、零售分池、中小企業等二級主題。
經過基礎整合層的主題域劃分,各類業務明細數據和外部數據已被做出初步匯總和區分,不同來源的數據經過主題的劃分被有效關聯起來,數據間的聚合程度得到了提高,有利于數據的進一步運用。
基礎整合層之上是加工匯總層,加工匯總層完全由應用驅動,根據信用風險管理應用需求來存儲和加工匯總后的指標數據等。該部分可以根據不同應用系統的指標進行劃分二級主題,也可以根據風險的收益、資本、敞口等等進行劃分主題對基礎整合層的數據加以挖掘和提煉,進一步從基礎數據中提取有效信息,產生更多的中間數據、指標數據和衍生數據。
信用風險數據集市中,直接與各類應用對接的是應用接口層。這層定義了集市與具體應用間的數據接口、數據文本、視圖和建模款表等,將數據模型中的信息通過具體應用表達出來,使信用風險應用得以實現。
3.2.3 應用層的設計
應用層是信用風險數據集市建設的目的所在,根據商業銀行信用風險管理方面的具體需求可通過信用風險數據集市支持內部評級系統、風險預警系統等系統的建設,完成RWA及經濟資本和各類指標的計算,提供內外部監管報表的查詢等。在下文中將對信用風險數據集市的具體應用展開進一步探討。
4 信用風險數據集市的應用
信用風險數據集市的應用總體可分為三個方面:數據支持、報表和統計分析和決策支持,如圖4所示。
4.1 數據支持類應用
數據支持是指為各類信用風險管理類的系統供數,滿足各類信用風險應用系統的數據采集需求,保證這類系統的應用的順利實現。同時也與這類信用風險應用系統進行交互,即不僅為下游應用系統提供數據支持,也吸收這類系統產生的數據結果,用于更多的信用風險管理當中。因此,信用風險數據集市在數據支持方面是雙向的,數據流的進、出兩條線是并行的。
4.2 報表和統計分析類應用
報表和統計分析的應用分為定制報表和靈活查詢。定制報表指根據信用風險管理的內外部監管報表需求,按確定的報表樣式、數據口徑、取數規則、勾稽關系和報表頻度等制作出直接可用的報表。靈活查詢則是不針對具體報表需求的數據提供,只提供足夠多的數據字段,由用戶自己根據需求選取所需字段并加以組合,形成符合自身需求的報表或查詢結果。
4.2.1 風險分析主題的劃分
在實現報表和統計分析類的應用中,應重點考慮兩方面問題:一是如何最才能大程度的滿足各類不同的報表或數據查詢需求,二是需要考慮隨著業務的發展以及信用風險管理的不斷深入,報表和統計分析的需求還將不斷增長和擴展。從這兩點出發,需要將數據區分成不同的風險分析主題。
風險主題的劃分應從報表及統計分析的需求出發,先把集市中已有的數據區分成諸如資產質量、不良資產、預警監控等不同主題,再對每個主題進行挖掘和補充,利用已有數據產生更多隱含數據,豐富每個主題的數據字段。每個主題之間是彼此獨立但又相互調用的關系。除了劃分風險分析主題外,商業銀行還可以針對自身的需求和特點建立專題話的分析主題,如集團客戶分析,關聯交易分析等。
4.2.2 報表工具的選擇
報表和統計分析類應用的另一個難點就是靈活查詢的實現問題。提供靈活查詢功能的目的在于使用戶可根據需要隨時提取數據信息或生成報表。因此,靈活查詢需要結合專門的報表工具才能得以實現。
綜合考慮報表工具的緩存能力、數據提取的靈活程度等方面,選擇了ORACLE公司的BIEE報表工具。它不僅在數據緩存和提取上表現良好,還可以完整的連接企業內各個異構數據源,從而使報表制作變的更加智能。用戶可以通過不同數據字段、度量維度和分析維度輕松組合出所需的報表,必要時還可以通過圖形展示。
4.3 決策支持類應用
決策支持引進不同的決策分析模型,通過大量的數據計算對某個風險專題進行推演,其計算 結果可反映管理決策的可行性或給出可供選擇的方案。如RWA及經濟資本的計算、壓力測試、組合管理等都是信用風險數據集市在決策支持方面的應用。
5 結束語
本文從商業銀行信用風險管理發展的需要出發,結合內外部監管要求,探討了信用風險數據集市的建設方法,并詳細闡述了系統在數據質量控制、數據模型設計和具體運用方面的構建思路并給出解決方案。
從商業銀行信用風險管理的發展趨勢來看,信用風險數據集市必將過渡更為包含更多數據信息的大數據系統,并且還要從獨立的系統發展成為與云端數據交互的共享系統。
參考文獻:
[1] 王彥龍.企業級數據倉庫原理、設計與實踐[M].北京:電子工業出版社,2009.
關鍵詞:RFID匹配數據;異常數據;數據有效性析;檢驗
1 背景
城市化和機動化的迅猛發展,使得城市機動保有量日漸增加,隨之而來的是城市范圍內的交通擁堵現象,降低了城市交通系統的運行效率,嚴重影響了城市居民的日常工作和生活。為了應對城市交通擁堵問題,基于先進技術應用的城市智能交通系統建設得到了廣泛的關注,發展迅猛。如結合2008年北京奧運會建立了北京奧運智能交通管理與服務綜合系統;結合2010年上海世博會建立了上海世博智能交通技術綜合集成系統;結合2010年廣州亞運會建立了廣州亞運智能交通系統及應用,一方面為上述重大體育比賽或文化盛會的順利完成發揮了保障和支撐作用,另一方面,又形成了一系列的解決我國城市交通擁堵的研究成果和技術解決方案。
和傳統的交通系統相比,廣泛的交通信息采集和處理是智能交通系統獨有的特點。在智能交通系統建設過程中,已經有一系列的交通檢測技術得到了應用,如傳統的磁感應線圈技術、微波檢測技術、視頻檢測技術等,并在城市智能交通系統的建設領域獲得了廣泛的應用。隨著信息采集和處理技術的進一步發展,當前以RFID(Radio Frequency Identification)技術為典型代表的基于物聯網技術的城市交通信息采集技術日益發展,并已經在一些城市得到了應用,如南京已經建成的基于RFID技術的城市交通信息采集平臺,可以采集到每一輛車的通行信息和特征信息,形成了海量的交通數據庫,奠定了交通分析和信息挖掘的基礎。
然而隨著信息處理技術的不斷發展,城市交通系統領域雖然已經相繼建立了大量的信息系統,積累了海量的交通數據,但是很多系統出現了“數據豐富,信息貧乏”現象,數據質量不高是原因之一,主要表現在交通數據庫中存在相當數據的錯誤數據、缺失數據和可疑數據等三類問題[1-2]。為了應對上述數據質量問題,數據有效性檢驗技術應運而生。本文以目前領先的交通數據采集技術RFID技術為研究對象,分析RFID匹配數據的有效性,并提出基于統計技術的RFID匹配數據有效性檢驗方法,以為后續的RFID數據挖掘和分析提供數據支撐。
2 交通數據采集和有效性檢驗綜述
2.1 交通數據采集方法
城市交通運行狀態的實時采集技術,或城市交通運行狀態的實時感知技術是構建有效的城市智能交通系統的基礎。常用的道路交通狀態采集方法如下所述。
⑴感應線圈。感應線圈是一種常用的道路斷面交通數據采集技術,其原理是通過預埋在道路面層下的感應線圈感知通過的車輛,并計算交通狀態數據,主要包括斷面流量,交通流斷面速度,占有率,其優點是技術成熟,成本較低,可以探測到所有經過感應線圈的車輛數據,缺點是須埋入路面,維護困難,受自然和車輛影響較大;并當車輛擁堵嚴重時,檢測精度下降。
⑵微波檢測器。微波檢測器是一種常用的道路斷面交通數據采集技術,其原理是通過車輛的反射回波分析進行車輛檢測,優點是在路側安裝,不影響路面,維護方便,在車流較為均勻穩定時準確度較高,缺點是在擁堵路段或者車流不穩定路段檢測精度較低,特別是在有大車遮擋時檢測效果不理想。
⑶視頻檢測器。視頻檢測器是一種常用的道路斷面交通數據采集技術,其原理是通過視頻攝像機作為傳感器采集交通視頻,并在視頻采集范圍內設置虛擬檢測區,通過視頻背景值的變化來檢測車輛,優點是路側安裝,不影響路面,價格便宜,缺點是易受惡劣天氣、燈光和陰影等環境的影響。
⑷浮動車。浮動車是一種常用的路段交通數據采集技術,其原理是通過在車輛上配置位置檢測器如GPS等,實時檢測車輛的行駛軌跡,并計算路段交通狀態數據,其優點是交通數據準確,可以直接計算路段交通數據,缺點是交通數據采集樣本受到檢測車輛的限制,難以構建整體交通狀態數據庫。
⑸車牌匹配。車牌匹配是一種基于圖像處理的路段交通數據采集技術,其原理是通過視頻檢測等技術,在路段兩端進行車輛車牌特征匹配,從而獲取路段交通狀態數據,其優點是可以獲得較多的路段交通狀態數據,一旦匹配成功,數據準確度較高,同樣,其缺點是車牌匹配受到車牌檢測技術限制很大,在復雜交通環境下難以實現有效的車牌識別及匹配。
上述傳統的交通數據采集技術側重于對交通流信息的采集,對單個車輛信息的關注整體上來說不高;雖然個別方法如車牌匹配技術考慮到了車輛的識別信息,但上述識別信息受到圖像處理技術和復雜交通環境的限制,仍需采用更加先進的技術加以完善和提高。物聯網技術,特別是以RFID技術為代表的車輛網技術發展,為單一車輛特征數據的采集奠定了技術基礎,使得車輛信息和車流信息的綜合采集成為了可能,為實現道路交通系統的綜合感知提供了前提。
2.2 交通數據有效性檢驗
數據檢驗技術最早出現在美國,初期主要是針對全美社會保險號,取得了良好的效果。在交通數據有效性檢驗領域,由于交通數據采集方法的限制,主要是針對基于線圈的交通數據,常用的檢驗方法主要包括邏輯檢驗方法,閾值檢驗方法,基于交通流理論的檢驗方法,綜合檢驗方法等[3-6]。邏輯檢驗方法是檢測交通數據中的一些明顯的邏輯性錯誤,如數據采集時間漂移、重復記錄等,可以通過人工觀測的方法實施。閾值檢驗方法是常用的一種數據有效性檢驗方法,其主要的原理是根據歷史交通數據資料、經驗公式或者交通流的基本理論,確定交通流參數的可能的取值范圍,如流量、占有率或者速度等,并根據上述確定的范圍的采集到的相應交通流參數進行檢驗,認為落在預定范圍的交通流數據是可疑的。這個方法簡單易行,但是閾值的確定往往受到多種因素的影響,在不同的情況下需要進行特定的研究。基于交通流理論的檢驗方法的基本原理是交通參數之間應當滿通流理論的規定性,如交通流量、密度和速度的三參數模型等,在出現不滿足上述交通流模型的情況時,所采集到的交通流數據是可疑的。綜合檢測方法是將閾值檢測和交通流理論檢測等方法綜合應用,以尋找交通流數據樣本中的更加隱蔽的可疑數據,常用的如最大密度法和平均有效車長法等。
在RFID數據有效性檢驗方面,當前的主要研究內容是針對RFID的原始數據流進行有效性檢驗,主要方法有滑動窗口方法[7]、時序關系法[8]、自適應時間閾值法[9]等,然而在基于RFID技術的交通數據有效性檢驗方面還處在初級的階段,研究成果并不多見。
3 RFID技術與RFID匹配數據
3.1 RFID技術
無線射頻識別技術(簡稱RFID)是一種非接觸式自動識別技術,其基本原理是利用射頻信號或空間耦合(電感或電磁耦合)的傳輸特性,實現對物體或商品的自動識別,被廣泛應用于物流、供應鏈、動物和車輛識別、門禁系統、圖書管理、自動收費和生產制造等領域。RFID射頻自動識別技術由電子標簽(Tag)、閱讀器(Reader)和數據交換與管理系統(Processor)三大部分組成。當攜帶電子標簽的物體在距離0~10米的范圍內接近閱讀器時,閱讀器內部控制系統控制閱讀器發出微波查詢信號;安裝在物體表面的電子標簽收到閱讀器的查詢信號后,將此信號與標簽中的數據信息合成一體反射回電子標簽讀出裝置,反射回的微波合成信號已攜帶有電子標簽數據信息,閱讀器接收到電子標簽反射回的微波合成信號后,經閱讀器內部微處理器處理后即可將電子標簽貯存的識別代碼等信息分離讀取出,進一步傳輸到數據交換和管理系統存儲,也可以通過相應接口導出至數據庫進行第二層面的處理。
RFID技術最大的優點在于非接觸,在完成識別工作時無需人工干預,適用于自動化系統,概括起來,RFID技術具有以下特點:1)識別精度高,可快速準確的識別物體,2)采用無線電射頻,可以繞開障礙物,并透過外部材料讀取數據,可工作于惡劣的環境中,3)可以同時對多個物體進行識讀,4)儲存的信息量大且信息可加密保存,是一般條形碼存貯信息量的幾十倍,甚至上百倍。
3.2 RFID匹配數據
RFID原始數據包括每輛裝有RFID標簽的車輛通過各RFID基站的過車數據,包括通過該基站的時間和RFID標簽中存儲的準確的車輛信息,如車牌等。利用傳輸系統將讀寫器采集到的車輛信息傳回到交通信息中心后,基于RFID基站采集到過車車牌號和車輛通過時刻,針對任意一組和路網相匹配的RFID基站對,可以匹配得到每一輛車通過該RFID基站對的平均行程車速,此類由相鄰基站匹配而得到的數據稱為匹配數據。值得說明的是,在RFID匹配數據的計算過程中,RFID基站對的構建是基礎,必須考慮到路網的幾何拓撲結構,在進行車流方向分析的基礎上,形成以RFID基站對為基礎的完備的RFID基站網絡。
可以看出,上述RFID匹配數據的計算是基于RFID技術的交通數據采集系統中的關鍵環節之一,其匹配數據直接體現了每一車輛的行駛狀態信息,為進行進一步的數據處理、獲得其他交通數據參數奠定了基礎。在上述過程中,由于交通路網和交通駕駛行為的復雜性,RFID匹配數據往往也存在和傳統交通數據采集方法相類的數據質量問題,需要加以分析和檢驗,提高RFID匹配數據的有效性和質量。
4 RFID匹配數據有效性分析和檢驗
如上所述,高質量的交通流數據是智能運輸系統得以實現預期功能的基礎。RFID技術作為在智能交通數據采集技術的最新發展,具有快速獲得大量車輛信息的特點,其中RFID匹配數據是其中最為基礎和重要的數據。為了提高RFID匹配數據的質量,有必要對RFID匹配數據進行有效性分析和檢驗,以提高數據集質量,奠定后續數據挖掘和分析的基礎。以下以南京市建設的基于RFID技術的交通系統采集平臺為對象進行RFID匹配數據的有效性分析和檢驗。
4.1 RFID匹配數據分析
⑴數據選擇。RFID匹配數據的選擇包括RFID基站對的選擇和分析時段的選擇,如下所述。
1)選取基站對:根據基站所在道路的不同類型和交通狀況,選取RFID樣本基站對。路段類型主要選取主干道、次干道和支路3類,交通情況選取擁堵、交通量較大、自由流3種情況,則共選取3*3=9種情況下的基站對,各選取5個基站對,共45個基站對。在選取時要注意選取有視頻的基站對,以對比查看道路交通狀況。
2)選取時間段:選取高峰、平峰、夜間三種情況的時間段共2小時,如7:30-8:00,14:00-14:30,1:00-1:30。
⑵實例分析。在選定數據的基礎上,采用如下步驟進行數據的分析,即調取每個RFID基站對在某一時間段內各匹配數據經過起終點基站的時刻數據,逐個查看其時間差t,若t
1)繞路導致行程車速為負值。分析發現在RFID基站對(6117,6115)在2012/10/23日14:00-14:20內的過車數據中,“蘇0001”的行程車速為負值,明顯是錯誤數據(為保護駕駛人隱私,本文對車輛牌照信息加以隱藏處理,下同)。追蹤該車在當日17:30-17:50的過車路徑情況如下圖1所示,可以看出,該車輛依次經過RFID基站6117和6115后,因兩次調頭,又經過了RFID基站6116,并再次經過了RFID基站6117,在數據匹配時,由于RFID基站檢測技術在路段上基站檢測范圍外的檢測和跟蹤盲點,將通過RFID基站6115的時間和第二次經過RFID基站6117的時間進行了匹配,導致了行程車速為負的情況。
2)繞路導致行程車速過小。基站對(6024,6026)在2012/10/23日17:30-17:50的過車數據中的速度分布如圖2。通過視頻跟蹤發現當時該基站對間路段的交通狀況為輕微擁堵,大部分數據是與交通狀況相符的,但有3個小于10km/h的速度值與其他的數據相比偏小,需進一步分析。
選取最小值,即牌號為“蘇0002”的車輛的行程車速5.76km/h進行分析,追蹤該車牌在當日17:30-17:50的過車路徑情況如下圖3,可以發現該車輛在經過起點基站6024后,又經過了另外兩個站點后才經過終點基站6026,存在繞路的情況,導致其經過基站對(6024,6026)的行程車速偏小,不能很好的代表該路段的交通狀況,需要檢驗處理。
⑶總結。在進行大量實證數據分析的基礎上,總結形成RFID匹配數據異常數據分析總結表如表1。
4.2 基于統計的匹配數據檢測
在大量RFID匹配數據分析的基礎上,提出基于統計分析的匹配數據有效性檢驗方法,實現對RFID匹配數據的有效性檢驗。
⑴算法原理。由于交通流的漸變特性,在固定時間段內道路上的車輛車速分布相對連續,這也就說明匹配車速的分布不可能在短時間內出現大幅度的偏差,針對這種狀況可以采用統計的方法對匹配車速進行有效性檢驗。根據RFID匹配數據的連續性特征,提出利用統計分布模型對匹配車速進行有效性檢驗,針對RFID基站對在固定時間段內采集到的車輛車速計算其均值μ和方差σ,并假設上訴車輛車速符合正態分布,所以根據正態分布的性質,構建(μ-2σ,μ+2σ)區間作為有效的RFID匹配數據范圍,其中95%的RFID匹配數據將落在該區間內,而將落在該區間之外的RFID匹配數據作為可疑的數據加以處理。除此之外,考慮到城市交通速度的可能范圍,選取120km/h作為城市交通流速度的上限。綜上所述,基于統計技術的RFID匹配數據有效性檢驗步驟如下:
1)獲取RFID原始數據。2)選定某一時間段和RFID基站對,獲取RFID匹配數據,計算車輛的行程車速。3)計算RFID匹配數據的行程車速的均值μ和方差σ。4)根據均值μ和方差σ確定閾值。5)根據閾值,檢驗該時間段內該RFID匹配數據的有效性:若v1120km/h,則v1屬于錯誤數據;若μ-2σ< v1
⑵算例。以基站對(6095,6096)的17:59:00-18:00:00時間段內RFID匹配車速作為樣本進行檢驗實例分析。在選定的基站對和時間范圍內,共有9個速度樣本如表2。
根據表2數據計算出匹配車速的均值μ=34.64km/h,方差σ=13.91km/h,從而得到該時段匹配車速的閾值范圍為(6.82km/h,62.46km/h),并根據該范圍篩選出車牌蘇0010的匹配車速為異常數據。通過對該路段在該時間段內的視頻觀察,可以發現該路段交通流在高峰時段17:30:00至18:30:00間緩慢前進,車速穩定在較低水平,不可能出現大幅度的跳躍,確認蘇0010的匹配車速為異常數據,驗證了算法的有效性。
5 結論
以RFID技術為典型代表的物聯網技術將提高智能交通系統的數據采集效率,構建海量的交通數據庫。然而,上述數據庫的有效分析和信息挖掘要求RFID數據具有較高的質量。本文在闡述相關的交通數據采集和有效性分析方法的基礎上,針對RFID匹配數據,結合南京市建成的RFID交通數據采集平臺數據,系統進行了RFID匹配數據的有效性分析,發現各類RFID匹配數據異常現象,并結合現場視頻深入分析了異常的原因;同時,在進行RFID匹配數據有效性分析的基礎上,利用統計技術提供了一種RFID匹配數據有效性判別方法,并給出了實際的算例,結果表明,所提出的有效性算法可以檢測異常的RFID匹配數據。
交通數據的有效性分析和檢驗是提高智能交通系統應用效率的重要基礎之一。在RFID交通數據采集技術領域,由于RFID交通采集技術的應用尚不廣泛,在該方向的研究還處在起始階段,本文的研究成果將推動該領域的研究發展。
致謝
本研究受到國家科技支撐計劃課題No.2011BAK21B01《南京城市綜合智能交通系統關鍵技術研究及應用示范》資助。
[參考文獻]
[1]耿彥斌,于雷,趙慧.ITS 數據質量控制技術及應用研究[J].中國安全科學學報,2005,15(1): 82-87.
[2]王曉原,張敬磊,吳芳.交通流數據清洗規則研究[J].計算機工程,2011,37(20):191-193.
[3]秦玲,郭艷梅.吳鵬.斷面交通檢測數據檢驗及預處理關鍵技術研究[J].公路交通科技,2006(11):39-41.
[4]Turochy R.E and Smith B.L.New procedure for detector data screening in traffic management systems[J].Transportation Research Record,2000,No.1727:127-131.
[5]Jacobson L.N.,Nihan N .L.and Bender J.D.Detecting erroneous loop detector data in a freeway traffic management system[J].Transportation Research Record,1990,1287:151-166.
[6]Chen C.,Kwon J.,Rice J.,et al.Detecting errors and imputing missing data for single-loop surveillance systems [J].Transportation Research Record,2003,No.1855:160-167.
[7]周興強.RFID數據流清洗技術及其系統實現[D].大連海事大學,2011,5:1-8.
關鍵詞:數據質量;可用性;評估方法
隨著大數據時代的來臨,數據集合中劣質數據也隨之大量產生,導致信息數據整體質量下降,數據的有效使用受到了極大限制。為了更加有效發揮各行各業大數據的作用,開展數據可用性研究具有較大的戰略意義。
1 數據可用性定義
研究者們普遍認為,數據的可用性可以從數據的一致性、準確性、完整性、時效性及實體同一性五個方面進行考察,其具體定義如下:
①數據的一致性:指數據信息系統中各相關數據信息之間相容、不產生矛盾。
②數據的準確性:指數據信息系統中每個數據表示現實物體的精準程度。人們對數據進行操作的各個環節都可能影響數據準確性。
③數據的完整性:指數據集合包含的數據完全滿足對數據進行各項操作的要求。
④數據的時效性:是指在不同需求場景下數據的及時性和有效性。對應用系統而言,往往對數據時效性要求較高,過時的數據即使分析出來了也不會對實際應用產生有價值的影響。
⑤實體的同一性:指同一實體在各種數據源中的描述統一。
一個數據集合,滿足以上五個性質的程度稱為該數據集合的可用性。
2 評估方法分析
對于數據可用性評估,國內外研究人員也進行了許多工作。以下從數據的一致性、精確性、完整性、時效性、實體同一性五個方面進行介紹和分析。
2.1 基于一致性的方法
文獻[1]針對異地備份系統中數據持續變化的情況,設計并實現了一種基于累積摘要值的一致性檢測方法。該方法解決了傳統一致性檢測需要中斷備份任務的問題,保證了備份任務的連續性,并且能夠迅速檢測本地服務器和遠程備份中心數據的一致性,提高了一致性檢測的效率。
文獻[2]從已有的一致性維護方法出發,針對海量數據多副本之間一致性維護,從一致性維護過程中所涉及的更新、更新傳播方式、更新傳播內容、更新沖突解決等幾個方面進行了分析,提出了相應的解決辦法。
文獻[3]針對p2p分布存儲系統中大型數據對象面臨的數據一致性問題,提出了數據一致性維護方法plcp。該方法從提高更新傳播速度和減少日志空間開銷的角度進行了數據優化。同時針對數據更新的問題和關鍵屬性更新的問題,提出數據一致性維護方法dacp和kacp。
文獻[5]從無線傳感網絡數據安全的角度,結合一些廉價的保護技術,提出了利用跨層一致性評估信息整體質量的方法。
基于數據一致性的方法,主要體現在集中存儲方面,對于分布式和非關系數據方面研究還較少,適用于海量數據的一致性評估方法有待進一步探索。
2.2 基于精確性的方法
數據精確性方面的研究結果比較少見,文獻[6]從精確度低的角度,提出了對應的精確性評估算法。該算法考慮了一種基于可能世界語義的描述方法。目前的研究結果顯示,數據精確性的評估方法還有待研究者們深入探究。
2.3 基于完整性的方法
針對海量關系數據中普遍存在的數據不完整現象,劉永楠等研究了關系數據完整性度量問題。針對數據的完整性計算問題,提出了數據完整性計算模型,以及精確算法和基于均勻抽樣的近似算法。理論分析證明了近似算法可以達到任意的精度要求,可以高效地對數據完整性進行計算,通過在dblp數據上的實驗驗證了算法的有效性和高效性。
在具體應用領域,張少敏等利用iec61970對智能電網進行信息集成,然后根據完整性定義,對智能電網數據進行自動機建模,給出了一種無需對數據進行直接操作的數據完整性定量評估模型。
barcelo p等將傳統的完整性理論擴展到xml數據上,討論了不完整xml數據的表示問題。
另外,針對云存儲服務中數據的完整性問題,一些研究者提出了pdp 和por。這兩種方案都采用了概率性證明思路,即存儲服務提供商向數據擁有者證明其完整的持有數據擁有者存儲的數據。
基于數據完整性評估方面的結論還較少,特別是具有普遍適用價值的方法,還有待進一步研究。
2.4 基于時效性的方法
文獻[7]針對歷史評價數據時效性會影響評價計算準確性的問題,引入了評價數據的時間屬性,構造了評價數據衰減因子,減小了時效性對于評價計算準確性的影響。
文獻[8]研究了包含冗余記錄的集合在給定時效約束下的時效性判定問題,并首次提出了時效性判定問題的求解算法.
在建筑能耗領域,文獻[9]通過對幾類典型公共建筑能耗數據的統計分析對比,提出了采用近1年的能耗數據作為統計樣本的建議。
基于時效性方面的研究非常匱乏,已有的少量研究結論都主要針對一些特殊應用,還需深入系統的研究。
2.5 基于實體同一性的方法
實體同一性是數據可用性研究較多的一個方面,實體同一性研究主要涉及兩類方法:第一類是從語義規則的角度進行同一性研究,這類方法主要通過經驗知識來描述實體的同一性問題;第二類是從相似性的角度進行同一性研究,該類方法主要采用相似度函數來對實體同一性進行判定。