發布時間:2022-06-24 16:07:06
序言:寫作是分享個人見解和探索未知領域的橋梁,我們為您精選了8篇的大數據論文樣本,期待這些樣本能夠為您提供豐富的參考和啟發,請盡情閱讀。
會計信息化是我國“十二五”期間會計改革與發展的重要內容之一,也是很多企業提高會計系統效率的有效途徑.會計信息化是信息社會的產物,是將計算機、網絡通訊等先進的信息技術引入會計學科,促進企業會計系統網絡化發展的過程.大數據的興起、云計算的增速和以云計算為基礎的云會計的應用為會計信息化的發展提供了技術支持和平臺.企業會計信息化的深度發展對于大數據的需要與日俱增.
1企業會計信息化的現狀
1.1、會計信息披露具有偏向性,導致信息不對稱
傳統的會計信息系統會誘使企業選擇特定的會計方法而造成企業管理人員利用自身是信息提供者這一優勢,不斷地美化會計報表,這對于外部使用者而言是非常不公平的.
1.2、內部自我約束能力弱,導致數據不真實
在傳統會計信息系統下,一些企業為了眼前經濟指標的提升或者任務的完成,常常通過人為調整會計報表來應付各機構的檢查,自我約束能力弱,數據失真.還有很多企業對現有的政策法規鉆空子、打球的現象屢禁不止.聘請的第三方審計機構也本著“企業利益最大化”的審計目標,對企業不真實的數據進行舞弊,以點蓋面.
1.3、核算量大,導致信息披露不完全
傳統的會計信息系統下,會計的信息系統發展越來越不能適應高速發展的經濟業務,很容易造成信息披露不完全.信息經濟時代下,應該更多的提供企業未來價值的知識資源,而不是沉浸在企業過去的財務數據中.
1.4、企業信息數據單一,導致信息缺少指導性
傳統的會計信息系統主要是對企業財務信息的反映,往往忽視了非財務信息.企業自身變化的社會經濟形勢要求我們不能只依靠過去的財務數據對未來發展做出預測.對企業未來的發展預測用某些非財務信息可能會更加合理.如企業的環境成本、社會責任等信息都需要非財務信息的提供.
1.5、信息傳遞滯后,導致會計信息缺乏時效性
傳統的會計信息系統采用先發生交易事項后進行記錄的程序,無法滿足當代企業對信息時效性的要求.企業以及社會各機構、投資者越來越需要了解隨時發生的財務信息,對其進行更好的決策,這就要求企業不定期的提供會計信息,對于會計期間的定義也不再以年為單位了.因此,現有的會計信息滯后的時效性嚴重影響使用者的需求和投資者的決策.綜上可知,傳統的會計信息系統逐漸出現了不適應當今經濟發展的事態,高效、全面的信息化系統變得越來越重要.在大數據時代下會計信息的不斷創新,快速發展勢在必行.
2大數據對企業會計信息化的促進作用
大數據時代下,對會計信息化的促進作用主要表現在:信息結構更加客觀,既強調了會計信息的精準性,又不失相關性;財務會計信息管理的程序化;會計人員工作轉向宏觀信息管理;多元化的計量單位.在大數據時代下非結構化數據成為主導,在會計信息中可以更好的融合結構化和非結構化數據,更好的提高數據的相關性,并且不會人為的進行舞弊.程序化的會計信息管理也將出現,財務部門逐漸將不再作為一個部門,而是作為一個類似于“企業”的獨立個體,數據的獲取可以不通過部門的上報來實現,而是通過財務部門設定的獨立軟件獲取,這也提升了財務本身的獨立性,同時也可以為其他部門提供共享服務;財務部門不需要對數據進行處理,而是轉變成為數據的使用和管理者.在大數據時代下,多元化的計量單位將會出現,會計計量單位會出現相關的時間、數量單位等.
3大數據時代下會計信息化面臨的挑戰
大數據時代下,企業會計信息化系統是通過互聯網來實現與客戶、供應商、銀行、稅務等機構互通的,其提高企業財務管理效率的作用是顯而易見的.但目前因為大數據的發展尚未成熟,這就為會計信息化的快速發展帶來了較大的挑戰.
3.1數據的來源以及處理方式
大數據時代下最令人關注的問題就是數據從何而來,以及數據的處理方式.①美國數據科學家維克托•邁爾•舍恩伯格在《大數據時代》一書中提出,“以前一旦完成了收集數據的目的之后,數據就會被認為已經沒有用處了.比如,在飛機降落之后,票價數據就沒有用了;一個網絡檢索命令完成之后,這項指令也已進入過去時.但如今,數據已經成為一種商業資本,可以創造新的經濟利益.”大數據時代下,數據的來源無孔不入,互聯網平臺上的任何一種資源都可以成為其來源方式.網絡平臺對用戶使用的信息一覽無余,一個簡單的第三方軟件就可以知道我們需要什么,需要何種服務,經濟狀況如何,經常偏愛哪種東西等等.企業在云端儲存的數據對于云端后臺的信息維護人員來說,獲取變的輕而易舉.防止惡意程序以及提高用戶的安全系統,保護數據的隱私是很難解決的問題.在通過各種方式獲取了用戶的數據信息之后,要用這些數據干什么以及如何使用就成了關鍵性問題.大數據時代下的信息處理是通過特定的程序來完成的,這樣的結論更加客觀,同時結論的得出也具有局限性.大數據理論過于依賴數據的匯集,那么一旦數據本身有問題,就很可能出現滿盤皆輸的局面,因為數據的問題,做出的錯誤預測和決策,導致一個數據有問題,由此相關的數據而產生的信息本身都是問題所在.這對于數據來源的要求是非常高的,一旦有提供者造假,大數據帶來的危害是不可忽視的.
3.2傳統用戶對云計算、云會計的排斥
對于不知道云計算如何使用、互聯網軟件能帶來什么效益的用戶來說,這項工作還是很難完成的,大數據的推廣受到了很大的阻礙.對于云會計更廣泛的應用,改變傳統的用戶觀念以及現有的會計信息系統,使網絡平臺更容易被用戶所接受是一個非常艱難的過程.
3.3超滿負荷的網絡傳輸問題
大數據時代下,會計信息化系統必須依賴于網絡,這就要求企業應具備一個良好的網絡傳輸環境.就目前而言,網絡的堵塞和數據的延時都是大量的數據存儲和數據交換造成的,超滿負荷的數據傳輸成為會計信息化中的一個瓶頸,網絡技術的發展目前還不能完全滿足包括網絡自我恢復、故障檢測、問題警告等功能的實現.
二大數據時代下會計信息化所面臨問題的解決建議
大數據對會計信息化的影響是一個漸進的過程,在這個過程中,財務工作者應該積極把握大數據時代給我們帶來的機遇和挑戰.針對大數據時代下會計信息化面臨的問題提出如下建議:
1建立并掌控企業的核心數據
提供可靠的云會計服務平臺.大數據會計的服務數據是基于云儲存平臺上的,雖然數據安全機制都很高,但對于企業的會計與經濟信息的完全控制并不能保證.因此,企業在選擇使用云會計模塊時應當根據自己的實際情況判斷其可行性,對于重要程度高的信息應合理判斷是否應該交由數據服務商管理.對于企業會計信息化的實施安全性而言,數據服務提供商的選擇是至關重要的,要在對提供商的綜合評價之后再進行決定.為保證云會計服務的安全穩定,企業可根據自身業務需求靈活地進行模塊組裝以及完善的技術支持,企業的云會計應該適合自己的特色.除此之外,為了防止會計信息的濫用,對于每一個可接觸信息的人都要進行身份驗證,并且對安全級別進行評估.
2進行高效的企業機構設置變更
由于傳統會計的深入人心,企業云會計的推廣還是非常困難的.解決這一問題可以考慮當云會計引入之后,對機構設置進行變更,讓每一個財務人員都能感受到這一改變帶來的高效性.企業應結合自身的實際情況,設置最適合企業云會計應用的高效組織機構.
3有選擇性地進行云計算
近幾年隨著社會的發展,信息技術和計算機在迅猛發展,在各個領域都需要大量的數據,這有利于企業了解市場,而這個時代的數據大爆炸已經不能被現代化的計算機所消化了。在信息化社會,到2020年,全球以電子形式存儲的數據量預計將達到35ZB,而這其中,企業數據正在以55%的速度逐年增長。IDC預測,大數據技術與服務市場將在2015年達到169億美元,年增長率甚至達到40%,這是大數據時代到來的趨勢。我們將這些數據稱為“海量數據”,這個概念其實在2008年時就已經被提出來了,最早提出是在谷歌成立10周年的慶祝典禮上,被稱為“BigData”,后來也曾在雜志上討論,我們應該如何面對現在的數據大爆炸時代,這不僅是機遇,也是一種挑戰。可以這么說,大數據時代是信息社會的變革,是信息化和科技發展的產物,它具有很強的緊迫性,對我們這個時代也有重要意義,如何將數據整理、分析、歸納和共享成為全世界都在關注的事情。大數據時代的到來對于企業來說是更大地挑戰,如何在這樣的一個時代加強自己的競爭力,把握住每一個客戶的資料和數據,成為企業提高國際競爭力的關鍵。數據流的廣泛應用使企業不斷審視自己的IT管理模式,逐漸形成規模化、多樣化和高速化的企業管理模式,可以說大數據時代的到來對于企業既是機遇又是挑戰。
2相關概念
在信息化時代“,數據”成為一個熱門詞匯,如今數據已經深入到每一個行業和領域,并成為促進生產的重要因素。而“大數據”這樣的概念是在數據的基礎上逐漸流行起來的,這最早源于美國“。大數據”指的是運用更先進軟件和科技對數據進行管理和分析,將數據流整合,將海量的數據進行處理,也就是說,傳統的數據管理技術已經不能適應現在的大量數據了,我們要進行新技術的開發,迎接大數據時代的到來。大數據(Bigdata)一般指的是軟件工具難以捕捉、管理和分析的大容量數據,其單位通常是“TB”。大數據是一個企業在創造了大量非結構化和半結構化數據后,組成一個數據集,其具有4V特性:(1)容量大(Volume)。非結構化數據的超大規模和增長;占總數據量的80%~90%;比結構化數據增長快10到50倍,是傳統數據倉庫的10~50倍。(2)格式多(Variety)。異構和多樣性;很多不同的形式,如文本、圖像、視頻、機器數據等;沒有模式或者模式不明顯;不連貫的語法或句義。(3)價值高(Value)。大量的不相關信息的提純;對未來趨勢與模式的可預測分析;深度復雜分析(機器學習、人工智能VS傳統商務智能咨詢、報告等)。(4)速度快(Velocity)。實時分析而非批量式分析數據輸入、處理與丟棄,立竿見影而非事后見效。數據之間的跨應用和跨系統的結構化和非結構化數據體現著數據與數據的復雜關系,這些數據相互之間關聯卻又相對獨立,大量的數據通過儲存和分享進行交換和聯系。通過對大量數據進行分析、整合和交換,不斷創造新的價值,加快生產,發現新領域和新知識,將數據流最大價值化和最大應用化,這是大數據的實質與內涵,簡單來說,就是將大數據內部信息進行關聯和挖掘。
3大數據給公司帶來的挑戰
新疆新捷股份有限公司成立于1995年8月,是專業從事天然氣終端銷售及綜合利用的企業。公司秉承中國石油“奉獻能源、創造和諧”企業宗旨,堅持昆侖能源“低碳經濟、綠色發展”理念,努力將公司建設成為國內一流的天然氣終端銷售企業。從企業戰略著眼,信息就是財富,企業如果對這些大數據管理得當,就可以發掘出更為強大可靠的決策信息。目前大數據時代給企業管理者帶來的挑戰有如下幾個方面。
3.1如何獲取大數據現在很多企業所能獲取的數據信息有限,僅僅是冰山一角,大約為總數據的15%以下,并且對數據整合程度不夠,存在很多非結構化數據和半結構化數據。無法獲取足夠的數據成為企業發展的障礙,這些對于現代企業來說是一個很大的難題,傳統的商業智能系統對大量信息數據的標準化和結構化整合已經不能適應,海量數據的產生需要企業運用先進的手段獲取更多,并對信息數據加以整合,這樣才能通過大量的數據分析市場需求,增加客戶,提高企業的服務質量,不斷提升企業的國際競爭力。因此,如何獲取大數據成為新疆新捷股份有限公司的一個挑戰。
3.2對管理團隊的挑戰新疆新捷股份有限公司的傳統管理模式是高層決策者憑借自己的經驗和決策能力下決定,其他管理人員負責完善決策和執行。在大數據時代來臨前數據量較小,信息有限且獲取信息的成本較高,因此這種傳統的管理模式還可以適應企業發展。但隨著信息化社會的發展和大數據時代的到來,這種傳統的管理模式已經不能適應海量的數據,這更多的是需要新疆新捷股份有限公司通過大量的數據進行分析,結合企業自身的特點,組成管理團隊進行決策,這樣才能不斷適應社會的發展,增強企業的競爭力。決策者在決策過程中的直覺主義已經不能適應大數據時代,這是企業在管理上遇到的一個挑戰。
3.3對企業管理流程的挑戰多數企業的管理流程是逆向思維方式,也就是說通過在經營過程中出現的問題進行分析,通過一個管理團隊的討論和協商,制定出一套解決方案,這樣的管理流程有一定的好處,但也會因為有一些管理問題還沒有出現,導致管理上的疏漏,而新疆新捷股份有限公司就曾是這樣的管理流程。對于現在海量數據的產生,新疆新捷股份有限公司不能再按照逆向思維模式進行管理了,其應該盡量運用正向思維的管理方式,根據現在大數據時代的特點,進行數據收集,找出數據之間潛在的關系,對客戶信息進行整理分析,充分了解客戶的需求,進而提出優化方案,這樣更有利于企業發現自身的問題,并走在其他企業前面,提高競爭力。
4大數據時代企業管理變革
隨著信息流動、網絡新生代的成長和數據量的增加,過去傳統企業可能通過強大的體制控制力,或者信息不對稱的優勢地位進行封閉企業管理的模式,在今天已經越來越行不通了。面對海量數據,我們要以數據體現的內容為先決條件,不斷適應大數據時代的變革,同時,對企業的管理進行改進和變革,大數據時代下企業管理需要做出變革幾點如下。
4.1獲取數據在大數據時代,企業最重要的是進行數據的獲取,收集一定的數據才能更好地對企業進行管理和實施決策。大數據需要有一個平臺,需要進行一個數據的抓取,它有傳輸、分析、建模、優化等作用,最后產生認知,這些都是在大數據這個平臺上所必須具備的一些特性。這些特性使得企業間可以通過大數據平臺進行跨行業交流。大數據平臺會把全世界的數據進行共享,使得全世界在物理空間的活動都得以體現在大數據平臺上,這是一個很重要的概念。對于企業來說,要不斷融入這個平臺,通過共享數據和收集數據,開發潛在客戶。
4.2管理團隊的挑戰大數據時代的到來對于企業的管理既是機遇又是挑戰,對于企業的管理者來說,這有利于數據的收集和分析,我們在面對大數據的挑戰時,首先要將數據量化,量化的數據有利于管理效率的提升,管理者通過大量的數據信息掌握公司的業務和客戶,對公司內部和外部客戶進行管理,提升管理和決策的質量。我們可以通過以下三個方面面對挑戰。
4.2.1轉變管理模式企業在管理上要與時俱進,要在大數據時代充分了解數據是什么,并通過數據進行有利于自己企業發展的分析,要根據大數據轉變管理模式。海量數據是管理的主線,我們應該通過數據說話,利用數據進行潛在客戶的挖掘。以往的管理模式都是由高層人員根據自己的經驗進行決策和管理,而在大數據時代,我們應該建立一個管理團隊,對海量數據進行管理和收集,通過分析數據得出結論,再通過研究討論,最終確立決策方案。這種管理方式可以給企業帶來巨大的商業價值,實現企業對客戶進行增值服務的附加值,以數據為主的管理模式更合理,更科學,也更符合大數據時代的特點,此外,還有利于企業增強競爭力,提高管理和決策的效率。
4.2.2轉變思維模式面對大數據時代,企業管理者需要對大數據進行量化分析,這和傳統的思維模式并不相同,因此需要轉變管理者的思維模式。在面對重大決策和企業管理時,要先進行數據查找和數據分析,從數據上得出結論,分析結果,最后再進行決策和管理,這種方式不但會提高管理者的效率,也會提高其他工作人員的積極性和業務執行能力。另外,我們要允許數據做主,也就是說提高數據分析的力度,將來自一線的數據進行分析,通過數據判斷決策是否正確,大數據的整理和分析是需要較長的時間來完成的,這對企業來說也是一種挑戰。
4.2.3培養人才資源在大數據時代人才資源是一個企業發展的重要因素。如今的高級管理人才越來越稀缺,擁有綜合能力的管理人才不多,因此企業應該進行管理人才的培養,只有將人才、科技、管理、決策進行融合和調整,才能使企業清晰自己的發展目標,制定適合自己的發展戰略。企業可以在管理人才的選擇上挑選一些經驗豐富、學歷較高的人才,再進行崗前培訓和在職培訓,提高他們的管理能力和應對大數據時代的能力。企業通過培養視覺化、系統化人才,將企業的海量數據進行快速、高效的整理和分析,從而提高企業競爭力,使企業能充分迎接大數據時代帶來的挑戰,更好地把握大數據時代出現的機遇。
5結語
緊跟大數據時代的步伐,農業銀行積極推進大數據平臺建設及大數據的價值應用,確立了“大數據體系建設必須以應用為核心,數據平臺開發與業務應用統籌考慮,要做好內部的數據治理,逐步拓展數據來源范圍,充分利用內外部數據資源,不斷提升對全行經營管理的支撐水平。”的總體戰略思想,即:數據是基礎,應用是目標,平臺是支撐,治理是保障。
1.強化數據治行理念大數據革命必將顛覆銀行傳統觀念和經營模式。通過營造“數據治行”的文化,建立分析數據的習慣,落實全行的數據標準和數據治理,切實提升“大數據”開發利用的綜合能力,將現有數據轉化為信息資源,讓決策更加有的放矢,讓發展更加貼近市場需求。
2.建設大數據平臺構建處理能力強、擴展性好、開放度及共享度高的大數據存儲加工平臺,整合行內外、各種形態、跨歷史周期的海量數據,并構建統一、全面、穩定的企業級數據模型,為大數據的分析利用提供基礎的數據、環境、模型及配套工具等全方位立體式支撐。
3.打造數據分析應用體系構建適應大數據分析的多功能、跨渠道、多粒度的分析挖掘模型和應用體系,為服務質量改善、經營效率提升、金融模式創新提供支持。通過對海量數據的深度分析,全方位調整產品結構、營銷模式,從根本上提高風險管理、成本績效管理、資產負債管理和客戶關系管理水平。
4.實現智慧銀行的目標智慧銀行是指,通過大數據技術不斷優化業務辦理流程,高效配置金融資源,敏銳洞察并引領客戶需求的高度智能化的金融商業形態。智慧銀行可提供“銀行始終在客戶身邊”的全場景金融服務,為客戶創造最佳服務體驗。
二、農業銀行大數據平臺概述
經過多年的努力探索,農業銀行在大數據平臺建設的道路上銳意開拓,大膽創新,逐步形成了以四大基礎平臺、五類數據服務為核心的大數據平臺。
1.四大基礎平臺(1)企業級數據倉庫隨著銀行業數據利用能力的逐步提升,業務分析呈現跨領域分析、高度整合分析、長周期歷史分析等特點,企業級數據倉庫通過對行內跨領域海量數據的高度整合和模型化,形成對客戶、賬務、產品等的統一視圖,使大數據分析成為可能。農業銀行企業級數據倉庫以存儲和處理結構化數據為主要目標,全面涵蓋了農業銀行存、貸、中間業務等行內業務條線的核心類數據,實現PB級數據的高效存儲,可以滿足全行在各個領域數據分析和價值發現的各類需求,并為全行數據治理提供有力的支撐。如通過網點的多維度、全方位、長歷史周期數據挖掘給出網點資源配置建議,提升運營效率,優化業務流程。(2)信息共享平臺信息共享平臺以存儲和處理行內非結化數據為主,輔以來自行外的社會數據。基于非結構化數據的分析和深度挖掘,在客戶關系管理、中小企業信貸、風險管理、品牌建設等眾多領域發揮了重要的作用。如基于對社交網絡各類非結構化數據的綜合分析可以獲取行外目標客戶;通過機器學習、語音識別、情緒識別等技術,對客服語音記錄進行深度挖掘,發現客戶的需求。(3)實時流計算平臺傳統數據計算平臺多以批量計算為主,數據處理能力較強,但時效性較差。農業銀行的實時流計算平臺采用業界最先進的流計算框架,實現數據的快速采集、交換、處理和應用,主要用于實時營銷、實時客戶服務、欺詐監控、大額動賬監控、系統運營監控等各類對時效性要求比較高的業務場景。如結合持卡人的行為偏好為客戶實時推薦精準的營銷信息、優惠信息和特惠商戶信息,并為特定客戶群體提供實時的有針對性的服務提示。(4)高性能數據處理平臺海量數據的分析挖掘亟須一個高性能環境的支撐,農業銀行高性能數據處理平臺采用大內存處理、分布式、閃存等新技術,以高性能計算為主要特點,實現對海量結構化數據、非結構數據等進行綜合處理、全面分析和深度挖掘。如通過大數據語義分析和情緒分析追蹤海量網絡信息蘊藏的經濟金融“微信號”,借此判斷未來的市場走勢,為前瞻性風險管理提供參考。
2.五類數據服務農業銀行基于四大基礎平臺的優勢,大力發展應用系統建設,形成了五大類數據服務形式有機結合的數據服務體系。(1)指標檢索服務通過構建全行統一的指標庫,為各個業務條線提供常用指標的檢索服務,在此基礎上提供各類經營管理、監管報送等指標采集、加工及報送服務。(2)即席查詢服務采用特定的工具,構建功能強大的查詢支持庫,滿足各類靈活查詢、臨時查詢及特殊復雜查詢需求。如果說報表是經營管理的瞭望塔,那么靈活的即席查詢就是執行經營決策的指南針。以客戶營銷為例,即席查詢服務可以為全行的客戶經理提供多角度的客戶信息查詢,針對當前市場熱點,提供具體的業務指導。(3)定制化信息服務通過iReport智能資源視窗對信息進行統一管理、分層檢索、靈活配置和個性展示,并針對用戶的不同需求、不同層次及不同偏好,提供定制化、個性化的信息訂閱,聯動郵件、短信、微信等渠道提供主動信息推送服務。(4)多維分析服務多維分析可以幫助業務人員實現多維度、多視圖、多層次的分析,并可以通過下鉆、上鉆、切片、旋轉等操作,提供更加動態、智能的數據分析,發現數據背后的規律。如從機構、時間、客戶、產品類型、渠道、營銷活動等多個維度對產品盈利情況進行綜合分析,進而有效推動產品優化和創新。(5)深度數據挖掘服務海量數據中蘊含的規律和價值通常不直觀,大數據的顯著特點之一就是海量數據的知識發現和數據挖掘。農業銀行基于大數據平臺構建了多個特定領域或主題的數據挖掘實驗室,包括客戶洞察及精準營銷、信用評價及風險評估、輿情分析與客戶情感管理等,緊跟市場發展動態,直面業務熱點、難點,充分挖掘大數據的巨大價值,為業務發展和經營決策提供更加深入的洞察和更加有力的支撐
三、農行大數據應用實踐
農業銀行在構建大數據體系時堅持以應用為核心,統籌部署數據平臺開發與業務應用,加強業務創新與數據利用的良性迭代,實現傳統業務和新型業態的融合發展,充分發揮了數據對全行業務發展和經營管理的支撐作用。借助大數據這把利劍,實現了“營銷更精準、服務更貼心、管理更精細、監管更透明、風險更可控、決策更智能”,有效促進了全行經營理念、業務運營、組織流程的不斷創新,為全行業務發展和經營管理提供了有力的科技引擎。以下三類應用案例可充分說明情況。
1.精準營銷基于大數據的客戶營銷“三步曲”:獲取客戶、客戶畫像、精準營銷(如圖1所示)。通過大數據強大的信息獲取和處理能力,充分挖掘行內外的潛在客戶;通過大數據實現對客戶的360°立體畫像,在掌控客戶行為、洞察客戶情感的基礎上,準確地預測客戶需求,從而實現精準營銷及交叉營銷。以貴賓客戶信用卡精準營銷為例,農業銀行通過綜合行內外數據,應用聚類分析、關聯規則發現、決策樹等數據挖掘算法,構建了完整的精準交叉營銷模型庫和應用體系,動態實現目標客戶識別、客群劃分、優先級劃分、產品推薦、渠道推薦等功能。在合適的時間,以合適的渠道,通過合適的方式,為合適的客戶推介甚至定制合適的產品,實現差異化、個性化的精準營銷。2.熱點分析農業銀行基于大數據平臺構建了熱點問題專題分析模型庫,對當前的熱點事件進行定期跟進、深度分析和動態監測,為策略制定、產品創新及運營模
式優化等提供有力支持。以互聯網理財客戶分析為例,該項分析旨在揭示個人客戶購買互聯網理財產品與農業銀行資金流失的關系。首先采集研究機構等第三方數據,融合內部數據,對整體購買規模進行分析;挖掘購買互聯網理財客戶的特點,對這一特定客戶群體進行綜合畫像。從而知道“正在發生什么。”然后,采用神經網絡、回歸等方法,對即將流失的客戶進行智能識別,針對不同的客戶特點制定不同的客戶挽留措施,知道“即將發生什么。”最后,通過對客戶和資產流失的深度分析,提出產品層面的創新策略,并給出具體建議;產品優化和創新后,再次綜合分析新產品的市場效果,并對產品進行持續優化,實現數據挖掘和產品創新的迭代。
對于新媒體文學意味著什么大數據讓新媒體文學回到“去作者化”的共在混融狀態:在傳統聲音媒介時代,讀者與作者共同創作、修改詩歌;到了紙質媒介時代,作者的地位上升;在新媒體文學時代,讀者可以對作家進行積極主動的反饋,但這種反饋呈現出信息零碎化、評價隨性化以及無法把握所有地域、身份、族裔的不完整狀態;到了大數據時代,新媒體文學借鑒《紙牌屋》的數據挖掘模式,可以對讀者信息進行全數據收集整理,以最大的吸引力呈現一個文本(其中包括一種可能性,即同一個故事開頭,針對不同人群有不同的故事演進和情節,乃至人物設置)。舍恩伯格認為,“大數據是指不用隨機分析法這樣的捷徑,而采用所有數據的方法”,因此,我們分析的大數據其實應該被稱為“全數據”。在網絡新媒體時代,人類所有的網絡行為都可以被數據化,而這些數據又能完全被收集、存儲、交換和分析。人們在不經意之間產生的數據總量大到我們難以想象的程度。“據有關研究報告,2013年中國產生的數據總量超過0.8ZB,相當于2009年全球的數據總量。預計到2020年,中國產生的數據總量將超過8.5ZB,是2013年的10倍,一個大規模生產、分享和應用數據的嶄新時代正在到來。”新媒體文學在發展過程之中當然也生產了大規模的數據,這些數據對新媒體文學意味著什么呢?第一,以PC和移動終端為主要載體的新媒體文學產生巨大的相關信息數據庫,比如新媒體小說閱讀量排行榜、新媒體作家數據庫、讀者閱讀時間和習慣、哪些文學章節被反復閱讀等等。與此同時,因為網絡媒介的公開性和“無門檻”標準,新媒體文學的閱讀者和創作者數量達到了文學史上前所未有的奇跡。2014年,中國網絡文學的讀者已突破5億人,保守估計整體收入突破65億元。這樣大規模的用戶群保證了巨大的數據量,也使文學網站擁有所有與網絡文學相關的數據。網絡文學帶來的巨大經濟效益成為對網絡文學進行大數據分析的資本基礎和動力。作為迄今為止最為強大的分析技術,大數據的重要價值在于預測趨勢,即“正在發生的未來”。通過對這些大數據的分析,內容生產者可以有針對性地將作品推送給受眾,而這種經過精心設計的文學作品恰好就是受眾所需要的。這是因為大數據分析可以采用理想狀態的全數據分析(目前還不能完全達到),而全數據分析由于分析的數據量巨大,單個數據的誤差可以在分母巨大無比的全數據海洋之中被忽略。相反,在數據量有限的時代,我們就只能追求單個數據的精準。“因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。”當數據量持續積累增加時,對單個數據的精準性追求不是全數據的方式,放棄精準性、適度接受不精準性,仍然不會影響其結果。這類似于醫用手術無影燈,從各個角度照射對象,永遠不會存在盲區。盛大文學董事長邱文友認為,事實上國內文學網站在10年前就在運用大數據思維了:文學網站上有200多萬名作家,700多萬部作品,怎么在茫茫作家海中找出下一個唐家三少?靠數據分析。此外,在網絡連載過程中,作家跟讀者之間有互動,這些訊息也是數據。“比如作家本想讓甲娶乙,可是絕大部分讀者希望甲娶丙,這時候作家可以選擇,是按原來思路,還是按小說可能延伸的商業價值去改寫結局?所有決策的因素、動機跟方式,也是數據分析。”瑏瑡但是受網絡技術發展的限制,當時新媒體文學的數據挖掘不可能像現在這樣徹底和全面。第二,大數據時代新媒體文學批評走向多元化。當前的新媒體批評既包括傳統精英式的學院派批評,也包括點贊、跟帖式的草根批評;學院派批評以黃鳴奮、歐陽友權為代表,草根批評以崔宰溶為代表。“黃鳴奮和歐陽友權以從西方新媒體技術層面發展出來的超文本理論作為理論生發點,對網絡文學進行后現代性的學理探討。”瑏瑢而崔宰溶認為,對中國網絡文學的研究需要從原著理論(vernaculartheory)和網絡性理論入手,才能真實地對新媒體文學進行研究。新媒體文學的接受者并不會以文化精英式的方式來俯視作品,他們對新媒體文學的批評是純感受性的、本能直觀的和零散局部的。這種自下而上的反叛式文學批評,迥異于傳統精英式的學院批評。對中國新媒體文學的研究必須從網絡的“原著居民”(網絡文學讀者)出發,由于他們大部分時間棲居于網絡之中,因而對新媒體文學具有不受傳統文學理論影響的本性感受力和知識系統。瑏瑣筆者認為,無論是西方網絡文學理論還是原著理論,在大數據時代,它們都會被作為大數據庫中的一個組成部分,再結合“總點擊量”“總推薦”“月排名”等進行分析,從而尋找出讀者最有可能喜歡的作品。無論如何,大數據時代給新媒體文學研究帶來一種新實證研究路徑。米埃爾(Miall)認為,文學的實證研究像灰姑娘一樣總是被人們忽視或反對,早晚會有一天,實證研究將統領整個文化研究領域。人們會通過實證來研究理論觀念,反思文學的本質和文化地位。瑏瑤網絡技術的發達與新媒體文學的繁榮促成了大數據分析對于新媒體文學的數據實證性研究。
二、大數據思維給新媒體文學帶來的理論思考新媒體文學的大數據分析
從學理上帶來三組思考:一是大數據推動了新媒體文學的發展,然而新媒體文學能被徹底數據化嗎?如果不能,那在什么樣的層面上可以被數據化?新媒體文學與大數據思維融合的真正重要意義在何處?二是新媒體文學遭遇大數據思維之后,是否意味著對于新媒體文學的研究可以完全轉換為數據式的實證研究?如果不能,對新媒體文學的研究還有哪些方面是大數據不可能涉及和完成的?三是當我們將文學接受者的大數據作為文學創作的唯一和最高標準之后,新媒體文學在題材選取、形式美學和敘事節奏等方面是否走向絕對迎合讀者的趨勢?如果是的話,新媒體文學作家的意義何在?他們又應該采取迎合還是引領的姿態呢?
第一,新媒體文學活動都發生在網絡之上,因而可以被充分數據化。大數據自產生之日起,就迅速與人類已有的知識和學科產生了極強的關聯,比如醫療健康、交通規劃、公共管理、教育培養等領域都在你看不見的地方悄悄運作著大數據分析。“大數據時代的經濟學、政治學、社會學和許多科學門類都會發生巨大甚至本質的變化和發展,進而影響人類的價值系統、知識體系和生活方式。哲學史上爭論不休的世界可知論和不可知論都將轉變為實證科學中的具體問題。”瑏瑥大數據的此種趨勢根源于它能將所有網絡行為數據化的能力,比如在新媒體文學活動之中,我們可以輕松采集到作家和讀者的數量、年齡層、分布地域、經濟狀況、教育程度、閱讀習慣、題材喜好,等等。除此之外,大數據可以分析:哪種題材的文學受眾最多?同一種題材之中,什么樣的文學橋段讓讀者喜歡?幽默、推理、懸疑還是浪漫?文學作品之中什么樣風格的語言會更受哪種人的喜愛?什么樣的故事情節發展路線和結局是最受人歡迎的?等等。這些方面都可以通過讀者的評論和閱讀數據反饋到內容提供商和文學作家那里,從而對作品進行實時調整。但是,我們不能因為大數據有這樣的效果,就認為新媒體文學可以被完全大數據化。其實,作為技術和藝術合一的新媒體文學在多個維度上是不能被量化的,比如作家的靈魂高度、文學思想的深邃性、文學的意境、文學的美感、文學的終極關懷和文學對人性的探測等都不能被量化,而這些維度恰恰是文學之為文學最核心的內容。不管大數據技術怎么發達,它所追求的絕對客觀性其實在數據產生之初就不存在。數據無論在表面上看起來多么客觀地再現對象情況,它本身其實是在一種具有傾向性和差異性價值觀基礎上被建構的。因而,大數據的生成和分析永遠不可能擺脫自己天生就具有的價值主觀性。我們能看到的數據是研究者有能力或者熱切希望看到的數據,若非如此,即便大量數據生成了,也不能被數據識別系統發現。這就好比雷達效應,你的關注點除了對象之外別無他物,但是“他物們”卻客觀大量地存在于你的意識之外,只不過你無意或不能去抓取它們。所以,大數據不管看起來多么科學客觀,背后其實與主觀價值判斷是分不開的。“大數據”并不等同于“大智慧”,即使占有大量的數據,還必須有對數據具有專業化分析能力的人。Netflix的CEO里德•哈斯廷斯利用數據分析的方法也是受他前期從事碟片租賃服務的啟發。他一方面熟悉在網絡上怎么通過數據分析為別人推薦自己喜歡的電影和電視劇,另一方面他在無數的觀影之中對影片具有極強的審美鑒賞能力。科技和人文的結合讓他具有對《紙牌屋》數據進行采集和分析的能力,這才是Netflix進軍藝術界成功的原因。所以,同樣的大數據在不同主體那里得出的結論或者采取的應用是相距甚遠的。就好比同樣是醫學CT掃描,儀器是相同的,照出的片也是相同的,為什么大家愿意去權威醫院檢查呢?問題的根源在于對CT成像進行分析的醫生水平,同樣的CT成像,在擁有不同經驗的醫生那里得出的結論很可能有天壤之別。大數據作為一種技術在教育、電影、藝術等人文領域廣泛運用已是不爭的事實,除了讓人文領域的成果與經濟效益直接產生關聯之外,它的最重要意義其實是在哲學思維層面。大數據分析使我們拋棄傳統哲學一直追求的現象背后的原因,而轉向為關注事物和事物之間的關系性,即從因果關系轉變為相關關系。瑏瑦這種思維方式轉變是順應時代的實用需求而產生的。一方面,大數據思維不去深究因果關系,而是繞開因果關系,退到因果關系的上層———相關關系(包含因果和非因果關系)。這種擱置因果的選擇更是由于因果關系和相關關系之間復雜的關系:“(1)兩個事物間有因果關系時,這兩個事物間往往會有相關關系;(2)兩個事物間不存在因果關系時,這兩個事物間也可能會有相關關系(虛偽相關關系);(3)兩個事物間有因果關系時,這兩個事物間也有出現零度相關關系的可能(虛偽零度相關關系)。”瑏瑧當略過這些復雜關系,只關注“相關關系———結果預測”,就會省去無數不必要的麻煩,而直接得出需要的答案。“相關關系的核心是量化兩個數據值之間的數理關系。相關關系強是指當一個數據值增加時,其他數據值很有可能也會隨之增加。”瑏瑨2004年,沃爾瑪公司分析顧客消費時的各種數據時,意外察覺到數據和數據之間的相關性:颶風來之前,手電筒和蛋撻都銷量增加,因而超市毫不猶豫地將它們放在颶風用品附近。這個例子就表明在大數據時代,深究原因并不一定能找到答案,而對數據進行相關性分析才是其核心。另一方面,大數據帶來的相關性分析由于技術的成熟變得比因果分析更容易。丹尼爾•卡尼曼(DanielKahneman)甚至認為,人類之所以一直熱衷于因果關系思維,是因為在信息不發達的社會采用因果思維可以快速地作出決定。相反,在那個時代如果采用相關思維會特別費力且不可能有任何結論。大數據由于技術的支撐完全可以支持相關性思維,但我們在現實之中會發現傳統因果思維得出的結論被置于大數據時代后是有問題的。
第二,新媒體文學的學術研究與新媒體文學的大數據研究不能混為一談,二者采用的研究方法不同,而這兩種方法也只有被局限在一定范圍之內才能發揮出自己的長處。19世紀,類似大數據思維的實證主義就已經僭越過文學的領地。當時實證主義提出,表象本身才是具有研究確定性的對象,對象背后所謂的本質是并不存在的。實證主義“反對追求絕對的知識,它停止去探求宇宙的起源和目的,拒絕認識諸現象的原因,只專心致志地去發現這些現象的規律,換言之,去發現各種現象的承續與類似的關系”瑏瑩。實證主義的“只研究怎么樣(how),而不研究為什么(why)”瑐瑠主張與大數據思維追求相關關系而懸置因果關系的方式極為相似。文學雖然作為語言的藝術具有強烈的主觀情感色彩,但是對文學的研究在很大程度上可以采用實證主義的方法,比如對文學流派、文學史、作家時代背景、作品傳播狀況的研究等。實證主義既要有“實”,又要有“證”:從研究對象入手得到大量材料,在此基礎上,還需要進行分析論證的過程,否則材料只是死物。反過來,我們認為實證主義精神只能限定在以上研究領域才是對文學研究有益的。如果實證精神進入文學意義范圍,文學的靈魂、精神和審美只能被理性實證邏輯消解磨滅,最后成為他者的“嫁衣”。從傳統的實證主義對文學的研究經驗可知,任何一種研究方法是不可能包打天下的,對文學研究不同的維度只能用不同的方法。針對新媒體文學的實證主義(大數據思維),只能研究新媒體文學的,即對新媒體文學的傳播效果進行分析,預測新媒體文學會怎么樣,提供什么樣的文學作品其傳播力更強等。然而,對新媒體文學研究本身就不能是技術式的,而應該是美學式的。在具體研究方法上,新媒體文學與傳統文學走的是不同的理論路線。但就其藝術品格來說,文學應該研究的依然逃不脫深層的價值審視:從感官刺激的表層能否將讀者引向一般生活狀況,如生死、戰爭、世俗、宗教等,進而感受人類的終極意義和終極關懷。即使新媒體文學從表征上帶有后現代的去中心、平面化和反經典的傾向,但我們還是堅信好的文學與人性追求是同一的,狂歡式的淺薄帶來的是“娛樂至死”的悲哀。
1.1大數據時代的特點研究
隨著信息數據的增多,云儲存、云計算等云服務平臺應運而生。由此可見,在大數據時代下,更好地利用數據儲存系統將民間藝術保護與儲存下來,將為傳承民間藝術做出突出的貢獻。
1.2傳統民間藝術的現狀研究
(1)傳統民間藝術的主要研究領域。傳統民間藝術主要涵蓋了物質產品和精神產品兩個方面,物質方面主要包含了以實用為主的一些可視化的具有民族特色的生活生產用品。精神方面主要是指能夠滿足人們精神需求的民間藝術現象、藝術活動以及一些具有民族特色的民間藝術品。傳統的民間藝術具有強烈的民族性,它能夠反映每一個民族的精神信仰、思維觀念以及文化傳統,并且是博大精深的中華文化的體現。
(2)傳統民間藝術的存在現狀及其重要性。隨著社會的發展,人們的生活方式以及生活觀念不斷地受整個社會環境的影響而發生著改變,人們的視野越來越多的關注在所謂的現代化的產品以及所謂的潮流上面,而對于真正的傳統卻越來越少的人去關注。據調查顯示,每年有大量的民間手工藝品、民間紡織工具、民間交通工具以及民間交通器具在大量的消失,并且就算是能夠滿足人們精神需求的民間戲曲、民間舞蹈、民間藝術活動每年也都在大量的丟失。民間藝術這一現狀應該引起我們所有人的反思,如果我們連我們傳統的東西都保護不好,拿什么去發揚我們的中國傳統文化。傳統民間藝術的發展及其生存環境,如果我們不將其保護與傳承下來,它也會隨著工業社會的發展遭受著如同自然資源和生態環境一樣的破壞。
2對傳統民間藝術的保護與傳承所面臨的問題研究
對傳統民間藝術的保護與傳承所面臨的主要問題是其自身的獨特性而產生的自身的限制。大多數的民間傳統文化根植于民間,并且分布在全國各地,這也將是傳統民間藝術保護與傳承所面臨的最大問題。由于傳統民間藝術涉及面多而廣,外加上民間藝術從業人員的不足,所以目前對民間藝術的保護只停留在傳統的采集照片,收集物品以及訪問記錄等方面。并沒有與大數據時代現代化信息技術相結合,所以對傳統民間藝術的保護只停留在表面,并不能真正地把民間藝術傳承下來。
3大數據時代下對傳統民間藝術的保護與傳承研究對策
大數據時代的到來,對于數據的研究與開發也越來越深入,數據處理與儲存技術的開發與應用也越來越廣泛。我們應該利用這一特點,很好地將民間藝術儲存起來。
3.1將數字信息技術與民間文化遺產相結合
大數據時代的到來,為數字信息技術的發展提供了強有力的平臺。同時也促使了數字信息技術突飛猛進的跨越。將數字信息技術與傳統的民間藝術相結合,突破了我們傳統的對于民間藝術記錄收藏的形式,其方便快捷的將民間藝術整合、收藏、記錄了下來,并且也為民間藝術的保護節省了勞力成本與時間成本,同時也方便了人們對于感興趣的民間藝術的查閱與展示。同時,我們也可以利用數字信息技術研發民間藝術圖案輔助設計系統,使民間傳統融入現代設計中。使傳統民間文化真正地為“生活服務”。在當代的藝術和設計有史以來最商業化的時候,保持藝術和學術純粹的張力和良知,將傳統民間文化與當代設計相結合,賦予當代設計別樣的韻味。例如,愛馬仕的中國品牌“上下”就是利用中國傳統的紋樣、雕刻、染織等技術對于產品進行再設計,很好地利用了傳統民間工藝的商業價值,賦予現代設計獨特的魅力。同時很好的傳承與發展了博大精深的中國傳統文化。總的說來,現代化數字技術的應用也是使傳統的民間藝術能夠更好地保護與傳承下來,使其不再停留在沒有人觀望的層面,其已經成為一種非常重要的非物質文化遺產,它的保護與傳承,能夠讓更多的人去了解它們獨特的文化。
3.2中國民間藝術云端服務平臺的建設
注重于打造一個具有云儲存、云計算、云分析、大數據等功能的云端服務平臺。本系統是基于云端系統的文件存儲平臺,管理用戶上傳關于民間藝術資源遺產的相關文件到云服務器端,上傳文件類型包含普通文件、圖片、音頻、視頻等各種類型文件,并對文件進行相關屬性說明。系統通過集群式應用、網格技術和分布式文件系統將上傳的大量的各種類的文件存儲在一個分布式的不同類型的存儲設備中,通過應用軟件協同工作共同對外提供數據文件的數據存儲和業務訪問,但這些對用戶來說是黑匣子式的,用戶只需要關注文件的文性,專注于非物質文件遺產的整理,而無需關心實現的方式和方法,系統將高度智能化的為用供數據的存儲和整理工作。用戶在訪問時可以通過WEB或手機APP等方式進行文件的檢索和訪問,云服務將自動計算采用最優的訪問路徑為用戶提供文件的檢索和訪問。
3.3數字民間藝術博物館的建立
在大數據時代下,要使民間藝術得到很好的保護和傳承,數字民間藝術博物館的建設將會是推動其保護與傳承的最好方式。數字民間藝術博物館將擁有強大的數據庫將民間藝術品很好的儲存起來,并且方便人們查閱以及觀賞,增加民間藝術品的生命力。
3.4民間藝術品網站的建設
來自生物、醫藥、醫械、臨床實驗與健康管理等各個方面的數據,構成生物醫學的各類大數據資源,它們形式多樣,具有自身的特殊性,主要表現在以下幾個方面:
(1)原始數據量大,且呈異構、多樣性。
(2)難以用數學方式表達其結構及特征。例如:醫生對醫學影像、信號和其他臨床數據的解釋多是非結構化的語言或文字形式自由的口述,難以標準化。
(3)數據可能包含冗余的、無意義的或不一致的屬性,并且數據經常要更新。
(4)數據采集很難完全避免噪聲干擾,而噪聲往往會影響處理結果。生物醫學大數據處理包括數據的收集、抽取與集成、分析與挖掘、解釋和共享等諸多方面,涉及數據庫、信息科學、統計學、高性能計算、網絡科學、心理學等多個領域。
2生物醫學信息處理
2.1數據挖掘在生物醫學信息分析中的應用
數據挖掘是對海量數據進行處理和分析,找出數據間的隱含聯系,發現未知規律,最終獲得知識的過程。挖掘的過程包括信息收集、數據集成、數據規約、數據清理、數據變換、數據挖掘、模式評估和知識表示8個步驟[5]。近年來,數據挖掘是生物醫學信息分析的常用手段,尤其是在循證醫學研究、基因組和蛋白質組的研究領域中有很廣泛的應用價值。KDNuggets在2011年全球數據挖掘應用行業調查的結果表明:健康行業位居10大數據挖掘應用領域的第3位。生物醫學領域大數據多是不完整的、不一致的、有噪聲的,數據具有獨特的復雜性、豐富性、規模和重要性,需要數據挖掘的特殊關注。數據挖掘經典算法,如:分類、聚類、關聯分析、序列等在生物醫學數據挖掘時都可使用。
2.1.1 分類(Classification)
分類是根據己知數據的特征和分類結果,為每個類找到合理的模型(構造分類器),然后用這些模型對新數據進行分類。K最鄰近算法、決策樹、支持向量機、神經網絡等是常用的分類模型構造方法。疾病的診斷和鑒別就是典型的分類過程。例如:美國學者利用數據挖掘軟件Clementine,以決策樹算法為模型,分析挖掘了醫療機構HealthOrg的數據倉庫中有關年齡、BMI指數、腰臀比和周鍛煉次數等數據,得出糖尿病患病危險因素的分析結果。此外,還有一些國內外研究者針對肺癌、乳腺癌的診斷數據,通過分類挖掘的方法提高診斷的精確性。
2.1.2 聚類(Clustering)
分析聚類分析是將有共同特征或相似度高的數據對象實例聚成一類的過程,常用來研究樣品或指標分類問題。聚類分析在生物醫學領域已經得到廣泛的應用,例如:可以根據流行病學特征屬性的相似程度將病例數據劃分成若干類,通過比較各個類別之間的臨床醫學狀態特征屬性的差異來分析某類疾病。國外學者選取SEER數據庫中的217558例肺癌病例,通過分析每個病例的22個臨床醫學特征屬性和23個流行病學特征屬性的相似度后,將這些病例劃分為20類,這就是典型的聚類分析。
2.1.3 關聯(Association)分析
關聯反映的是一個事件和其他事件之間依賴或關聯的知識,可以通過表征事物特征的兩個或多個變量的取值之間存在的某種規律性,找出數據之間隱藏的關聯關系。關聯現象在生物醫學領域普遍存在,例如:臨床上的某些疾病會同時呈現幾種不同的病癥,這些病癥之間就表現為一定程度的關聯性,而醫生診斷病癥的過程常常以觀察癥狀為基礎。
2.1.4 序列挖掘(SequenceMining)
序列是指按一定順序或規律排列構成的一系列符號、數值或事件。存儲于DNA、RNA和蛋白質中的遺傳和功能信息可用符號序列表示,分析序列數據能找到其統計規律或發現序列組成部分片段之間的相似性或相同性,這是生物信息學研究中最常用方法。此外,還可用時間序列數據進行某些疾病的研究與治療,例如:歐盟資助的T-IDDM(TelemetricManagementofInsulinDependentDiabetesMellitus)項目通過Internet采集糖尿病患者的連續監測數據,經時間序列分析后找到患者一天內血糖水平變化的規律和趨勢,為醫生調整或精確胰島素治療方案提供有效的數據和支持。
2.1.5 圖挖掘(GraphMining)
利用待研究的數據對象構建圖這種數學模型,然后從圖中尋找頻繁出現的子圖,從而挖掘出有價值的信息。例如:美國學術界整合出2003年H5N1禽流感感染風險地圖,經過圖挖掘分析出2013年H7N9人類病例區域[11]。此外,從政府管理角度來看,公共衛生部門可以針對覆蓋全國患者的電子病歷數據庫進行圖挖掘,從而完成全面疫情的監測。
2.2文本挖掘——生物醫學文獻信息的大數據處理
2.2.1 文本挖掘
目前,全球醫藥類期刊近3萬種,每年200多萬篇,并且以每年7%速度遞增,互聯網上的信息資源約有30%以上的是與醫學信息相關的。文本挖掘(Text-Mining)和信息可視化(InformationVisualization)是分析這些數據,揭示知識領域的內在聯系的最有效手段。文本挖掘主要結合文字處理技術,利用智能算法,分析大量的半結構化和非結構化文本源(如文檔、電子表格、電子郵件、網頁等),抽取散布在文本文件中的有價值知識,并轉化為可利用的知識的過程,其工作流程如圖2所示,挖掘前要完成包括文本收集、文本分析和特征修剪三個步驟的預處理工作。文本挖掘多以計算機技術實現,文檔聚類、文檔分類和摘要抽取是應用最多的技術。文檔聚類主要完成大規模文檔集內容的概括、識別文檔間隱藏的相似度、減輕瀏覽相關、相似信息等功能。文檔分類多以統計方法或機器學習自動實現,簡單貝葉斯分類法,矩陣變換法、K最鄰近分類算法以及SVM等都是其常用的分類方法。摘要抽取主要是利用計算機自動地從原始文檔中提取全面、準確反映該文檔中心內容的簡單連貫的短文。此外,文本挖掘的結果評價常用分類正確率、查準率、查全率、支持度和支持度置信度等世界公認的重要參數進行評價。生物醫學信息處理領域所涉及的DNA序列綜合特征分析、蛋白質功能和相互作用分析、疾病基因發現、藥物作用靶點預測等都與文本挖掘技術密不可分。在我國,已經有一些研究者利用文本挖掘技術來研究醫學文獻背后隱藏的知識。臨床上,醫生用文本挖掘技術對疾病的處方和中藥用藥規律進行了分析。
2.2.2 信息可視化
信息可視化是一種運用計算機圖形學和圖像處理技術,將信息轉換為具有一定意義圖形或圖像,并進行交互處理的理論、方法和技術。它能有效發掘、過濾和研究海量數據,以更直觀、有效的方式使研究人員更容易發現隱藏在信息內部的特征和規律,深層次地發掘包括生物醫學領域在內的多個學科的研究熱點和研究前沿信息,為研究人員把握研究方向提供幫助。信息可視化的常用工具有TDA、CiteSpace、Histcite、Vxinsight等軟件,主要完成數量統計、共現分析和統計圖表、共現矩陣、節點鏈接圖、技術報告展示等功能。例如:國外學者針對PubMed數據庫中2002年到2011年的文獻,分析了以“電子健康檔案”、“醫療記錄系統”和“計算機輔助診療”為主題的文獻的引用情況后,用可視化工具展現其研究結果,使相關領域的科研人員很直觀的了解了該領域的研究狀況。
3總結與展望
大數據有四個層面的特點:第一,數據體量大。從TB級到PB級;第二,數據類型多,包括視頻、圖片、位置等;第三,價值密度低。比如長時間的監控,有用的數據可能僅僅只有一兩秒;第四,處理速度快。這也是與傳統數據挖掘技術有著本質不同的一點。業界將上述歸納為4個“V”———Volume,Variety,Value,Velocity。如今已是一個爆炸性的大數據時代,推動社會發展,已從“動力驅動”轉為“數據驅動”。越來越多的國家和企業意識到了大數據的重要。2012年1月,“大數據,大影響”作為重要議題在世界經濟論壇年會中被提出。2012年3月22日,美國又啟動“大數據研究和發展計劃”,目的是提高從海量數據中提取知識的能力,加速其在科學與工程領域的研究。2012年5月,聯合國相繼了《大數據開發:機遇和挑戰》報告,明確指出大數據對各國發展都將是一個巨大的機遇。大數據風靡全球的同時,我國政府也加快了對大數據相關技術的攻關,在工信部的《物聯網十二五規劃》里,提出信息處理技術是關鍵技術創新工程。廣東省在2012年12月了《廣東省實施大數據戰略工作方案》,率先在國內啟動大數據戰略,首先是采用行政收集、網絡搜取、群眾提供和有償購買等方式拓寬數據來源渠道,建立政務數據中心,接著在政府各部門設立數據開放試點,并利用網站向社會提供下載和分析使用的數據,依此進一步推進政務公開。
二、大數據與交通信息管理的聯系
(一)在交通信息管理中的應用
隨著社會經濟的發展,機動車輛數量大幅增加,與此同時交通管理的復雜性也逐漸增大。而大數據技術可將其虛擬性、集成性、智能型和預測性四個方面的優勢運用到交通信息管理之中。首先虛擬性有利于跨區域的信息管理,只需多方共同遵守信息共享原則,就可以在已有的行政區域內解決跨域管理問題;第二,信息集成性有助于建立綜合立體的交通信息體系,通過收集不同范圍、區域和領域的“數據倉庫”,發揮整體通功能;而其智能分析處理,可以輔助交通管理制訂出較好的統籌與協調方案,減少人力和物力的使用,合理利用道路交通資源;除此之外,準確分析并提煉各部門數據,模擬出相應的交通預測模型,這將可以有效地推測未來交通運行狀態,并驗證技術方案的可行性。
(二)存在的問題
1.信息的孤立。不同部門的交通信息系統導致很多數據在物理上彼此隔絕,缺少信息互通。
2.缺乏多樣性。由于缺乏處理大數據的技術和能力,分析對象通常是統計學中的抽樣樣本,將導致分析結果的不全面和不精確。
3.缺乏有效的信息提取與處理。實時動態交通數據包含大量信息,但通常不需要使用全部原始信息。如何對數據信息進行快速提取,是交通數據管理面臨的又一難題。
4.海量數據困于長期存儲。現代交通數據具有來源豐富、數量龐大、分秒增長的特點,因此需要大容量的存儲空間和長期保存的功能,以保障其記錄歷史和推測未來的功能。
5.多類型數據難以統一管理。多類型交通數據即指傳統的數字信息,多元化的空間定位和先進的遙感圖像等數據。將其進行統一有效的管理,是交通數據管理需要重點研究的方向。
三、對交通信息管理教學的需求
(一)各高校教學現狀
將大連海事大學、上海交通大學、北京交通大學、東南大學、西南交通大學和武漢理工大學六所高校的課程進行對比。從六所高校對交通運輸專業的開設的基礎課程上看,與信息管理模塊有關的課程還是偏少,有些學校甚至沒有開設相關課程。
(二)傳統教學存在的問題
1.主干課程安排不合理。部分高校所設置的主干課程不能滿通信息管理模塊所需的基礎知識,因此難以實現高效、系統、完整的人才培養體系。
2.缺少專業選修課的引導。對于一個涉及面較廣的專業,多數高校的教學模式仍偏向專業必修,而忽視專業選修課。
3.教材更新緩慢。已有的教材存在片面性和過時性的問題,從而無法滿足學生對前沿知識全面而準確的了解。
4.形式單一。傳統教學主要為理論教學,對大數據技術背景的認識不夠充分,不能將學生的工程實踐能力和科技創新意識相結合。
5.缺乏實踐。傳統教學側重于對理論教學的解釋、驗證和簡單延伸,沒能及時將知識消化。
6.實習多流于形式。高校雖然有相關實踐和實習的要求,但這些都大多流于形式。有些企業擔心沒有經驗的實習生會影響正常的生產秩序,因而不愿接受實習生,這樣使得實習通常是走馬觀花。
(三)新教學模式提出的要求
1.分層次的培養模式。大數據時代的交通信息管理人才不僅需要有扎實的專業基礎,同時還應滿足不同層次的需求。例如本科畢業生將會面臨兩條出路,一部分走向社會生產,一部分會繼續深造,所以不同的畢業去向對于學生的能力要求也必然不同。因此,面對不同類型人才的能力培養需求,高校應當制訂分層次的培養方案,這樣在滿足不同企事業單位對就業學生工作能力的要求的同時,也能培養繼續深造的學生的科研能力和素養。實現分層次的培養方案,必然需要利用自主選課模式,加大社會需求類相關的選修課比重可以使學生在教學方案之內、教學計劃之外選擇適合自己的選修課,促使學生的專業知識結構從簡單型向復雜性轉變。
2.啟發式教學方法。教學方法上,要積極開展創新型教學研究,探索靈活多變、立體化的教學手段。啟發式教學的基本精神是根據辯證唯物主義的認識論,引導學生積極探索、發現問題、分析原因和找到解決方案,將知識轉化為能力和實力。在傳授基本知識的同時,力求將最新的科研成果納入到課堂之中,讓學生的知識與創新意識都能與時俱進。此外,教材也應及時更新,讓學生及時接觸到前沿信息。
3.提升教師的實踐教學水平。要改變學生實踐能力,必須從提高教師的實踐能力方面著手。加強師資隊伍多元化建設,實現雙導師制。雙導師型教師是指既具有高校教師任職資格,又具有較強專業實踐能力的教師。提高實踐能力方面可從以下兩方面入手:①優化科研環境,鼓勵教師積極參與橫向課題研究。這樣,青年教師不僅能深入了解本學科的前沿知識及工程實踐的應用,而且可以使基礎理論、專業知識與工程實踐緊密結合,從而培養和提高分析、解決工程問題的能力。②校企掛鉤,教師的工程實踐經驗和能力主要通過工程實踐鍛煉而獲得。高校和企業合作,不僅為青年專業教師工程實踐創造條件,同時還能為企業提供理論支持。
4.重視實踐能力的考核。構建客觀的、可操作性強的學生實踐能力評價體系。要求評價考核的標準和方法能夠將學生成績分解為一定的量化指標,從而客觀科學地評定其實踐能力。
四、總結
基于大數據的智慧云公交調度管理系統建立于智慧公交調度之上,以公交調度業務為主線,在公交車上部署GPS一體化設備、視頻監控設備等,以2G/3G/4G為網絡通道,上位機上部署服務器、調度工作站、維護工作站、監管工作站等硬件設備,以及相關的調度作業、實時監管、遠程維護等軟件系統,實現上下位數據交互。
2技術框架及功能設計
為了確保公交數據多年的數據不丟失,公交系統運行穩定、快速高效,整個系統采用數據倉庫、云技術、大數據、虛擬網絡等高端技術設計,實現從終端數據采集、基礎數據運維、調度作業、實時監管、高級挖掘分析等功能。服務器集群由GPS前置機、時實庫處理服務器、數據庫服務器、WEB應用服務器、文件服務器、流媒體服務器等服務器及相關的交換機、路由器等組成。放在中心機房,統一管理和維護。公交車安裝GPS一體化設備、視頻監控設備等,實時傳輸車輛的運行狀況數據、接收并處理調度中心發出的信息、報站及預報站,與后臺管理中心進行雙向信息交流和通話。同時,車載終端系統還會對車輛速度、行車線路、停靠站點等進行智能分析,當某些參數超過標準值時,終端系統會自動報警,司機可采取相應措施,使公交車更加安全可靠。同時,調度中心能掌握路上運行車輛載客量、速度、停靠、等各種情況信息,可根據車輛位置速度等因素預計出車輛到站時間、距離等,并將這些預報信息通過GPRS發送到各電子站牌顯示出來,乘客通過電子站牌可清楚了解等車情況,極大方便了乘客,提高了公交服務質量。調度中心和二級調度通過調度管理系統,將電子地圖、公交線路網分別或同時,全部或局部顯示在屏幕上,通過操作可以在電子地圖上選取車輛并顯示此時車輛的運行狀態、速度、方向、線路號、車牌號碼、車型等,實現監視、調度、管理各自管轄的公交車,并對公交車、司機等進行上下班、里程、正點率、完成率、油耗、材損等考核和獨立核算。
3關鍵技術分析
3.1數據倉庫設計、數據挖掘實現
公交GPS數據每10s上傳1包(約100個byte),每輛車平均運行14個小時,1萬輛車1個月的GPS實時數據大約為151M,加上調度排班、報警、加油加氣、維修保養、票款收入等數據,每個月的實時數據大約500M,若加上視頻監控報警采集數據(1個月約30G)將達到1年就是366G,存儲10年就是3.7T,這樣大規模的數據要快速存取,用以往的關系型數據庫管理已經很難滿足要求,所以采用大數據技術對這些數據進行存儲、清洗、梳理、鉆取,按需求將數據分布統維度和粒度生成熟數據保存,采用數據挖掘算法,快速為用戶按需提供數據是必然,也是實現基于大數據的云智能公交調度管理系統的基礎。
3.2云技術服務技術
大數據存儲在數據中心,而應用存在各個離散的終端,網絡資源不一致,通訊速度也千差萬別,大規模數據快速訪問而不耽誤公交實時調度,用原始的方法幾乎是不可能滿足需求,利用云技術,將數據分塊、切片、緩存、差異化數據交互等處理,建立云服務及云端應用機制,實現全網硬件資源綜合利用的大虛擬網絡環境,充分利用網內所有硬件資源,實現公交快速調度作業是該系統的關鍵所在。
4結論