<var id="66611"><ol id="66611"></ol></var>
  • <code id="66611"><ol id="66611"></ol></code>
    1. <code id="66611"><u id="66611"></u></code>
    2. <code id="66611"></code>

    3. <acronym id="66611"></acronym>

      大數據分析與計算技術國家地方聯合工程實驗室

       

        定位

        2016年11月,由計算機網絡信息中心牽頭申請的國家發改委“大數據分析與計算技術國家地方聯合工程實驗室”獲批。工程實驗室依托中國科技云,圍繞大數據的產業發展中的規模性、高速性、多樣性等復雜性問題,針對大數據分析處理技術的迫切需求,持續匯聚多形態數據資源,融合多形態測試基準程序,開展大數據融合管理與關聯發現、大數據分析挖掘與快速處理、支持大數據核心軟件及系統基準測試等關鍵技術的研究,建設基于云計算的大數據分析與計算關鍵技術研發平臺、支撐大數據分析與計算的核心算法、軟件及系統測試平臺、大數據分析與計算技術驗證平臺,并在食品安全、新材料創新、車用能源與排放等相關領域進行技術示范驗證工作,滿足提升產業創新能力、促進區域經濟發展方面的需求。

        主要職責

        1.支撐國家大數據產業戰略的實施

        大數據是與自然資源、人力資源一樣重要的戰略資源,是一個國家數字主權的體現。大數據時代,國家層面的競爭力將部分體現一國擁有的大數據的規模、活性以及對數據的解釋、運用的能力。工程實驗室對于保障我國數字主權,提升國家大數據研發水平,滿足國家大數據產業的重大需求,促進國家發展戰略具有重要的意義。

        同時大數據將引起科技界對科學研究方法論的重新審視,引發科學思維與方法的一場革命。大數據的出現催生了一種新的科研模式,即面對海量數據,科研人員只需從數據中查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸需研究的對象。工程實驗室建設項目的產出將促進科研方式的轉變,在降低成本的同時提高科研效率和提升創新能力。

        2.創造巨大的環境效益

        隨著大數據時代的來臨,制造企業的ERP、PLM等信息化系統的部署也逐步完成,管理方式由粗放式管理轉為精細化管理,企業的能源消耗結構也逐漸清晰,企業在實現對業務數據進行有效管理的同時,積累了大量的數據信息,產生了利用大數據收集、管理和展示分析技術,建立能源消耗信息網絡,有助于對工業企業用能和減排數據的統計、查閱、管理,有助于對工業企業用能和減排運行態勢進行分析、預警,有助于對企業用能和減排工作進行監督管理,更有助于對工業企業用能和減排工作提供智能支持。

        通過能源消耗信息網絡,可以對企業的耗能行為和能源市場細分,自動分析各企業的用能指標,計算能源消費彈性系數,對能耗趨勢提前預警,對節能減排工作進行監督。加速企業智能化控制的步伐,促進智能網絡的發展,解決能源接入和調度問題,推廣柔性能源系統的應用,實現運維智能化,創造巨大的環境效益。

        3.助力實體行業可持續發展

        工程實驗室將在基礎理論與關鍵技術研發的基礎上,力爭掌握該領域的核心自主知識產權,通過專利授權、標準推廣、技術轉讓等多種方式,將技術向產業輻射。同時通過大數據分析與計算關鍵技術在食品安全、新材料創新、車用能源與排放等領域的驗證,逐步形成行業大數據分析與計算解決方案,并進行推廣和延伸。

        工程實驗室將積極開展行業和國家級的大數據分析與計算相關重要技術標準的研究,為產業界提供相應的咨詢培訓及測試平臺,凝聚和培養高水平產業技術人才。

        4.攻克制約大數據產業發展的技術難題

        由于大數據的規模性、高速性、多樣性等本質決定了其處理過程的復雜性,因此,大數據技術在帶來巨大利益的同時,也面臨著如何處理大數據這一難題。目前大數據分析與計算還面臨諸多挑戰:

        ①高效率低成本的大數據存儲和計算技術。大數據的存儲方式不僅影響其后的數據分析處理效率也影響數據存儲的成本。因此,就需要研究高效率低成本的數據存儲方式,同時大數據應用的多樣性也需要對不同計算資源的間的靈活調度和統一服務。

        ②多源異構數據的組織管理。如何提供設計可擴展、高可用的數據存儲組織結構,解決海量并發用戶請求和在線數據查詢處理問題。

        ③大數據的有效融合和關聯發現。數據不整合就發揮不出大數據的大價值。大數據的泛濫與數據格式太多有關。大數據面臨的一個重要問題是個人、企業和政府機構的各種數據和信息能否方便地融合。同時具體包括多源異構數據的一致化管理和組織、高速索引創建與存儲以及關聯發現等。

        ④大數據的高效處理與可視化。如何實現支持針對數據密集和計算密集并存的統一處理框架,提供大數據用戶使用的分析即服務(AaaS)的常用數據挖掘與分析算法。如何較好地實現數據分析的展示和操作, 尤其是復雜分析操作的直觀展示?如何實現海量時空數據提供快速可視化和時空分析服務?

        為此,針對目前大數據技術領域存在的主要問題和挑戰,程實驗室將圍繞大數據分析與計算的關鍵領域開展技術研究,對于大數據的應用提供理論與技術支持,并積極推動成果轉化,輻射帶動行業的進步與升級。

        主要任務

        1.關鍵技術的突破

        工程實驗室通過對支持大數據應用服務的云計算技術、大數據融合管理和關聯發現技術、大數據分析與可視化技術等研究,產出各類論文、標準、建議與原型,包括大數據管理系統、大數據并行處理引擎、大數據分析與挖掘工具集,提升我國在大數據應用服務技術的自主創新能力。

        2.滿足國家大數據核心算法、技術與系統研發的需求

        工程實驗室建設支持大數據核心算法、軟件及系統試驗測試公共服務平臺,為國家大數據科研人員提供研制的大數據存儲、計算和網絡設備,大數據管理和處理的系統軟件,大數據分析與可視化模型與算法提供近乎真實的試驗環境,提升國家大數據應用服務研發水平,滿足國家大數據產業的重大戰略需求。

        3.面向產業界的技術輻射

        工程實驗室通過大數據應用服務關鍵技術在食品安全、新材料創新、車用能源與排放等大數據應用的驗證,逐步形成行業大數據應用服務解決方案,并進行推廣和延伸。為產業界提供相應的咨詢培訓及測試平臺,凝聚和培養高水平產業技術人才。積極開展國際學術交流以及產學研合作,實施知識產權戰略,為大數據應用服務科研界和產業界提供新技術測試和輻射平臺。

        管理機制與運行體制

        工程實驗室依托中國科學院計算機網絡信息中心(簡稱計算機網絡信息中心)進行建設,實行理事會領導下的主任負責制。

        計算機網絡信息中心是中國科學院(簡稱中科院)下屬的科研事業單位,是中科院科研信息化和管理信息化的支撐服務機構,信息化應用技術的研發和示范基地。二十余年來,計算機網絡信息中心立足支撐與服務全院科研信息化和管理信息化,匯聚管理信息化資源,發揮了科研應用的信息化、學科交叉開放融合、科學思想傳播和科研信息化理念傳播的先遣隊作用,成為我院信息化基礎設施建設、運維和信息化基礎服務的一支中堅力量,成為引領中國科研信息化建設和運行服務的一流信息中心。

        理事會成員單位由中國科學院計算機網絡信息中心、中國科學院物理研究所、北京市食品安全監控中心、北京科技大學、中國汽車技術研究中心北京工作部(北京卡達克科技中心)、北龍澤達數據(北京)科技有限公司、曙光信息產業股份有限公司、中國科學院科技促進發展局和中國科學院條件保障與財務局組成,充分體現產學研合作。

        科學技術委員會為實驗室的技術咨詢與評議機構,其主要職能是受理事會委托,為學術研究方向、發展目標、成果轉化等提供咨詢建議和評議。

        研發方向

        1.支持大數據應用服務的云計算技術

        (1)異構存儲資源統一管理和服務

        隨著云計算和大數據的推廣,數據中心逐步向高伸縮、高可用和高度資源共享的方向發展,將單個的分散的硬件設施進行整合、優化,從而形成集成的、按需分配的共享資源池已成為一種趨勢。大數據種類多,涵蓋了結構化數據、非結構化數據以及對象數據,分別采用數據塊接口、文件接口和對象接口進行訪問。

        因此需要研究統一存儲管理和服務技術,形成統一存儲系統,將塊存儲、文件存儲和對象存儲一同整合到統一存儲中,提高存儲資源利用率,簡化管理和降低總體成本。統一存儲系統應具備高性能、可擴展性和高成本效益,應具有支持對象存儲的能力。

        (2)異構計算資源的統一管理和動態調度

        研究支持異構服務器和異構虛擬化計劃的統一管理,實現資源的整合與統一服務;研究虛擬資源池內、物理資源池與虛擬資源池之間的動態調度技術,實現資源的按需使用,提高計算資源整體的使用效率。

        (3)自動化部署技術

        研究支持軟件或者應用系統快速批量部署的數據模型和工作流引擎,通過將具體的軟硬件甚至邏輯概念定義在數據模型中,管理工具可以標識并在工作流中調度這些資源,實現分類管理。工作流引擎是調用和觸發工作流,實現部署自動化的核心機制,自動將不同種類的腳本流程整合在一個集中、可重復使用的工作流數據庫中。

        2.大數據融合管理與關聯發現技術

        (1)大數據融合管理技術

        為多種類型的海量數據提供低成本的、易擴展(scale out)的、一體化的組織與管理,支持的數據類型包括結構化數據、半結構化數據以及非結構化數據。數據存儲組織結構具有高可擴展能力,能夠應對數據量的快速增長。具備良好的容錯能力,能夠應對數據中心硬件環境的突變。支持包括離線數據分析和在線實時訪問兩種不同需求的海量數據高效處理模式,向應用軟件及終端用戶提供方便易用的類SQL訪問接口。支持高性能、高吞吐的離線數據分析,能夠對海量數據進行分布式的計算處理并快速返回結果。支持大規模用戶的鍵/值數據在線實時訪問,保證較低的響應延遲。

        (2)大數據關聯發現技術

        結合關聯發現的各個環節,構建一個完整的數據關聯發現流水線,其中主要包括三部分內容,即關聯數據發布、關聯發現、數據融合,圖3-1展示了數據關聯發現的整個流程。

        (3)關聯數據發布技術

        支持不同領域的知識本體的構建,包括手動和自動構建。支持多種異構數據源、多種格式數據的發布,通過靈活配置實現新的數據源或數據格式的發布。對不同數據源進行實時監控,保持關聯數據中的數據與原始數據的同步。針對大規模的數據源,研究分布式、多任務的關聯數據發布。

        (4)數據關聯發現方法

        突破超大規模的、屬性不對稱的、發現進程可持續迭代的數據關聯發現技術。研究適合于超大規模的數據屬性相似度計算問題,提出可橫向擴展的計算框架。針對目前的科學數據屬性缺失、屬性不對稱問題,研究基于第三方開放數據集的數據比對技術。針對關聯發現過程的迭代性,研發支持多任務、多路徑、可多次迭代的關聯發現引擎。

        (5)關聯數據融合技術

        實現關聯數據的沖突處理,對于不同的數據,提供多種沖突處理策略。支持數據質量評估,通過不同的評估策略,對關聯數據進行清理、過濾、規范等。

        3.大數據分析與可視化技術

        (1)大數據處理技術

        基于多類型的基礎設施,構建應用感知的大數據并行處理框架;以典型的大數據處理模型為切入點,研究并構建基于分布式并行編程模型MapReduce、并行計算開源框架MPI、并行計算模型GPU為基礎的松散耦合的并行計算模塊和高性能計算模塊;研究大數據自動并行處理框架NoPar;研究支持NoPar框架的底層數據分割與分布機制;提出面向高效大規模數據處理的并行處理框架和方法,支持兼容MapReduce、Dataflow和MPI編程模型并具有容錯功能的混合編程運行時系統和不同模型下的任務向資源的映射策略。研究本地節點上多磁盤聚合帶寬策略及實現機制,以提升大數據IO性能;研究根據數據位置以及計算系統性能等綜合指標進行智能調度的作業調度機制,研究支持失敗作業自恢復的方法和手段。

        (2)大數據挖掘和分析技術

        研究面向海量數據分析的并行數據挖掘技術,能夠有效支持迭代、遞歸等復雜數據分析應用。構建一套基于MapReduce、MPI、GPU等并行編程模型的數據挖掘算法庫,同時支持第三方數據挖掘工具的接入,提供開放共享的海量數據分析核心算法庫服務。構建大數據挖掘云服務模塊,以分析即服務(AaaS)的方式提供高可用、高可靠的大數據挖掘云服務。研究大數據挖掘云服務的管理和調度功能,滿足不同業務的應用需求。構建基于服務優先級和資源匹配情況的調度機制,解決服務的并行互斥、隔離等,保證大數據挖掘云服務安全可靠。研究基于統一服務注冊、服務接口等功能,構建支持本地服務接口、同時支持第三方數據挖掘能力的接入,實現數據挖掘平臺的可擴展服務。

        (3)大數據可視化分析技術

        大數據可視化分析技術主要包括大數據比較性可視分析、在線可視化分析服務和大數據時空可視化三部分:

        1)大數據比較性可視分析

        研究適合于大數據比較性可視分析的可視化計算處理框架;建立面向大數據的比較性可視化分析系統,集成3-5種比較性可視化分析的算法。

        2)在線可視化分析服務

        由于在線可視化分析系統對系統響應時間具有較大的敏感性,所以應研究面向在線可視化分析的計算強度估算模型,以估算在線可視化分析應用的計算強度,并據此對后臺資源進行有效調度;標準OGC可視化服務規范的改造和擴充,使其更加適合大數據應用中數據可視化與可視分析的需求。

        3)大數據時空可視化

        面向大數據的數據空間化,即研究如何快速對海量數據進行時間/空間屬性的提取,以滿足大數據時空組織的需要;對原有的時空可視化的算法和模型進行面向大數據的修改,以適應大數據時空可視化的需求。

        4.支持大數據核心軟件及系統測試技術

        研究大數據創新技術、軟件與系統的試驗環境總體架構、協議與標準,指導大數據相關技術創新試驗環境的設計、研制、管控與試驗服務。研發多類型基準測試數據資源以及基準測試程序的匯聚,形成基準測試套件庫,支持各類大數據創新技術和軟件系統的測試和服務。研究大數據創新技術和軟件系統測試過程管理技術,包括資源管理控制技術、試驗服務技術和測量技術,實現試驗過程動態管理與實時監控、試驗活動的自適應資源分配與運行調度、試驗過程的多維多粒度、全程全息測量;最終構建具備一定存儲、計算能力和數據資源的大數據核心軟件及系統測試平臺,為試驗用戶提供可管、可控、可測的大數據綜合試驗服務與開發環境。

        5.典型大數據應用示范驗證技術

        為了驗證大數據應用服務技術,我們將分別選擇食品安全、新材料創新、車用能源與排放等大數據應用進行示范。

        在食品安全領域,基于大數據應用服務技術成果研發面向食品安全網絡信息獲取和處理、多源的食品安全檢測數據的關聯性分析與比對,實現食品安全風險監控與預警。該示范應用的特點是以數據密集型處理為主。

        在新材料創新領域,為了使材料探索和創新從傳統的“炒菜式”方式向有理論依據的、可計算預測的“科學設計”轉變,研發基于大數據應用服務技術成果的構建集材料計算和材料大數據分析軟件包于一體的材料大數據服務系統,提供基于材料屬性的智能推薦服務。該示范應用的特點是以計算密集型處理為主。

        在車用能源與排放領域,基于實時產生全國海量的能源汽車產銷相關數據,建立環境數據預測模型,進行能源汽車與環境大數據關聯分析,構建各類機動車能源結構優化模型,為政府定量分析機動車的能源結構提供理論依據與決策支持。

       

      撸撸色在线