前海中泰咨詢(xún)

在線(xiàn)咨詢(xún) 中文 | English
免費服務(wù)熱線(xiàn):
專(zhuān)題研究中心 大數據中心 前海中泰數據庫

政策環(huán)境 概念特征 技術(shù)基礎 應用領(lǐng)域 市場(chǎng)規模 區域應用 大數據動(dòng)向

技術(shù)基礎


大數據是云計算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、智慧城市等新技術(shù)、新模式發(fā)展的產(chǎn)物,它具有數據量大、類(lèi)型復雜、內容變化快的特征,蘊含廣泛的應用價(jià)值和巨大的市場(chǎng)機會(huì )。

1、大數據采集與預處理技術(shù)

數據采集技術(shù)指從傳感器和其它待測設備等模擬和數字被測單元中自動(dòng)采集非電量或者電量信號,送到上位機中進(jìn)行分析、處理的過(guò)程。數據采集技術(shù)可分為3 大類(lèi):①系統日志采集方法。通過(guò)智能硬件、傳感器、社交網(wǎng)絡(luò )等數據載體的日常運維進(jìn)行數據資源的采集。②網(wǎng)絡(luò )數據采集方法。指通過(guò)網(wǎng)絡(luò )爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數據信息。該方法可以將非結構化數據從網(wǎng)頁(yè)中抽取出來(lái),將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,并支持文件之間的自動(dòng)關(guān)聯(lián)。③其他數據采集方法。其他數據包括企業(yè)生產(chǎn)經(jīng)營(yíng)數據或學(xué)科研究數據等保密性要求較高的數據,可以通過(guò)與企業(yè)或研究機構合作,使用特定系統接口等相關(guān)方式采集數據。

大數據預處理技術(shù),主要完成對已接收數據的辨析、抽取、清洗等操作。數據抽?。阂颢@取的數據可能具有多種結構和類(lèi)型,數據抽取過(guò)程可以將這些復雜的數據轉化為單一的或者便于處理的類(lèi)型,以達到快速分析處理的目的。數據清洗:對于大數據,并不全是有價(jià)值的,對于無(wú)價(jià)值的數據或干擾數據,需要通過(guò)過(guò)濾“去噪”進(jìn)而提取出有效數據。

2、大數據存儲管理技術(shù)

數據的海量化和快增長(cháng)特征是大數據對存儲技術(shù)提出的首要挑戰。這要求底層硬件架構和文件系統在性?xún)r(jià)比上要大大高于傳統技術(shù),并能夠彈性擴展存儲容量。但以往網(wǎng)絡(luò )附著(zhù)存儲系統(NAS)和存儲區域網(wǎng)絡(luò )(SAN)等體系,存儲和計算的物理設備分離,它們之間要通過(guò)網(wǎng)絡(luò )接口連接,這導致在進(jìn)行數據密集型計算(Data Intensive Computing)時(shí)I/O 容易成為瓶頸。同時(shí),傳統的單機文件系統(如NTFS)和網(wǎng)絡(luò )文件系統(如NFS)要求一個(gè)文件系統的數據必須存儲在一臺物理機器上,且不提供數據冗余性,可擴展性、容錯能力和并發(fā)讀寫(xiě)能力難以滿(mǎn)足大數據需求。

谷歌文件系統(GFS)和Hadoop 的分布式文件系統HDFS奠定了大數據存儲技術(shù)的基礎。與傳統系統相比,GFS/HDFS 將計算和存儲節點(diǎn)在物理上結合在一起,從而避免在數據密集計算中易形成的I/O 吞吐量的制約,同時(shí)這類(lèi)分布式存儲系統的文件系統也采用了分布式架構,能達到較高的并發(fā)訪(fǎng)問(wèn)能力。

3、大數據分析挖掘技術(shù)

在人類(lèi)全部數字化數據中,僅有非常小的一部分數值型數據得到了深入分析和挖掘(如回歸、分類(lèi)、聚類(lèi)),大型互聯(lián)網(wǎng)企業(yè)對網(wǎng)頁(yè)索引、社交數據等半結構化數據進(jìn)行了淺層分析(如排序)。占總量近60%的語(yǔ)音、圖片、視頻等非結構化數據還難以進(jìn)行有效的分析。

大數據分析技術(shù)的發(fā)展需要在兩個(gè)方面取得突破,一是對體量龐大的結構化和半結構化數據進(jìn)行高效率的深度分析,挖掘隱性知識,如從自然語(yǔ)言構成的文本網(wǎng)頁(yè)中理解和識別語(yǔ)義、情感、意圖等;二是對非結構化數據進(jìn)行分析,將海量復雜多源的語(yǔ)音、圖像和視頻數轉化為機器可識別的、具有明確語(yǔ)義的信息,進(jìn)而從中提取有用的知識。

4、大數據可視化技術(shù)

數據可視化是一個(gè)處于不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術(shù)上較為高級的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計算機視覺(jué)以及用戶(hù)界面,通過(guò)表達、建模以及對立體、表面、屬性以及動(dòng)畫(huà)的顯示,對數據加以可視化解釋。與立體建模之類(lèi)的特殊技術(shù)方法相比,數據可視化所涵蓋的技術(shù)方法要廣泛得多。

數據可視化技術(shù)主要是利用計算機圖形學(xué)和圖像處理技術(shù),將數據轉換成圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)等。它涉及到計算機圖形學(xué)、圖像處理、計算機視覺(jué)、計算機輔助設計等多個(gè)領(lǐng)域,成為研究數據表示、數據處理、決策分析等一系列問(wèn)題的綜合技術(shù)。

5、大數據安全技術(shù)

大數據安全是個(gè)很寬泛的領(lǐng)域,可以包括:大數據系統的安全,數據本身的安全(加密)以及隱私保護,大數據應用帶來(lái)的安全和隱私問(wèn)題,以及大數據技術(shù)應用于安全領(lǐng)域。

以 Hadoop 為代表的大數據系統早期主要處理公開(kāi)領(lǐng)域的Web 數據,因此并沒(méi)有在安全上著(zhù)力,但近年來(lái)有了長(cháng)足的進(jìn)展,逐步加入了用戶(hù)和服務(wù)鑒權(基于Kerberos),加入HDFS文件權限,對數據塊的權限控制,對任務(wù)的授權,對網(wǎng)絡(luò )上流動(dòng)數據的加密以及DataNode內靜態(tài)數據的加密等。Intel 的Project Rhino 做了很多有益的嘗試。

數據安全首先是靜態(tài)數據的安全,主要是訪(fǎng)問(wèn)權限控制;其次是動(dòng)態(tài)數據的安全,主要是加密和動(dòng)態(tài)審計能力。目前動(dòng)態(tài)審計能力主要還是在企業(yè)內,表現為數據泄露防護技術(shù),對重要數據進(jìn)行分級、標識,實(shí)現跨平臺(端點(diǎn)、移動(dòng)設備、網(wǎng)絡(luò )和存儲系統)的統一管理。

現在的主流大數據使用安全技術(shù)包括:基于同態(tài)加密、支持SQL 的加密數據庫,基于加密協(xié)議的多方安全計算,基于可信計算環(huán)境的多方安全計算,基于隱私保護的機器學(xué)習算法等。

大數據中心

專(zhuān)題研究中心MORE+
  • 新能源產(chǎn)業(yè)

    近年來(lái),在傳統能源供應日趨緊張,環(huán)境保護壓力加大的背景下,新能源成為我國重要的能源戰略。

  • 生物產(chǎn)業(yè)

    隨著(zhù)現代生命科學(xué)快速發(fā)展,以及生物技術(shù)與信息、材料、能源等技術(shù)加速融合,高通量測序、基因組編輯和生物信息分析等現代生物技術(shù)突破與產(chǎn)業(yè)化快速演進(jìn),生物經(jīng)濟正加速成為繼信息經(jīng)濟后新的經(jīng)濟形態(tài),對人類(lèi)生產(chǎn)生活產(chǎn)生深遠影響。

  • 新能源汽車(chē)產(chǎn)業(yè)

    新能源汽車(chē)行業(yè)涉及國家能源安全、環(huán)保以及汽車(chē)產(chǎn)業(yè)興衰等,目前世界主要汽車(chē)大國美/歐/日/韓等都已相繼對新能源汽車(chē)行業(yè)進(jìn)行了一系列戰略布局,國內主要車(chē)企也相繼提出了各自的新能源汽車(chē)戰略,新能源汽車(chē)產(chǎn)業(yè)化、本土化浪潮勢不可擋。

 

免費咨詢(xún)熱線(xiàn):400-6630-998

地址:深圳市南山區深南大道9030號沙河世紀假日廣場(chǎng)B座507

郵箱:info@qhztzx.com

官網(wǎng):www.yipinmendi.cn

手機版網(wǎng)站前海中泰咨詢(xún)移動(dòng)端微信訂閱號前海中泰咨詢(xún) - 訂閱號微信服務(wù)號前海中泰研究咨詢(xún) - 12cm.jpg

聯(lián)系我們 | 網(wǎng)站地圖 Copyright ? 2017 前海中泰(深圳)研究咨詢(xún)控股有限公司 粵ICP備17093436號-1 Powered by szweb
0755-32919669 深圳前海中泰咨詢(xún)公司微信 在線(xiàn)咨詢(xún)