北京快乐8官网|北京快乐8选一秘诀

什么是大數據?大數據如何發揮作用?讀這一篇就夠了

大家好,我是一個字節。

靈魂第一問:我是誰?

我是表示數據量的基本單位。

大家平時看到的MB、GB、TB就是很多個我湊在一起,這些都是可以表示數據存儲量的計量單位。

1024個我組成1個KB,1024個KB組成1個MB,1024個MB組成1個GB,1024個GB組成1個TB……

靈魂第二問:我從哪里來?

別動!你現在手指劃過屏幕就在產生數據。

你剛剛點擊關注小咖的公號(沒關注的現在就動動你手指,點擊標題下面的藍字關注我們)、你看完文章點“在看”,你在留言區給我留言,你看完文章后轉發朋友圈,所有的這些都在產生數據。

你的每一個上網行為會產生數據;你現在用的手機在工廠里生產制造時,自動化生產線會產生數據;之后你在京東商城買手機,會產生交易數據,手機送到你手上的過程還會產生物流數據……

很多人說,我們將成為和石油一樣重要的資源。數據中蘊藏著未來的重要商機、推動社會進步以及科學發現的動力。可現實情況似乎并不樂觀,有個叫IDC的知名分析機構說了,過去兩年創建的那些我的同族們,其中只有不到 2% 的經過了分析。

我想,可能是因為我們和石油一樣,同樣需要被勘探與挖掘,而這個過程都不簡單。在我們數據一族,這種“挖掘與勘探”的過程被稱為數據分析與洞察,這讓我們產生價值。

很多很多個我們湊在一起,人們習慣把我們叫作“大數據”。如果只是單獨的一個我,或者很少的幾個我們,是無法產生價值的。所以,讓我們發揮價值的第一步是要搜集數據,第二步是分析數據,第三步是根據數據分析結果做出決策。這些都需要依托于計算機系統的計算能力與存儲能力。

而我們數據一族又有很多種,有些被人們叫做結構化數據,簡單來說就是數據庫,比如企業ERP、財務系統、醫療HIS數據庫、政府行政審批、其他核心數據庫產生的數據;有些被人們叫做非結構化數據,他們“偽裝成”視頻、音頻、圖片、圖像、文檔、文本等形式。非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。

有位牛津大學教授名叫維克托·邁爾-舍恩伯格,人們將他奉為“大數據之父”,他在《大數據時代》的書中寫道:“只有5%的數字數據是結構化的且能適用于傳統數據庫。”企業要想采用智能分析、圖像識別等一系列先進算法來使大數據結構化,是需要付出高額花費的。

靈魂第三問:要到哪里去?

聽說,現在我的同族太多太多了,而且,還總在源源不斷地冒出來,我們出現的這種方式被人們叫做“數據洪流”。

據IDC在2018年11月公布的數據來看,全球超過一半的數據創建于過去兩年。預計從2018到2023年,全球數據空間的復合增長率(CAGR)將達25.8%。海量數據的產出已經成為日常。隨著數字化進程的加速,各種來源的數據都在以 GB、TB 甚至 PB 級的規模出現。

人們發現,比數據量更值得關注的是數據價值,后者來自數據分析及其中所蘊含的洞察。數據中可能蘊藏著未來的重要商機、推動社會進步以及科學發現的動力。

于是,企業數據的存儲與處理能力也在不斷受到挑戰。Gartner副總裁兼杰出分析師Donald Feinberg就曾經表示:“數據量正在快速增多,實時將數據轉化成價值的緊迫性也在同樣快速增加。新的服務器工作負載不僅需要更快的CPU性能,而且還需要大容量內存及更快的存儲。”

云計算來了以后,我就經常出現在數據中心里。服務器比我早些年經常待的PC機空間大了不少,不過CPU依舊是“寸土寸金”,同樣,越接近CPU,數據的存取速度越快。雖然CPU片上的高速緩存時延為納秒級,不過主流服務器上的CPU緩存基本上也只能接近100MB。以往,這一重任落在DRAM內存上(動態隨機存取存儲器 Dynamic Random Access Memory)。但通常,DRAM內存容量也比較小,要換裝大容量的又成本太高。而且一斷電,內存上我的族群們就會全部走丟,所以,之后系統和應用在重新啟動時,還需要花費相當多的時間去重新把他們找回來,加載到內存中。

人們為了我們數據家族可真是操碎了心。整個行業都在采用基礎設施創新、多種工具與手段、以及最佳實踐等方法來推動數據分析和挖掘,也取得了很多的成果。隨著數據量和種類的增多,用戶期待以越來越快的速度獲取數據洞察。

真正有效利用所有數據,促進數據流動,提升數據的可處理性,一直是人們所關心的,如今,需要尋找機會突破數據吞吐量的瓶頸,我們的更多價值才能夠被發現。

為了讓我的族群可以多一層緩沖,更流暢地流動、被處理和被分析,減少我們加速“換檔”時的“頓挫感” ,英特爾推出了傲騰數據中心級持久內存,這是位于DRAM內存層和存儲層之間的一種新型內存。

我發現,在Gartner發布的2019年十大數據與分析技術趨勢里,“持久內存服務器”就位列其中。

英特爾傲騰數據中心級持久內存的三種應用模式

英特爾傲騰數據中心級持久內存既可以是內存,也可以是存儲,它可以通過兩種特殊的運行模式—— App Direct模式和內存模式來實現獨特的能力。利用 App Direct模式,經過專門調試的應用程序可從產品固有的持久性中充分獲取價值并獲得更大的容量;在內存模式下,可將該產品用作易失性存儲,從而在無需重寫軟件的情況下有效利用最高達512GB的內存模塊。如果用戶既對內存模式有需求,又有工作負載需要運行在 App Direct 模式下,那么,英特爾傲騰TM 數據中心級持久內存就可激活第三種工作模式——雙重模式。

現在,已經有很多在云基礎設施及數據分析任務中被內存資源不足所困擾的企業,采用了英特爾傲騰數據中心級持久內存來緩解壓力。

百度Feed 流服務的核心模塊Feed-Cube 逐步從純 DRAM 內存的配置模式遷移至純英特爾傲騰數據中心級持久內存的配置,其系統構建成本也隨之不斷降低,百度卓有成效地降低了總擁有成本。

微軟Windows Server 2019/Hyper-V多租戶虛擬化的聯機事務處理 (On-Line Transaction Processing,OLTP)云基準測試中,使用DRAM內存和英特爾傲騰數據中心級持久內存組合的平臺,與僅使用DRAM內存的平臺相比,內存容量提升達33%,每節點虛擬機數量提升達到36%,使每臺虛擬機的硬件成本降低30%。

SAP的大型數據計算平臺HANA分別在3TB DRAM內存平臺和3TB DRAM內存+6TB英特爾傲騰數據中心級持久內存平臺上進行了性能測試。結果表明,后者可以讓系統重啟速度從20分鐘縮短到90秒,大幅減少的停機時間可以使每TB數據庫容量的成本節約 39%。

英特爾傲騰數據中心級持久內存填補了內存/存儲金字塔中的重要缺口

英特爾傲騰數據中心級持久內存提供的新內存層,為高性能工作負載提供經濟高效的大容量內存。第二代英特爾至強可擴展處理器所支持的傲騰數據中心級持久內存能夠以更快的速度為每個平臺提供更大的總內存容量,以更快的速度進行對持久數據的字節可尋址訪問。

英特爾傲騰數據中心級持久內存,與英特爾第二代至強可擴展處理器相輔相承,將云和數據庫中的關鍵數據工作負載轉為內存分析和分發網絡,讓數據從負擔變“富礦”。

正如兩河流域的洪流哺乳了人類古老文明一樣,英特爾傲騰數據中心級持久內存成為DRAM內存層和存儲層之間的一種新型內存。作為一個字節,我和我的族人們在這里匯聚,這里蘊藏著無數的機遇與挑戰。

免責聲明:本文僅代表文章作者的個人觀點,與本站無關。其原創性、真實性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容文字的真實性、完整性和原創性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。

http://www.kzguv.com.cn/style/images/nopic.gif
?
分享
評論
首頁
北京快乐8官网 恒日升配资 通昭配资 国际股票指数收盘时间 购买股票的手续费 海南4+1 腾讯大盘 mba学费大概多少 外星大袭击 欢乐麻将怎么作弊 篮球比分网分 淘宝网篮球比分直播 安徽麻将芜湖麻将 东北麻将手机版下载 大资本配资 大额股票配资 广东11选5爱彩乐