Esri自2013年發(fā)布了GIS tools for Hadoop,正式加入互聯(lián)網(wǎng)大數(shù)據(jù)廠商的行列,至今已經(jīng)3年了。在這3年中風(fēng)云變幻,業(yè)界技術(shù)在不斷的發(fā)生著變更,Esri的大數(shù)據(jù)戰(zhàn)略也在不斷的向前推進(jìn)。 在剛剛結(jié)束的2016Esri空間信息技術(shù)開發(fā)者大會上,在IT熱點(diǎn)技術(shù)專場的《ArcGIS平臺下的大數(shù)據(jù)挖掘》,與往年相比,發(fā)生了明顯的變化。往年因?yàn)镋sri自身的原因,將大數(shù)據(jù)限定在空間大數(shù)據(jù)這個領(lǐng)域里面。但是今年很明顯的發(fā)現(xiàn),在ArcGIS的平臺上,已將傳統(tǒng)的空間二字去掉,使得平臺支持的領(lǐng)域更加廣泛。
實(shí)際上,地理信息發(fā)展了這么多年,如果說最能與互聯(lián)網(wǎng)大數(shù)據(jù)概念掛鉤的,只有LBS(基于位置的服務(wù))數(shù)據(jù)和遙感影像的數(shù)據(jù)。這兩類數(shù)據(jù)無論是從體量上,還是從生成速度、數(shù)據(jù)結(jié)構(gòu)、維度以及價值密度上,都能夠與互聯(lián)網(wǎng)大數(shù)據(jù)的概念貼合。但是傳統(tǒng)的空間分析乃至于空間數(shù)據(jù)挖掘領(lǐng)域,卻更多是在地理空間統(tǒng)計樣本上進(jìn)行分析。而且因?yàn)榭臻g數(shù)據(jù)的特點(diǎn),諸如空間自相關(guān)、空間異質(zhì)性等空間統(tǒng)計學(xué)與傳統(tǒng)統(tǒng)計學(xué)截然不同的概念,使得很多的分析,無法采用互聯(lián)網(wǎng)大數(shù)據(jù)中那些分布式計算的方法來實(shí)現(xiàn)。
在Esri中國高級咨詢師盧萌看來,“這一次開發(fā)者大會,從大數(shù)據(jù)的熱炒狀態(tài)中,回歸了地理分析的本源?!?/p>
盧萌在其《ArcGIS平臺下的大數(shù)據(jù)挖掘》講座中談到,地理分析一直是地理信息系統(tǒng)區(qū)別于其他系統(tǒng)最大的不同點(diǎn)。地理信息首先是一個從不一樣的視角來看待整個世界。很多人都說,做地理信息的人,每天都像神一樣,在離地幾百米以上的高空俯視著整個大地。而地理分析讓這個視角更進(jìn)了一步,不但是從高空俯視著大地,而且通過不同的痕跡,可以讓我們的視野穿越過去未來,在更廣闊的空間和時間線了解發(fā)生了什么事情。
其次,地理學(xué)研究的領(lǐng)域是所有領(lǐng)域中最為廣泛的,上至無窮的太空,下至人類所能探測到的最深的地底,都是地理學(xué)的研究范圍,很多研究都在改變著我們的生活。這樣一個廣泛的領(lǐng)域構(gòu)成了一個巨復(fù)雜的系統(tǒng),比之這個系統(tǒng)的龐大程度,特別是隨著人類觀察手段的日益提升,互聯(lián)網(wǎng)所謂的大數(shù)據(jù),在它面前,也都是九牛一毛。
在回歸地理分析本源的情況下,盧萌還介紹了新一代技術(shù)能夠給地理分析帶來什么。
他認(rèn)為,首先就是業(yè)界最流行的Hadoop的MapReduce框架進(jìn)化到2.0之后,對地理分析帶來的價值。本次開發(fā)者大會,首次在GIS領(lǐng)域演示了新一代大數(shù)據(jù)分析框架Spark的應(yīng)用。
因?yàn)閭鹘y(tǒng)的MpaReduce架構(gòu)對迭代運(yùn)算的支持很不好,所以很多地理分析都無法運(yùn)行在其上面,更多的只是在它上面運(yùn)行諸如過濾、聚合這樣的簡單的空間分析。而新一代的Spark框架,因?yàn)槠洳捎昧藦椥苑植际綌?shù)據(jù)集(RDD)這一特性,能夠使得在Spark框架上,進(jìn)行迭代運(yùn)算的效率,超過傳統(tǒng)MapReduce的百倍以上。這樣,很多的分析算法就能夠直接跑在Spark上面了,諸如空間分析領(lǐng)域中最重要的前提計算步驟:構(gòu)建空間權(quán)重矩陣。利用Spark的優(yōu)勢,完全可以將龐大的空間權(quán)重矩陣加載到RDD中,然后每次運(yùn)算都可以從預(yù)先構(gòu)建的矩陣中快速獲取鄰近要素。這樣就讓很多在以前不可能實(shí)現(xiàn)、具有強(qiáng)空間自相關(guān)的分析在分布式集群框架上運(yùn)行了。
據(jù)盧萌透露,未來,Esri的分布式并行計算框架,將慢慢的從MapReduce上轉(zhuǎn)移到Spark上來。另外作為空間技術(shù)的業(yè)界領(lǐng)導(dǎo)者,Esri也致力于推動開源技術(shù)的發(fā)展。所以他建議有興趣的朋友可以從GitHub上下載最新的GIS Tools for Hadoop,開始嘗試Spark分析框架在空間分析領(lǐng)域給我們帶來的變化。
盧萌最后還指出,ArcGIS軟件作為平臺級產(chǎn)品,無論是對空間信息技術(shù)的支撐,還是對非空間信息的內(nèi)容進(jìn)行支撐,都在不斷的進(jìn)步。“從淘汰VB,將Python作為官方指定腳本,到能夠在平臺中直接引入R語言,都表明了這種趨勢,未來ArcGIS平臺將更加強(qiáng)大,也會有更廣泛的應(yīng)用。”