天文學家震驚了 通過90TB數據還原140億年宇宙演化史

“這裡有四組數據,每組數據都不一樣,當我們用通常的統計方法來看這些數據的時候,它們的方差、相關性系統值都完全一樣,看不出任何差別。但是,當我們用可視化方法把這些數據畫出來時,就能一眼發現它們的不同,特別是第四組數據,它其實是一只可愛的小恐龍。”

單桂華

中國科學院計算機網絡信息中心研究員

可視化是什麽?其實可視化離我們很近,比如堪稱年度恐怖大片的支付寶账單,年年刷爆朋友圈,大家可能都被嚇到過。這是因為可視化太直觀了,它們把數據轉化為形象的圖表,讓人們一目了然、快速地獲取信息,可以追蹤自己的飲食和消費習慣,於是人們看完就想剁手。

當然還可以複雜一些。這是大家熟悉的excel數據表,它記錄的是世界銀行統計的各國GDP的歷史數據。密密麻麻的幾頁,給我們一天的時間也很難發現裡面有什麽規律。那我們把它可視化出來看看。

可以看到各個國家不同年度的GDP值和排序變化,美國遙遙領先。總體來說,各個國家的GDP值都在增長,增長的快慢決定其排名的變化。中國上下徘徊幾次後,從1990年開始就義無反顧往上竄,勢頭很猛,直到2010年穩定在第二。

我們還可以跟這個圖進行互動,如果很想看看法國和中國,我們就可以選中它們,重點看它們的變化和相互關係,可以看到中國在哪一年超越了法國。

這就是可視化,把隱藏在數據中的規律化作直觀的圖像,讓數據開口講故事。這裡用到的是最簡單的可視化元素——柱狀圖。

數據的表現形式——統計圖

說到柱狀圖,我們不得不提一個重要的人物——威廉·普萊費爾,他是蘇格蘭一位非常有名的政治經濟學家,兩百多年前他就意識到一個現象:那些身居高位、業務繁忙的商人只需要關注一些統計結果,根本不需要大費周折去研究具體細節。

於是他設計出世界上第一個柱狀圖。世界上第一台計算機是1946年才問世,所以這個柱狀圖是純手工繪製。

上圖展示了蘇格蘭與其它各國的進出口貿易額。17年後,他又再接再厲,創造了世界第一個餅圖,曲線圖。

這個餅圖展示了土耳其帝國當時在非洲、歐洲、亞洲所佔領的土地面積。

這個曲線圖展示的是英國與北美的進出口貿易差。雖然這些是200年前繪製的圖表,但這些表現形式我們到現在還經常使用,可見這位普萊費爾的偉大。

這張圖很像盛開的玫瑰,它有一個美麗的名字——玫瑰圖。

故事發生在1855年,克裡米亞戰爭期間,英軍傷亡慘重,當時一個叫南丁格爾的戰地風雲護士,她通過搜集數據,發現很大部分死亡原因其實並非是“戰死沙場”,而是因為在戰場外感染了疾病,或是在戰場上受傷,卻沒有得到適當的護理。於是她設計了這個玫瑰圖。

把圓分成12分,代表十二個月。藍色面積表示死於感染計程車兵,紅色表示死於戰場的重傷,灰色表示其它原因。很明顯,藍色區域的面積明顯遠大於其他區域,這張圖一目了然地揭示了戰士死亡的真正原因。

南丁格爾把這份結果呈現給軍隊和伊麗莎白女王,促成了世界第一座戰地風雲醫院的建立。也正因為有了戰地風雲醫院及時的醫治與護理,死亡率從42%減低到2.2%,可以說這張圖挽救了很多戰士的生命,這也足以證明可視化對信息傳遞的重要性。

無論是柱狀圖餅圖還是曲線圖玫瑰圖,從本質上來說,都是統計結果的可視化。統計對分析當然很重要,但是光有統計是不夠的。

圖中有四組數據,每組數據都不一樣。當我們用通常的統計方法來看這個數據的時候發現,它x軸的均值y軸均值,方差、相關性系統值都完全一樣,看不出任何差別,很多特徵信息都丟失了。看來統計方法是不行了,那我們用更高級的可視化方法試一下。

我們把這些數據畫出來,就能一眼發現它們的不同,有九個點狀的、有X形的、有五角星形狀的,特別是第四組是一只可愛的恐龍。

很有意思,可視化通過圖像迅速吸收、消化數據並把特徵信息形象的傳遞給我們。可是當數據越來越大,故事越來越複雜,怎麽畫數據就是一個難題了。

如果我們像剛才畫恐龍那樣把數據直接畫出來,問題又來了,什麽也看不見,所以我們需要研究新的可視化算法。“體繪製技術”可以幫我們穿透這團迷霧。通過這種方法可以清晰地看到它是一隻手,還可以透過皮膚,看到血管與骨骼。

可視化的實際應用

這是一個天文學家給我們的140億年宇宙演化的模擬數據,大概有90TB的數據量,我們翻一年也翻不完。

這麽大的數據,這麽複雜的故事,需要用到超級計算機和各種複雜的可視化算法,才能把它裡面隱藏的特徵信息形象的表達出來。天文學家只能把它們畫成簡單能量譜的曲線。

當我們把它可視化出來的時候,跟我們合作的天文學家震驚了,這是他們第一次可以直觀地看到自己模擬的整個宇宙及其動態演化。

上圖是這個數據的可視化結果,就是我們現在宇宙的樣子。這些星系經歷了140億年的穿行,形成現在的各種星系團結構,這些星團之間有一些絲狀結構的連接在一起,也許左下角飛過的小亮點就是我們的地球。

這個是最大的星系團,是我們銀河系的一萬倍,我們可以清晰地看到它的內部層次,它通過140億年不斷吞噬合並其它星系而形成了現在這樣一個龐大的天體結構。

天文學家還想看看這些大星系團是怎麽一步一步演化而來的。於是我們可以挑出天文學家感興趣的局部的區域。

可以看到,一開始粒子均勻分布,後來在引力的作用下,逐漸成各種不同的小團,大團直接吞噬小團,兩個相當的大團相互碰撞,合並最終形成一個超大的星系團。

天文學家還需要進一步分析其中的一個小的星系團,想看看它們在這場大的演化運動中,怎麽由小小的幾個星系團合並。

我們可以看到,剛開始,慢慢形成幾個小團,然後合並,之後幾度險些被衝散,最終有驚無險頑強地合並在一起。

有了可視化,天文學家不費吹灰之力,就有了一台指哪打哪的望遠鏡,而且還可以穿越歷史。當然要實現這些,我們突破了一系列關鍵技術,從數據組織與壓縮、並行與GPU加速繪製、色調映射、所見即所得的時序分析及特徵結構挖掘等一系列算法來做支撐。

黑洞也是天文學家特別關心的問題。我們都知道黑洞無限制吞噬吸收周圍的物質,實際上在這個過程中也會產生高速的噴流。

2013年歐洲XMM牛頓太空望遠鏡發現了黑洞會噴射重金屬流的現象。這些現象的背後的具體機制是個不解之謎,也是天文界的重大科學問題。

如果想要研究這個問題,首先需要用計算機來模擬這個現象。中科院上海天文台的科學家們想要進一步研究它的機理。但是模擬的結果對不對,模型算法合不合理,沒有標準去驗證。

同時,對於粒子是怎麽進入黑洞,他們內部也有不同的看法。所以他們找到我們,問我們有沒有什麽辦法讓他們直觀看看數據,來驗證他們的方法。

我們為他們定製了這樣一個可視化的工具,幫助他們直觀地分析數據,看看物質是怎麽進入黑洞,以什麽樣的軌跡進入黑洞,有沒有物質噴射出來,如何噴射出來。

採用軌跡線的方法,手動在他們感興趣的區域撒點,就像我們在河裡撒一些泡沫以觀察河流的緩急。我們可以清楚到看到粒子是怎麽運動的,在哪兒開始被吞噬,正如科學家期待的那樣,這裡確實有物質噴出。

我們都知道洋流對海洋航運,氣候、地理環境都有很重要的影響。可是面對茫茫的大海,觀測資料很少,科學家迫切需要清楚地看到整個海洋的洋流情況。直到有了衛星,有了超級計算機之後,我們才得到了更準確高精度的模擬數據。

將這些數據可視化可以讓科學家直觀地看到上圖的畫面,這對科學家來說是非常關鍵的,因為他們能清楚地看到洋流的速度、方向、溫度變化情況。比如說圖中這些渦和流,它們的相互作用但對科學家來說意義重大。通過可視化我們甚至還可以觀測海洋汙染,比如石油泄漏,潛水艇可以更加安全地航行。

我們經常遇到霧霾天,可能你們沒有從這個角度來看過霧霾。這是中國局部地形圖,紅色代表北京,黃色代表武漢,中間就是霧霾,不同的顏色代表不同濃度,底層像河流一樣的代表大氣的風場。

通過這樣的可視化,科學家從這裡可以看到霧霾是怎麽在風場和地理環境的影響下,從北京傳輸到武漢的。這對他們理解霧霾的傳輸過程很重要,可以更好地揭示不同地區間霧霾發生的相互關係。

粒子加速模擬圖

我們不僅幫助大氣學家來尋找霧霾來源,也在輔助物理學家去尋找清潔能源。核能就是一種清潔能源,但是核廢料卻對環境有汙染,處理核廢料,國際上最有效的方法,就是利用ADS嬗變系統。它可以用核廢料發電,還能解決核異塵餘生問題。

中科院近代物理所牽頭研究這一技術,以上是他們委託我們做的嬗變系統的可視化。

這些粒子正在直接加速器上衝刺,下方條狀圖顯示,一開始,粒子團變化巨大,在加速過程中慢慢趨向穩定。管道中,紅色和藍色的椎體是不同的磁極,這些磁極的強度與分布,還有粒子的初始速度,都是可以調節的。

科學家可以直觀地看到這些數值調節以後的效果。目前,該研究工作已成功結題,正轉化為國家大科學裝置,準備開工建設。

最後說說大家都熟悉的高鐵。

其實,高鐵投入生產之前,科學家需要做很多工作。比如,為了以最少能量獲取最高的速度,我們需要讓尾部的渦旋盡可能地小,這樣行駛過程中的阻力更小。

我們要從高鐵尾部產生的海量流線裡,幫助科學家找到最感興趣的尾部渦旋,也就是大家看到視頻當中運動的曲線。在這個過程中,科學家通過可視化,可以看到不同參數情況下渦旋的大小變化,就可以輔助高鐵的設計優化。

未來的可視化會是什麽樣子呢?可視化也許會脫離螢幕的限制,真正走到我們面前,或許你一個動作,一個眼神,就可以進行可視化的互動,就跟現在科幻電影裡的場景一樣,我相信,這一天很快就會到來。

版權說明:未經授權嚴禁任何形式的媒體轉載和摘編,並且嚴禁轉載至微信以外的平台!

更多文章

星空茶話會 HELLO火星萬花筒

又現“死海”?南太平洋發現巨大“荒漠”,罕見生命存在

超越光速的存在,你不得不看

暗物質在大爆炸後比重下降 數量比遠古宇宙少5%