Arrow晉升Apache頂級專案，靠記憶體能百倍加速大資料分析

新聞

Apache軟體基金會於2月17日宣布，Apache Arrow晉升成為一個新的頂級專案（Top-Level Project），提供跨系統資料層的欄位記憶體式分析（Columnar In-Memory Analytics），來增進大資料分析的效能和速度。ASF宣稱，Arrow可以提升百倍大資料分析的效能，以及可以排除跨系統間的溝通成本，能夠支援多系統運作。

Arrow是資料結構、演算法和跨程式語言的組合，提供不同種類的系統共享基礎，包含SQL執行引擎（如Drill和Impala）、資料分析系統（如Pandas和Spark）、串流和佇列系統（如Herron、Kafka和Storm），以及儲存系統（如Parquet、Kudu、Cassandra和HBase）。

另外，使用者現在可以用C、C++、Python和Java等程式語言來執行Arrow的程式碼，Apache Arrow和Drill專案副總裁Jacques Nadeau表示，在未來1至2個月內將增加支援R、JavaScript和Julia。

而Arrow除了支援傳統的關聯式資料庫之外，也支援動態Schema架構的資料，例如，Arrow可以處理物聯網、Log檔等常用的JSON格式資料。在效能方面，則特別設計Arrow最佳化快取的局部性（Cache Locality）、流量管道（Pipelining）和單一指令多重資料（Single Instruction Multiple Data，SIMD），來發揮CPU的效能。

ASF表示，在許多工作量（Workload）中，70％～80％的CPU循環都用在系統間序列化（Serialize）和解序列化（Deserialize）資料，而Arrow讓資料可以不必經過序列化、解序列化或記憶體複製，就能夠在系統和處理程序中共享，藉此提升CPU的使用效能。

此外，目前已經有13個主要大資料開源專案的開發者聯手打造Arrow專案，而這13個開源專案包含了Calcite、Cassandra、Drill、Hadoop、HBase、Impala、Kudu（培育期）、Parquet、Phoenix、Spark、Storm、Pandas和Ibis。Jacques Nadeau表示，ASF預期在未來幾年，世界上大多數的資料將會使用Arrow的技術來分析。

Arrow晉升Apache頂級專案，靠記憶體能百倍加速大資料分析

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本