Databricks釋出Spark 2.0技術預覽版，聚焦資料處理效能與強化API

新聞

自Spark 1.0推出時隔兩年，Spark技術商Databricks日前釋出Spark 2.0技術預覽版，並在Databricks的雲端大資料平臺Databricks Community Edition提供使用者下載。Databricks共同創辦人Reynold Xin在官方部落格表示，Apache官方的Spark 2.0要在數周後才會釋出，而Databricks推出的技術預覽版是以上游程式庫（Codebase）為基礎，提供使用者可以搶先使用Spark 2.0的功能。

新版Spark仍維持它的傳統，聚焦於兩個領域，包含標準SQL支援，以及統一資料框架（DataFrame）和資料集（Dataset）API。Spark 2.0在SQL方面，採用ANSI SQL解析器（Parser），以及支援子查詢，來提升Spark的SQL能力，Databricks表示，因為SQL是Spark主要使用介面之一，新版Spark所擴展的SQL功能可以大幅降低舊有應用程式遷移至Spark平臺的工作。

在API方面，新版Spark除了統一Scala和Java語言的DataFrame與Dataset API外，也提供了新的入口點（Entry Point）SparkSession，而SparkSession包含了SQLContext和HiveContext，以降低DataFrame API使用者在選擇入口點時的困惑。

另外，Spark 2.0還更新了累加器API（Accumulator API），以及新增以資料框架為基礎的機器學習API（DataFrame-Based Machine Learning API），而新版Spark也允許使用者可以在跨Spark所支援的程式設計語言中，儲存和下載機器學習工作流程（Pipeline）和模型。此外，在R語言中，也新增支援廣義線性模型（Generalized Linear Model）、單純貝氏（Naive Bayes）、存活迴歸（Survival Regression）以及K-Means等分群演算法。

在效能方面，Spark 2.0採用了以現代編譯器（Compiler）和大規模平行處理（MPP）資料庫為基礎的第二代Tungsten引擎，以及加強SQL函數式關係查詢優化框架Catalyst，來提升Spark資料處理的效能。

另外，Spark 2.0也延伸了DataFrame與Dataset API，提供使用者結構化串流API（Structured Streaming API）來處理串流資料，其關鍵功能包含支援以事件和時間為基礎的資料處理、亂序資料（Out-Of-Order Data）、延遲資料（Delayed Data）、Sessionization、非串流資料來源等。

Databricks釋出Spark 2.0技術預覽版，聚焦資料處理效能與強化API

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本