website templates free download
spark

Spark
資料處理與開發實務

SQL 查詢、串流處理、文字處理以及機器學習等,以往這些工作可能需要使用不同的引擎或框架來處理,Spark簡化這些並成為大數據領域優秀的資料處理的最佳入門磚。

《 課程介紹 》
Spark是一個泛型運算引擎,讓使用者可以將多種類型的運算工作"組合"起來(如 SQL 查詢、串流處理、文字處理以及機器學習)以往這些工作可能各自需要使用不同的引擎或框架來處理。這些特點使得 Spark 成為大數據領域優秀的資料處理引擎,而其親和性與易使用性也是學習大數據領域極佳的入門磚。
《 教學內容 》
隨著平行資料處理分析變得越來越普遍,各領域的實踐人員開始尋找更容易使用的工具來處理資料分析工作。Apache Spark 已經快速的崛起,並成為了最流行分析工具之。Spark相較MapReduce運算框架 有以下三個優點:(1)容易使用─使用者可以在自己的筆記型電腦上進行開發,透過高階 API 讓使用者專注在實現問題的商務邏輯上。(2)Spark 以良好的執行效率實現了交互式使用情境及複雜的演算法,可以滿足即時或是批次任務的運算需求。(3)最特別地是Spark是一個泛型運算引擎,讓使用者可以將多種類型的運算工作"組合"起來(如 SQL 查詢、串流處理、文字處理以及機器學習)以往這些工作可能各自需要使用不同的引擎或框架來處理。這些特點使得 Spark 成為大數據領域優秀的資料處理引擎,而其親和性與易使用性也是學習大數據領域極佳的入門磚。
課程內容
Scala程式語言
Spark基礎RDD Operation
Spark Core RDD Operation
Spark-SQL概念與開發實務
打包Spark Application並遞交到叢集中執行
Kafka Streaming Service簡介
Kafka Producer開發實務
Spark Streaming & Kafka Integration 開發實務
※為維護課程品質及尊重智慧財產權,上課中請勿錄音錄影,亦不提供錄音或錄影補課。
《 師資說明 》
Joe
知名導航系統商 -資料工程團隊Team Leader
廣告系統商 - 資深資料工程師
知名系統整合服務商-大數據Team Leader
專長:
專長:Spark運算引擎、NoSQLs(HBase, Cassandra, Elasticsearch)、串流處理框架(Kafka)、Hadoop-eco System等分散式框架架構設計與應用開發。
分散式領域相關國際證照:
•Certified Developer on Apache Cassandra
•Cloudera Certified Specialist in Apache HBase (CCSHB)
•Cloudera Certified Developer for Apache Hadoop (CCDH)
•Cloudera Certified Administrator for Apache Hadoop (CCAH)
•Oracle Certified Professional Java Programmer (OCPJP)
《 適合對象 》
Data Engineer
Hadoop Application Developer
《 報名資格 》
1. 上此課程前建議至少研習過任一種物件導向程式(OOP)語言,若接觸過Java則可更快熟悉Scala。
2. 有基礎的HDFS以及MapReduce相關Hadoop元件概念佳。