2020年大數據課程大綱

目前課程版本:8.0   升級時間:2020.06.01   查看詳細

大數據課程設計理念

  •  

    完全面向零基礎的大數據課程

    我們的課程幫助了近500名零基礎的學員高薪就業,近2000名學生正在努力蛻變中。0基礎也能高薪就業的大數據課程。

  •  

    更新潮緊隨技術發展浪潮

    全面升級Spark核心就業項目,新增第四代大數據處理框架Flink,強化推薦系統實戰并擴充至7天。

  •  

    更真實深度還原企業應用場景

    所有項目均是來自企業實戰項目,報表分析、日志分析、推薦系統/廣告系統、反欺詐系統、為就業提供強力保障。

  •  

    更全面典型技術點線面橫向擴展

    課程全面覆蓋大數據技術,數據收集、存儲、計算、挖掘、展現,離線分析/實時分析/內存計算一網打盡。

  •  

    更廣泛就業領域

    大數據時代已然到來,在數據已經在一線企業、中小型企業、傳統企業、互聯網企業全面落地。就業不再局限于互聯網行業。

大數據基礎班-課程大綱

學習對象

0基礎0經驗的小白人員;想通過更低的成本來試一下自己是否適合做大數據相關工作的轉型人員。

注:獲取更多免費學習視頻+資料+筆記,請加QQ:2632311208。

上課方式

全日制脫產,每周5天上課, 上兩天課休息一天的上課方式(實際培訓時間可能因法定節假日等因素發生變化)

培訓時間

部分校區可能會根據實際情況有所調整,詳情可詢咨詢老師   點擊咨詢



大數據基礎班大綱
階段名稱主講內容技術要點學習目標
第一階段:
大數據基礎體驗班
Linux操作系統計算機基礎知識、Linux環境安裝、遠程連接工具、文件操作命令、壓縮解壓縮命令、文件查找命令、系統管理命令、權限管理、網絡服務管理命令等。掌握企業級ETL平臺的kettle;
掌握BI的可視化平臺Superset;
掌握kettle流式數據ETL處理設計思想;
掌握大數據企業開發中最常見的的linux的操作;
掌握一款主流數據庫管理工具DataGrip;
掌握企業MySQL的調優方案;
掌握大數據分析中數據全量及增量同步解決方案;
掌握生產環境中數據分析程序的部署解決方案。
MySQL數據庫數據庫環境搭建、SQL語言(DDL、DML、DQL)、SQL語句、多表查詢、索引等。
Kettle數據預處理數據倉庫與ETL、Kettle安裝部署、數據抽取與裝載入門、表輸入組件、表輸出、插入/更新、switch/case等組件使用,開發Kettle作業等。
Apache Superset電商業務背景、案例架構、數據倉庫數據增量同步、ETL開發、指標SQL開發、Kettle作業調度、Superset可視化展示等。
電商運營指標分析電商業務背景、案例架構、數據倉庫數據增量同步、ETL開發、指標SQL開發、Kettle作業調度、Superset可視化展示等。

大數據就業班-課程大綱

學習對象

本課程適合于計算機專業,有一定Java基礎、通過入學考核的未工作人士。

提示:測試題主要考察您是否具備Java基礎,以便我們統一入學基礎,更好地開展教學工作。如果您感覺測試題很難,我們建議您參加我們的Java基礎班學習。

上課方式

全日制脫產,每周5天上課, 上兩天課休息一天的上課方式(實際培訓時間可能因法定節假日等因素發生變化)

培訓時間

部分校區可能會根據實際情況有所調整,詳情可詢咨詢老師   點擊咨詢

大數據就業班課程大綱
階段名稱主講內容技術要點學習目標
第二階段:
Java語言編程
編程基礎Java概述、Java程序入門、常量與變量、數據類型、運算符、流程控制語句、方法、數組可掌握的核心:  
掌握Java程序基礎數據類型;
掌握開發中常用類如集合、IO流、常用類等操作;
掌握Java異常處理機制;
掌握反射、網絡編程、多線程開發;
掌握Jsoup的網絡爬蟲開發;
掌握JDBC操作;
掌握ETL數據處理和BI報表開發 。

可以解決的問題:
具備JavaSE開發能力。

市場價值:
可勝任初級爬蟲工程師崗位。
面向對象面向對象思想、類與對象、成員變量和局部變量、封裝、 this關鍵字、構造方法
常用類Object類、String、StringBuilder等
集合操作數據結構、List、Set、Map等
IO操作字節輸入流、序列化、字節輸出流、Apache Commons IO等
Java基礎增強反射、網絡編程、多線程、注解等
爬蟲案例Jsoup、MySQL高級、JDBC、ETL、BI
第三階段:
Hadoop技術棧
Linux操作系統高級Linux shell編程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高級命令使用可掌握的核心:
掌握shell編程;
掌握ZooKeeper原理并應用;
掌握HDFS的使用和MapReduce編程;
理解MapReduce原理和調優;
掌握Yarn的原理和調優;
掌握Hive的使用和調優。

可以解決的問題:
具備Hadoop開發能力、離線數據倉庫開發能力。

市場價值:
可勝任初級Hadoop工程師崗位。
大數據基礎和硬件介紹大數據的特點、分布式存儲概念、分布式計算的概念、服務器種類介紹、機架、交換機、網絡拓撲、Raid、IDC數據中心
ZookeeperZookeeper的應用場景、架構和原理、存儲模型、選舉機制、客戶端操作
HDFSHDFS設計的特點、Master-Slave架構、Block塊存儲、RF拷貝因子、機架感知、Block拷貝策略、讀寫流程、HDFS Federation、HDFS Snapshots、NameNode HA架構和原理、HDFS管理員常用操作、HDFS權限控制
MapReduceMapReduce架構和原理、Split機制、MapReduce并行度、Combiner機制、Partition機制、自定義Partition、MapReduce序列化、自定義排序、數據壓縮
YARNYarn原理和架構、Yarn高可用、Container資源的封裝(CPU、內存和IO)、資源調度策略(FIFO、Fair和Capacity)
HiveHive原理和架構、HQL操作、數據類型、分區、分桶、臨時表、Meta Store服務、HiveServer內置函數、自定義UDF和UDAF、數據壓縮、存儲格式、自動化腳本、常見性能優化、explain執行計劃詳解
第四階段:
項目一(在線教育)
1、還原大型在線教育的大數據平臺。
2、建立企業數據倉庫,統一企業數據中心,把分散的業務數據集中存儲和處理。
3、項目從需求調研、設計、版本控制、研發、測試到落地上線,涵蓋了項目的完整工序。
4、挖掘分析海量用戶行為數據,定制多維數據集合,形成數據集市,供各個場景主題使用。
基于CM自動部署和配置、 數據倉庫建模、離線數倉架構分層、 使用Git版本控制和CodeReview、使用Oozie進行作業調度、Hive2的使用和調優、 Sqoop進行Mysql和Hive的雙向海量數據同步、使用拉鏈表完成增量數據的統計分析、使用FineReport完成數據可視化可掌握的核心:
掌握從需求、設計、研發、測試到落地上線的完整項目流程;
掌握大量教育行業的真實業務邏輯,涉及20多個主題,100多個指標;
掌握海量數據如何調優、使用拉鏈表、增量數據處理,以及Hive函數的具體應用等;
掌握基于CM的大數據環境部署和管理;
掌握數據倉庫的核心概念和應用;
掌握常用離線大數據技術:Oozie、Sqoop、Hive等;
掌握FineReport可視化。

可以解決的問題:
具備企業級離線數據倉庫開發能力,深入教育行業需求,提升學員在行業的核心競爭力。

市場價值:
可勝任Hadoop工程師、離線數據倉庫工程師、ETL開發工程師、FineReport BI開發工程師等崗位。
第五階段:
后端數據微服務接口開發
SpringSpring Boot整合Spring MVC、 使用Spring Boot整合MyBatis開發、搭建Eureka注冊中心、Feign、使用Spring Cloud Gateway搭建微服務網關可掌握的核心:
掌握SpringBoot整合SpringMVC開發;
掌握SpringBoot整合MyBatis開發;
掌握Eureka搭建;
掌握Feign的使用。

可以解決的問題:
具備后端數據微服務接口開發,可勝任通過Spring技術架構完成微服務搭建??赏瓿善髽I級數據微服務接口開發。

市場價值:
可勝任后端開發工程師崗位。
Spring Boot
Spring Cloud
Spring Cloud搜索案例
第六階段:
NoSQL存儲
Redis存儲Redis原理及架構、Redis Cluster原理及架構、Redis常用操作、HBase原理及架構、預分區、LSM結構、Bloom Filter、co-processor、結合Phoneix進行優化查詢、ElasticSearch開發、Logstash數據采集、Kibana數據可視化可掌握的核心:
掌握Redis原理及架構;
掌握Redis命令操作、數據結構;
掌握Hbase原理及架構;
掌握HBase命令操作、MapReduce編程;
掌握Phoneix二級索引優化查詢。
掌握ELK開發。

可以解決的問題:
具備使用Hbase和Redis開發調優能力、ELK海量數據處理能力。

市場價值:
可勝任ELK開發工程師、Hadoop開發工程師等崗位。
HBase存儲
ELK
第七階段:
Flink技術棧
KafkaKafka原理及架構分析、分布式實時計算架構和思想、Flink DataStream的使用、Flink SQL開發、Flink 性能監控、Flink調優、Flink SQL執行計劃、Hive + Flink SQL、Kafka + Flink、WaterMark、CheckPoint、任務調度與負載均衡、狀態管理、Flume+Kafka+Flink+Hbase+Sqoop+Canel+MySQL案例實戰可掌握的核心能力:
掌握Kafka原理及架構;
掌握KafkaStreams開發;
掌握基于Flink進行實時和離線數據處理、分析;
掌握基于Flink的多流并行處理技術;
掌握千萬級高速實時采集技術。

可解決的現實問題:
具備Kafka消息隊列開發和調優能力、Flink流式和批量數據開發能力。

市場價值:
可勝任初級實時計算開發工程師、初級Flink開發工程師等崗位。
Flink流式計算
Flink批處理
Flink Core
Flink SQL
Flink綜合案例
第八階段:
項目二(證券、物聯網任選其一)
1、實時監控證券市場的每日業務交易,實現對證券市場交易數據的統計分析;
2、搭建監察預警體系,包括:預警規則管理,實時預警,歷史預警,監察歷史數據分析等;
3、股市行情交易數據實時采集、實時數據分析、多維分析,即席查詢,實時大屏監控展示。
項目采用流處理計算引擎Flink,實時處理100萬筆/s的交易數據
基于企業主流的流處理技術框架:Flume、Kafka、Flink、Hbase等
基于Hive和Kylin的批數據處理,可進行海量多維分析
Hbase5日內秒級行情億級規模,MySQL5日內分時行情千萬級規模
T-5日內實時行情毫秒響應,T-5日外的歷史行情秒級響應
數據存儲以HDFS、Hive、Hbase應對PB級規模數據
項目涵蓋主流離線數倉的技術和OLAP分析引擎
OLAP分析引擎以Kylin和Druid實現離線和實時的指標分析
隊列服務以低延遲、高吞吐-百萬筆/秒的Kafka保障數據接收
緩存服務基于Redis的高速緩存,實現數據快速交換
TB級別的實時日處理數據、存儲PB級歷史數據
主備雙大數據平臺保障
可掌握的核心能力:
掌握基于FTP、Flume + Kafka的實時數據采集開發;
掌握TB級海量規模下Flink實時處理開發,保證實時計算高容錯;
掌握三種不同時間維指標的存儲、計算方案(Druid、MySQL、HBase),例如:毫秒級\秒級\分時等時間維;
掌握基于Kylin的即席快速OLAP開發;
掌握基于Flink CEP的實時預警監控開發;
掌握基于Spring Boot的數據服務接口開發。

可解決的現實問題:
具備TB級規模下毫秒級Flink實時計算程序開發、架設能力,并具備不同應用場景下多種存儲引擎的技術引擎優化能力。以及項目上線部署、運維監控能力。

市場價值:
可勝任實時計算開發工程師、Flink開發工程師、實時數倉開發工程師等崗位。
第九階段:
Spark技術棧
Scala語言 Scala基礎、變量聲明、數據類型、條件表達式、塊表達式、循環、方法和函數、數組、元組、集合、Iterator、構造器、伴生對象、Akka編程可掌握的核心:
掌握Scala語言基礎、數據結構;
掌握Scala語言高階語法特性;
掌握Spark的RDD、DAG、CheckPoint等設計思想;
掌握SparkSQL結構化數據處理,Spark On Hive整合;
掌握Spark Streaming整合Kafka完成實時數據處理;
掌握Spark Streaming偏移量管理及Checkpoint;
掌握Structured Streaming整合多數據源完成實時數據處理。

可以解決的問題:
具備Spark全棧開發能力,滿足大數據行業多場景統一技術棧的數據開發,提供就業核心競爭力。

市場價值:
可勝任初級Spark開發工程師、初級大數據平臺開發工程師、初級大數據開發工程師等崗位
Spark core Spark架構和原理(運行機制、Driver和Executor、spark任務提交流程)、RDD開發和原理(Partition、Task、RDD的依賴關系、RDD的容錯機制、RDD的存儲級別、RDD的緩存機制)、廣播變量  、DAG原理(DAG思想、DAG的生成、DAG的處理過程)、
Spark sqlSpark SQL架構和原理、DataFrame、DataSet DSL和SQL開發、Spark多數據源整合(txt、CSV、Json、parquet、JDBC、Hive)、Spark SQL執行計劃原理、Spark SQL性能調優
Spark StreamingSpark Streaming流式開發、DStream API、整合多數據源、偏移量管理
Structured StreamingStructured Streaming開發(input、output、window、watermark、過期數據操作、去重等)、Structured Streaming多數據源整合(socket、Kafka)、
Flume+kafka+Structured Streaming案例實戰
第十階段:
項目三(物流、電信任選其一)
1、基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬;
2、圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等;
3、提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案。
涵蓋離線業務和實時業務、ClickHouse實時存儲和計算引擎、 Kudu + Impala準實時分析系統、基于Docker搭建異構數據源、以企業主流的Spark生態圈為核心技術(Spark、Spark SQL、Structured Streaming)、ELK全文檢索、Spring Cloud數據微服務開發、實時監控地圖開發、存儲和計算性能調優、還原企業搭建大數據平臺的完整過程可掌握的核心能力:
掌握Docker環境部署、管理操作;
掌握基于Oracle + MySQL異構數據源數據處理技術;
掌握基于Oracle Golden Gate以及Canal的實時采集技術;
掌握Kudu + Spark的快速離線數據處理、分析技術;
掌握Kudu + Impala即席數據分析技術;
掌握基于ClickHouse高性能存儲、計算引擎技術;
掌握基于ELK的全文檢索技術;
掌握Kudu、Spark的調優能力;
掌握基于Spring Cloud的數據微服務接口開發技術。

可解決的現實問題:
具備基于Docker搭建不同數據源、實時采集開發能力,并具備構建高性能數據存儲處理大數據平臺開發能力。

市場價值:
可勝任中級Spark開發工程師、中級大數據平臺開發工程師、中級大數據開發工程師等崗位。
第十一階段 :
項目四(電商、票務任選其一)
1、分析來自全品類B2B2C電商系統,以電商核心流程為主線進行數據分析,支撐運營;
2、建立基于用戶的全面分析體系,從多個維度建立基于用戶的運營體系;
3、實時分析用戶訪問流量、訂單、店鋪等運營指標。
涵蓋Kettle同步MySQL數據采集方案、JS埋點 + Flume實時用戶點擊行為數據采集方案
、Spark on hive數據倉庫解決方案、Apache Superset可視化方案、Kylin交互式快速數據分析方案、Canal MySQL業務數據實時采集方案、Flink實時ETL處理解決方案、Flink + Druid實時數倉解決方案、HBase + Phoenix明細數據實時查詢方案、Flink CEP實時風控方案、Azkaban作業調度調度方案
可掌握的核心能力:
掌握Spark + Hive構建離線數倉;
掌握Kafka + Flink + Druid構建實時數倉;
掌握基于Kettle的數據ETL處理技術;
掌握離線數倉和實時數倉分層架構;
掌握基于Parquet + Snappy的存儲、壓縮技術;
掌握Spark處理數據傾斜問題;
掌握基于Redis + Flink實時ETL處理技術;
掌握基于Spark引擎的Kylin Cube構建技術;
掌握Kylin的碎片管理、Cube調優、增量構建等技術;
掌握基于Flume、Canal的實時采集技術;
掌握基于Proto Buf的高效序列化技術;
掌握基于HBase + Phoenix的快速數據查詢技術;
掌握基于Flink CEP的實時風控處理技術;
掌握基于Superset的BI開發技術。

可解決的現實問題:
具備主流Spark + Hive離線數倉開發技術,并具備海量數據處理性能調優能力,具備實時數倉架構能力,構建毫秒級的實時計算平臺。

市場價值:
可勝任高級離線數倉開發工程師、高級實時數倉開發工程師、高級大數據開發工程等崗位。

備注:該課程大綱僅供參考,實際課程內容可能在授課過程中發生更新或變化,具體授課內容最終以各班級課表為準。


大數據中級進修課-課程大綱

學習對象

本課程適合于計算機專業,有一定Java基礎、通過入學考核的未工作人士。

提示:測試題主要考察您是否具備Java基礎,以便我們統一入學基礎,更好地開展教學工作。如果您感覺測試題很難,我們建議您參加我們的Java基礎班學習。

上課方式

在線學習

培訓時間

隨到隨學 ,詳情可詢咨詢老師   點擊咨詢

大數據中級進修課-課程大綱
階段名稱主講內容技術要點學習目標
第一階段:
大數據數據運維
大數據場景運維工具實戰Grafana 監控、配置Grafana的zabbix數據源、內存buffer/cache/父子進程/swap/io隊列等
Docker容器+監控、Kafka監控、基于Linux系統的常用服務的安裝配置,快速部署、基于Apache Ambari的Hadoop集群的供應、管理和監控、Cloudera Manager部署、AWS的EMR部署、Shell編程及Python語言加強、掌握高級系統設置(SELinux、防火墻、DNS等)、性能調優加強
可掌握的核心能力:
掌握大數據組件的常用運維方法解決實際的運維方案;
掌握大數據框架必備的數據結構及常用的數據結構;
掌握企業級大數據架構原理及源碼深入剖析;
掌握PySpark、PyFlink等Python大數據生態技術;
掌握大數據數據挖掘常見的算法及應用場景;
掌握數據中臺構建思路及實戰;
掌握數據科學常見的問題方法;
掌握大型互聯網公司常見面試題。

可解決的現實問題:
具備大數據平臺運維能力;
具備企業數據中臺構建能力;
具備大數據數據挖掘、機器學習模型開發、調優能力;
具備Apache頂級項目二次開發能力、源碼級調優開發能力;
具備大型企業大數據平臺架構能力。

市場價值:
直通BAT等大廠。
第二階段:
大數據數據結構
大數據框架數據結構及面試必備數據結構線性表、鏈表、堆棧、隊列、樹、二叉樹及森林、圖數據結構、排序和查找算法、大數據組件的應用序列化與遠程過程調用框架、消息隊列、應用層多播通信及Gossip 協議 Chubby 鎖服務、大數據組件的應用、資源異質性與工作負載異質性、搶占式調度與非搶占式調度、資源管理與調度系統范型、資源調度策略(調度器算法)、大數據組件的應用、哈希分片(Hash Partition)、虛擬桶(Virtual Buckets)、一致性哈希(Consistent Hashing)
范圍分片(Range Partition)、布隆過濾器(Bloom Filter)、SkipList數據結構LSM 樹、LZSS 算法、Cuckoo哈希、大數據組件的應用
第三階段:
大數據組件源碼深度解析
大數據核心采集、存儲、計算組件源碼解析MapReduce核心源碼解析、Hive核心源碼解析、Spark核心源碼解析、Flink技術核心源碼解析、Flink技術監控及調優、Yarn源碼及性能調優、Hbase核心源碼、HDFS核心源碼解析、Kafka底層源碼解析、Druid技術監控及調優、、Flume核心源碼解析、cannel核心源碼解析
第四階段:
大數據數據中臺
大數據數據中臺大數據計算服務、大數據開發套件、數據主題域倉庫、數據治理套件、數據服務引擎、數據可視化、元數據管理、數據API、主數據管理、全域數據源入口、數據應用場景、多行業業務剖析
第五階段:
大數據數據挖掘
企業級大數據數據挖掘解決方案機器學習基礎、SparkMl&SparkMllib基礎實戰、Python核心基礎、Python數據科學庫基礎(Numpy、Pandas、Matplotlib、Seaborn、Imblearn-Learn、Scikit-Learn)、Python數據挖掘案例、PyHdfs、PyHive、PyHbase、Kafka-Python、PySpark、PyFLink案例實戰
第六階段:
數據科學
數據科學分析原理及實戰描述性統計、概率、離散型隨機變量分布,連續型隨機變量法分布、二元概率分布及抽樣分布、假設檢驗、統計過程和質量控制、數據分析六步曲、數據分析方法論(包括杜邦分析法、漏斗圖分析法、矩陣關聯分析法等 )、數據圖表業務數據可視化及圖表分析
基于實際業務場景案例結合數據分析與統計學完成數據科學案例全棧數據分析
第七階段:
大廠面試題
互聯網公司常見面試題及應用場景剖析BAT大數據常見的面試題、互聯網大數據平臺多場景剖析、Hadoop面試題精講、Spark面試題精講、Flink面試題精講、數據結構面試題精講、數據科學面試題精講
第八階段:
多行業項目
工業、新零售、 政務等本項目基于國內大型的設備制造商大數據項目開發。該企業在全球范圍內銷售設備,設備涵蓋加油站相關,例如:加油機、油罐建設、加氣機、自助設備等設備生產制造、設計、銷售,并提供全球性的服務。在國內重點客戶為:中國石油、中國石化、以及各個地域的大型企業。在國內,業務覆蓋的油站約8W座,設備數量50W臺。拿加油機設備來說,一臺設備包含了眾多的配件,每個配件的維護,設備信息的上報,服務工作人員的調度、GPS跟蹤定位等,企業經過多年的經營,積累了海量的數據。集團公司為了能夠確保企業精細化運營,決定進行數字化轉型,依托于大數據技術,以客戶、生產、服務、運營為核心,打造一個全方位的數字化平臺

備注:該課程大綱僅供參考,實際課程內容可能在授課過程中發生更新或變化,具體授課內容最終以各班級課表為準。


基礎差? 可免費學基礎班

申請試讀名額

基礎過關? 可直接就讀就業班

基礎測試

大數據學科項目介紹

  • 企業級360°全方位用戶畫像

    項目簡介:

    1、標簽是表達人的基本屬性、行為傾向、興趣偏好等某一個維度的數據標識,它是一種相關性很強的關鍵字,可以簡潔的描述和分類人群。
    2、標簽的定義來源于業務目標,基于不同的行業,不同的應用場景,同樣的標簽名稱可能代表了不同的含義,也決定了不同的模型設計和數據處理方式。
    3、標簽標簽是構建用戶畫像的基礎,會產生兩類用戶畫像,即個人用戶畫像和群體畫像。個人畫像,也叫360度用戶視圖,用于用戶精準互動和一對一服務,銷售和運營等操作實務指導為主。群體畫像是群體行為分析,群體行為洞察有利于做趨勢分析、產品規劃、營銷決策等層面的工作。

    項目特色:

    1、大型電商真實的用戶畫像項目,真實的業務場景;
    2、自義定SparkSQL DataSource插件;
    3、插件化集成Spark的ML/Mllib建模;
    4、自定義Oozie定時工作流自動構建;
    5、用戶標簽的自動化生成;
    6、支持對人對物的秒級畫像生成;
    7、各種企業級組合標簽設計的思想和方案(如:高富帥、羊毛黨等組合標簽實戰);
    8、RFM(客戶價值模型)模型的應用實戰。

  • 千億級實時數據倉庫

    技術要點:

    1、使用Canal采集關系型數據庫結構化的交易數據;
    2、使用Flume采集非結構化的用戶行為數據到Kafka;
    3、使用Kafka存儲埋點系統產生的實時的用戶行為數據;
    4、使用Hive、HBase存儲大規模數據;
    5、基于ODS-DWB-DWS-DM-ADS的數倉分層;
    6、使用Oozie調度Spark定時工作流處理和計算分層數據;
    7、使用Kylin預計算DM層的數據立方體滿足多維查詢;
    8、使用Zeppelin+Impala實現靈活的數據開發功能;
    9、使用Superset實現EDW的可視化;
    10、使用Flink計算實時訪客相關指標;
    11、使用Druid實時聚合訂單和銷售等相關指標;
    12、使用ECharts實現實時Dashboard的可視化

    項目特色:

    1、企業級離線和流式數倉建設的方案和思想;
    2、企業級數據倉庫建設的難點攻克;
    3、數倉模型的設計分層設計思想、指標/維度設計思想和模塊設計思想;
    4、阿里巴巴數倉分層架構(ODS-DWS-DWB-DM-ADS)實戰;
    5、實時指標計算方面,利用Flink的低延遲,狀態管理等特性進行實時指標的開發,提高指標的計算效率真正做到指標的實時統計;
    6、利用druid時序分析數據庫進行數據的存儲以及指標的統計;
    7、離線部分除了使用傳統數倉技術如hive外,我們加入kylin,hbase等框架,實現了數據查詢的低延遲,可以利用即席查詢對離線數據進行快速高效的查詢分析;
    8、企業級真實的數據倉庫建設全部的核心流程和技術。

  • 黑馬電商推薦系統

    項目簡介:

    黑馬電商平臺個性化推薦系統通過采集用戶購買、加購、瀏覽、收藏、點擊等用戶動態行為數據,結合用戶靜態屬性(基于人口統計學信息)數據。通過混合推薦系統平臺推薦給用戶最可能購買的商品。項目依托于Hadoop大數據平臺,完成了用戶行為數據采集、用戶數據分析、實時查詢、實時展現以及通過構建推薦引擎實現離線和實時推薦,將結果通過Hbase或Redis存儲推薦結果,通過線下構建用戶興趣模型、線上ABTest測試推薦結果的可行性。

    技術棧:

    1、數據采集:ngnix+lua+javascript;
    2、數據存儲:HDFS、HBASE、Redis、MongoDB、Mysql;
    3、數據處理:HiveSql、SparkSql、SparkStreaming;
    4、數據統計計算:Hive、SparkSql;
    5、數據建模:SparkML、SparkMLLib、SparkGraphX、TensorflowOnSpark;
    6、數據展示:Web(Vue.js)、Neo4j;
    7、任務調度:Azkaban;
    8、搜索服務:ElasticSearch。

    項目特色:

    1、使用Spark-ALS算法訓練模型和超參數調優,通過模型的predict方法預測推薦結果,通過Rmse比較推薦結果。
    2、通過Spark-FPGrowth算法訓練模型和超參數調優,獲取購買行為類型的樣本數據,從數據中形成關聯挖掘所需的數據,算法通過不同的置信度和支持度超參數設定,調整算法模型。
    3、項目構建基于Scala基礎的UserCF、ItemCF的基于記憶的推薦引擎,得到推薦結果相關表,即為初始推薦結果。
    4、項目應用SparkGraphX的SVD++算法模型實現基于圖計算的推薦方式,利用neo4j構建用戶和商品的關系圖示。
    5、項目擴展Tensorflow技術對CTR排序中的FM、FFM、DeepFM、Wide And Deep模型提取二階及高階特征完成排序。
    6、推薦結果從MongoDB和ElasticSearch中將離線推薦結果、實時推薦結果、內容推薦結果混合。

  • 電信信號強度診斷

    項目簡介:

    1、本項目基于謀公司開發的手機測速軟件采集的數據對用戶的手機網速、上行下行流量,網絡制式、信號強度等信息進行宏觀分析。
    2、本項目總體分為三大模塊,分別為數據導入模塊、數據處理模塊、報表生成模塊、地圖處理和渲染。
    1)數據導入模塊: 數據加載模塊主要用于在傳統關系型數據庫與大數據平臺之間進行數據傳輸,將mysql數據庫內的同步到大數據平臺中。實時新數據首先進入mysql中。除此之外,該平臺數據導入模塊還負責數據原始文件、本地wifi文件的自動導入功能。
    2)數據處理模塊: 數據處理模塊主要用于對已經加載到大數平臺的數據根據實際業務需求進行更深入的處理、分析、運算、加工。
    3)報表生成模塊: 報表生成模塊主要用于對已經被大數據平臺處理過的數據進行圖形化轉化、界面化的展示。以便于領導比較簡單的、直觀的了解經處理后的數據所傳遞的信息。
    4)地圖處理和渲染: 百度和高德地圖的LBS服務使用,地圖網格的切分思想,地圖熱力圖的顯示,街景的實現,大數據基于地圖的安防案例實現。

    項目特色:

    1、調用高德或者百度的API,實現區域熱點分析;
    2、地圖網格的切分思想和實現;
    3、大數據技術+多維地圖展現(包括地圖、衛星圖、三維圖);
    4、信號強度熱圖使用多方案展現,并與大數據及時方案完美融合;
    5、信號強度矩陣圖(矩陣計算),每個獨立的矩形都要獨立進行計算、一次查詢至少需要計算長*寬次(25*12),并在地圖上渲染,對于查詢的時效性要求極高;
    6、以某一用戶為中心,計算用戶八個方向的信號質量、系統、APP等并以街景圖形式展現。難點在于計算用戶八個方向的數據;
    7、大數據技術和地圖完美的整合。

教學服務

  • 每日測評

    每晚對學員當天知識的吸收程度、老師授課內容難易程度進行評分,老師會根據學員反饋進行分析,對學員吸收情況調整授課內容、課程節奏,最終讓每位學員都可以跟上班級學習的整體節奏。

  • 技術輔導

    為每個就業班都安排了一名優秀的技術指導老師,不管是白天還是晚自習時間,隨時解答學員問題,進一步鞏固和加強課上知識。

  • 學習系統

    為了能輔助學員掌握所學知識,黑馬程序員自主研發了6大學習系統,包括教學反饋系統、學習難易和吸收分析系統、學習測試系統、在線作業系統、學習任務手冊、學員綜合能力評定分析等。

  • 末位輔導

    末位輔導隊列的學員,將會得到重點關心。技術輔導老師會在學員休息時間,針對學員的疑惑進行知識點梳理、答疑、輔導。以確保知識點掌握上沒有一個學員掉隊,真正落實不拋棄,不放棄任何一個學員。

  • 生活關懷

    從學員學習中的心態調整,到生活中的困難協助,從課上班級氛圍塑造到課下多彩的班級活動,班主任360度暖心鼓勵相伴。

  • 就業輔導

    小到五險一金的解釋、面試禮儀的培訓;大到500強企業面試實訓及如何針對性地制定復習計劃,幫助學員拿到高薪Offer。

网球肘针灸 黑龙江11选五前三组 股票配资定义 112期心水一点必中特 江西11选五开奖走势图一定 华天科技股票股吧 同花顺开放接口api 时时彩最新开奖结果 彩金捕鱼送话费下载 最新波克安徽麻将安卓版 北京十一选五玩法