顾美玲勾引管家|日韩黄色成人|国产精品theporn动漫|欧美日日日|国产精品探花在线

專業(yè)只做數(shù)據(jù)庫(kù)實(shí)訓(xùn)和認(rèn)證的品牌機(jī)構(gòu)

微信公眾號(hào)新浪微博
免費(fèi)咨詢電話:400-0909-964
當(dāng)前位置: 網(wǎng)站首頁(yè) > 行業(yè)資訊 > 解讀2015之大數(shù)據(jù)篇:大數(shù)據(jù)的黃金時(shí)代

解讀2015之大數(shù)據(jù)篇:大數(shù)據(jù)的黃金時(shí)代

文章來(lái)源: 更新時(shí)間:2016/6/17 15:00:02

在線老師點(diǎn)擊咨詢:

最新學(xué)訊:近期OCP認(rèn)證正在報(bào)名中,因考試人員較多請(qǐng)盡快報(bào)名獲取最近考試時(shí)間,報(bào)名費(fèi)用請(qǐng)聯(lián)系在線老師,甲骨文官方認(rèn)證,報(bào)名從速!

我要咨詢

2015年,整個(gè)IT技術(shù)領(lǐng)域發(fā)生了許多深刻而又復(fù)雜的變化,InfoQ策劃了“解讀2015”年終技術(shù)盤點(diǎn)系列文章,希望能夠給讀者清晰地梳理出技術(shù)領(lǐng)域在這一年的發(fā)展變化,回顧過(guò)去,繼續(xù)前行。

?

本文是大數(shù)據(jù)解讀篇,在這篇文章里我們將回顧2015展望2016,看看過(guò)去的一年里廣受關(guān)注的技術(shù)有哪些進(jìn)展,了解下數(shù)據(jù)科學(xué)家這個(gè)職業(yè)的火熱。 在關(guān)鍵技術(shù)進(jìn)展部分我們?cè)诖髷?shù)據(jù)生態(tài)圈眾多技術(shù)中選取了Hadoop、Spark、Elasticsearch和Apache Kylin四個(gè)點(diǎn),分別請(qǐng)了四位專家:Hulu的董西成、明略數(shù)據(jù)的梁堰波、 精碩科技 的盧億雷、eBay的韓卿,來(lái)為大家解讀2015里的進(jìn)展。

回顧2015

1,關(guān)鍵技術(shù)進(jìn)展:

Hadoop:

Hadoop作為大數(shù)據(jù)平臺(tái)中最基礎(chǔ)與重要的系統(tǒng),在2015年提高穩(wěn)定性的同時(shí),發(fā)布了多個(gè)重要功能與特性,這使得Hadoop朝著多類型存儲(chǔ)介質(zhì)和異構(gòu)集群的方向邁進(jìn)了一大步。

HDFS

HDFS 之前是一個(gè)以磁盤單存儲(chǔ)介質(zhì)為主的分布式文件系統(tǒng)。但隨著近幾年新存儲(chǔ)介質(zhì)的興起,支持多存儲(chǔ)介質(zhì)早就提上了日程。如今,HDFS 已經(jīng)對(duì)多存儲(chǔ)介質(zhì)有了良好的支持,包括 Disk、Memory 和 SSD 等,對(duì)異構(gòu)存儲(chǔ)介質(zhì)的支持,使得 HDFS 朝著異構(gòu)混合存儲(chǔ)方向發(fā)展。目前HDFS支持的存儲(chǔ)介質(zhì)如下:

ARCHIVE:高存儲(chǔ)密度但耗電較少的存儲(chǔ)介質(zhì),通常用來(lái)存儲(chǔ)冷數(shù)據(jù)。

DISK:磁盤介質(zhì),這是HDFS支持的存儲(chǔ)介質(zhì)。

SSD:固態(tài)硬盤,是一種新型存儲(chǔ)介質(zhì),目前被不少互聯(lián)網(wǎng)公司使用。

RAM_DISK :數(shù)據(jù)被寫入內(nèi)存中,同時(shí)會(huì)往該存儲(chǔ)介質(zhì)中再(異步)寫一份。

YARN

YARN作為一個(gè)分布式數(shù)據(jù)操作系統(tǒng),主要作用是資源管理和資源調(diào)度。在過(guò)去一年,YARN新增了包括基于標(biāo)簽的調(diào)度、對(duì)長(zhǎng)服務(wù)的支持、對(duì) Docker 的支持等多項(xiàng)重大功能。

基于標(biāo)簽的調(diào)度,使得 YARN 能夠更好地支持異構(gòu)集群調(diào)度。它的基本思想是,通過(guò)打標(biāo)簽的方式為不同的節(jié)點(diǎn)賦予不同的屬性,這樣,一個(gè)大的Hadoop集群按照節(jié)點(diǎn)類型被分成了若干個(gè)邏輯上相互獨(dú)立(可能交叉)的集群。這種集群跟物理上獨(dú)立的集群很不一樣,用戶可以很容易地通過(guò)動(dòng)態(tài)調(diào)整 label,實(shí)現(xiàn)不同類型節(jié)點(diǎn)數(shù)目的增減,這具有很好的靈活性。

對(duì)長(zhǎng)服務(wù)的支持,使得YARN逐漸變?yōu)橐粋(gè)通用資源管理和調(diào)度系統(tǒng)。目前,YARN既支持像類似 MapReduce,Spark 的短作業(yè),也支持類似 Web Service,MySQL 這樣的長(zhǎng)服務(wù)。 支持長(zhǎng)服務(wù)是非常難的一件事情,YARN 需要解決以下問(wèn)題:服務(wù)注冊(cè)、日志滾動(dòng)、ResourceManager HA、NodeManager HA(NM 重啟過(guò)程中,不影響 Container)和 ApplicationMaster 永不停止,重啟后接管之前的 Container。截止2.7.0版本,以上問(wèn)題都已經(jīng)得到了比較完整的解決。

對(duì)Docker的支持,使得YARN能夠?yàn)樯蠈討?yīng)用提供更好的打包、隔離和運(yùn)行方式。YARN通過(guò)引入一種新的ContainerExecutor,即DockerContainerExecutor,實(shí)現(xiàn)了對(duì)Docker的支持,但目前仍然是alpha版本,不建議在生產(chǎn)環(huán)境中使用。

HBase

在 2015 年,HBase 迎來(lái)了一個(gè)里程碑——HBase 1.0 release,這也代表著 HBase 走向了穩(wěn)定。 HBase新增特性包括:更加清晰的接口定義,多 Region 副本以支持高可用讀,F(xiàn)amily 粒度的 Flush以及RPC 讀寫隊(duì)列分離等。

spark:

2015年的Spark發(fā)展很快,JIRA數(shù)目和PR數(shù)目都突破了10000,contributors數(shù)目超過(guò)了1000,可以說(shuō)是目前最火的開源大數(shù)據(jù)項(xiàng)目。這一年Spark發(fā)布了多個(gè)版本,每個(gè)版本都有一些亮點(diǎn):

2014年12月,Spark 1.2發(fā)布引入ML pipeline作為機(jī)器學(xué)習(xí)的接口。

2015年3月,Spark 1.3發(fā)布引入了DataFrame作為Spark的一個(gè)核心組件。

2015年6月,Spark 1.4發(fā)布引入R語(yǔ)言作為Spark的接口。R語(yǔ)言接口在問(wèn)世一個(gè)多月之后的調(diào)查中就有18%的用戶使用。

2015年9月,Spark 1.5發(fā)布。Tungsten項(xiàng)目第一階段的產(chǎn)出合并入DataFrame的執(zhí)行后端,DataFrame的執(zhí)行效率得到大幅提升。

2016年1月,Spark 1.6發(fā)布引入Dataset接口。

Spark目前支持四種語(yǔ)言的接口,除了上面提到的R語(yǔ)言的使用率以外,Python的使用率也有很大提升,從2014年的38%提升到2015年的58%;而Scala接口的使用率有所下降,從84%下降到71%。同時(shí)Spark的部署環(huán)境也有所變化,51%的部署在公有云上,48% 使用standalone方式部署,而在YARN上的只有40%了。可見Spark已經(jīng)超越Hadoop,形成了自己的生態(tài)系統(tǒng)。而在形成Spark生態(tài)系統(tǒng)中起到關(guān)鍵作用的一個(gè)feature就是外部數(shù)據(jù)源支持,Spark可以接入各種數(shù)據(jù)源的數(shù)據(jù),然后把數(shù)據(jù)導(dǎo)入Spark中進(jìn)行計(jì)算、分析、挖掘和機(jī)器學(xué)習(xí),然后可以把結(jié)果在寫出到各種各樣的數(shù)據(jù)源。到目前為止Spark已經(jīng)支持非常多的外部數(shù)據(jù)源,像Parquet/JSON/CSV/JDBC/ORC/HBase/Cassandra/Mongodb等等。

上面這些調(diào)查數(shù)據(jù)來(lái)自美國(guó),中國(guó)的情況有所區(qū)別,但是還是有一定的借鑒意義的。國(guó)內(nèi)的Spark應(yīng)用也越來(lái)越多:騰訊的Spark規(guī)模到了8000+節(jié)點(diǎn),日處理數(shù)據(jù)1PB+。阿里巴巴運(yùn)行著目前最長(zhǎng)時(shí)間的Spark Job:1PB+數(shù)據(jù)規(guī)模的Spark Job長(zhǎng)達(dá)1周的時(shí)間。百度的硅谷研究院也在探索Spark+Tachyon的應(yīng)用場(chǎng)景。

Spark MLlib的ALS算法已經(jīng)在很多互聯(lián)網(wǎng)公司用于其推薦系統(tǒng)中。基本上主流的互聯(lián)網(wǎng)公司都已經(jīng)部署了Spark平臺(tái)并運(yùn)行了自己的業(yè)務(wù)。上面說(shuō)的更多的互聯(lián)網(wǎng)的應(yīng)用,實(shí)際上Spark的應(yīng)用場(chǎng)景有很多。在Databricks公司的調(diào)查中顯示主要應(yīng)用依次是:商務(wù)智能、數(shù)據(jù)倉(cāng)庫(kù)、推薦系統(tǒng)、日志處理、欺詐檢測(cè)等。

除了互聯(lián)網(wǎng)公司以外,傳統(tǒng)IT企業(yè)也把Spark作為其產(chǎn)品的一個(gè)重要組成。IBM在今年6月的Spark summit期間宣布重點(diǎn)支持Spark這個(gè)開源項(xiàng)目,同時(shí)還開源了自己的機(jī)器學(xué)習(xí)系統(tǒng)SystemML并推進(jìn)其與Spark的更好合作。美國(guó)大數(shù)據(jù)巨頭Cloudera,Hortonworks和MapR都表示Spark是其大數(shù)據(jù)整體解決方案的核心產(chǎn)品。可以預(yù)見Spark是未來(lái)若干年最火的大數(shù)據(jù)項(xiàng)目。

在深度學(xué)習(xí)方面2015年可謂非常熱鬧,如Google開源其第二代機(jī)器學(xué)習(xí)系統(tǒng)TensorFlow,F(xiàn)acebook開源Torch和人工智能硬件服務(wù)器Big Sur等等。Spark社區(qū)也不甘落后,在1.5版本中發(fā)布了一個(gè)神經(jīng)網(wǎng)絡(luò)分類器MultiplayerPerceptronClassifier作為其深度學(xué)習(xí)的雛形。雖然這個(gè)模型還有很多地方需要優(yōu)化,大家不妨嘗試下,畢竟它是唯一一個(gè)基于通用計(jì)算引擎的分布式深度學(xué)習(xí)系統(tǒng)。

除了現(xiàn)在非常火的深度學(xué)習(xí),在傳統(tǒng)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)領(lǐng)域,Spark這一年也有非常大的變化,包括GLM的全面支持,SparkR GLM的支持,A/B test,以及像WeightesLeastSquares這樣的底層優(yōu)化算法等。

具體內(nèi)容可以看梁堰波在InfoQ上的年終回顧:《 解讀2015之Spark篇:新生態(tài)系統(tǒng)的形成 》。

Elasticsearch:

Elasticsearch 是一個(gè)可伸縮的開源全文搜索和分析引擎。它可以快速地存儲(chǔ)、搜索和分析海量數(shù)據(jù)。Elasticsearch 基于成熟的 Apache Lucene 構(gòu)建,在設(shè)計(jì)時(shí)就是為大數(shù)據(jù)而生,能夠輕松的進(jìn)行大規(guī)模的橫向擴(kuò)展,以支撐PB級(jí)的結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的處理。Elasticsearch生態(tài)圈發(fā)展?fàn)顟B(tài)良好,整合了眾多外圍輔助系統(tǒng),如監(jiān)控Marvel,分析Logstash,安全Shield等。近年來(lái)不斷發(fā)展受到廣泛應(yīng)用,如Github、StackOverflow、維基百科等,是數(shù)據(jù)庫(kù)技術(shù)中倍受關(guān)注的一匹黑馬。

Elasticsearch在今年下半年發(fā)布了2.0版本,性能提升不少,主要改變?yōu)椋?/p>

Pipeline Aggregation

流式聚合,像管道一樣,對(duì)聚合的結(jié)果進(jìn)行再次聚合。原來(lái)client端需要做的計(jì)算工作,下推到ES,簡(jiǎn)化 client代碼,更容易構(gòu)建強(qiáng)大的查詢。

Query/Filter 合并

取消filters,所有的filter語(yǔ)句自動(dòng)轉(zhuǎn)換為query語(yǔ)句。在上下文語(yǔ)義是query時(shí),進(jìn)行相關(guān)性計(jì)算;上下文語(yǔ) 義是filter時(shí),簡(jiǎn)單排除b不匹配的doc,像現(xiàn)在的filter所做的一樣。這個(gè)重構(gòu)以為著所有的query執(zhí)行會(huì)以最 有效的順序自動(dòng)優(yōu)化。例如,子查詢和地理查詢會(huì)首先執(zhí)行一個(gè)快速的模糊步驟,然后用一個(gè)稍慢的精確 步驟截?cái)嘟Y(jié)果。在filter上下文中,cache有意義時(shí),經(jīng)常使用的語(yǔ)句會(huì)被自動(dòng)緩存。

可配置的store compression

存儲(chǔ)的field,例如_source字段,可以使用默認(rèn)的LZ4算法快速壓縮,或者使用DEFLATE算法減少index size。對(duì)于日志類的應(yīng)用尤其有用,舊的索引庫(kù)在優(yōu)化前可以切換到best_compression。

Hardening

Elasticsearch運(yùn)行于 Java Security Manager之下,在安全性上標(biāo)志著一個(gè)巨大的飛躍。Elasticsearch難于探測(cè),黑客在系統(tǒng)上 的影響也被嚴(yán)格限制。在索引方面也有加強(qiáng): indexing請(qǐng)求ack前,doc會(huì)被fsync,默認(rèn)寫持久化 所有的文件都計(jì)算checksum,提前檢測(cè)文件損壞 所有的文件rename操作都是原子的(atomic),避免部分寫文件 對(duì)于系統(tǒng)管理員來(lái)講,一個(gè)需求較多的變化是,可以避免一個(gè)未配置的node意外加入Elasticsearch集群網(wǎng)絡(luò):默認(rèn)綁 定localhost only, multicast也被移除,鼓勵(lì)使用unicast。

Performance and Resilience

除上所述,Elasticsearch和Lucene還有很多小的變化,使其更加穩(wěn)定可靠,易于配置,例如:

默認(rèn)doc value,帶來(lái)更少的heap usage,filter caching 更多使用 bitsets type mappings 大清理,更安全可靠,無(wú)二義性 cluster stat 使用diff進(jìn)行快速變化傳播,帶來(lái)更穩(wěn)定的大規(guī)模集群

Core plugins

官方支持的core plugins同時(shí)發(fā)布,和Elasticsearch核心使用相同的版本號(hào)。

Marvel 2.0.0 free to use in production

Marvel免費(fèi)。

Apache Kylin:

Apache Kylin是一個(gè)開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規(guī)模數(shù)據(jù),最初由eBay Inc. 開發(fā)并貢獻(xiàn)至開源社區(qū)。最初于2014年10月1日開源,并于同年11月加入Aapche孵化器項(xiàng)目,并在一年后的2015年11月順利畢業(yè)成為Apache頂級(jí)項(xiàng)目,是eBay全球貢獻(xiàn)至Apache軟件基金會(huì)(ASF)的第一個(gè)項(xiàng)目,也是全部由在中國(guó)的華人團(tuán)隊(duì)整體貢獻(xiàn)至Apache的第一個(gè)項(xiàng)目。

在eBay,已經(jīng)上線兩個(gè)生產(chǎn)環(huán)境平臺(tái),有著諸多的應(yīng)用,包括用戶行為分析、點(diǎn)擊分析、商戶分析、交易分析等應(yīng)用,最新的Streaming分析項(xiàng)目也已經(jīng)上線。目前在eBay平臺(tái)上最大的單個(gè)cube包含了超過(guò)1000億的數(shù)據(jù),90%查詢響應(yīng)時(shí)間小于1.5秒,95%的查詢響應(yīng)時(shí)間小于5秒。同時(shí)Apache Kylin在eBay外部也有很多的用戶,包括京東、美團(tuán)、百度地圖、網(wǎng)易、唯品會(huì)、Expedia、Expotional等很多國(guó)內(nèi)外公司也已經(jīng)在實(shí)際環(huán)境中使用起來(lái),把Apache Kylin作為他們大數(shù)據(jù)分析的基礎(chǔ)之一。

過(guò)去的一年多是Apache Kylin發(fā)展的重要的一年:

2014年10月1日,Kylin 代碼在github.com上正式開源

2014年11月25日,正式加入Apache孵化器并正式啟用Apache Kylin作為項(xiàng)目名稱

2015年6月10日,Apache Kylin v0.7.1-incubating發(fā)布,這是加入Apache后的第一個(gè)版本,依據(jù)Apache的規(guī)范作了很多修改,特別是依賴包,license等方面,同時(shí)簡(jiǎn)化了安裝,設(shè)置等,并同時(shí)提供二進(jìn)制安裝包

2015年9月6日,Apache Kylin v1.0-incubating正式發(fā)布,增強(qiáng)了SQL處理,提升了HBase coprocessor 的性能,同時(shí)提供了Zeppelin Interpreter等

2015年9月16日,Apache Kylin與Spark,Kafka,Storm,H2O,F(xiàn)link,Elasticsearch,Mesos等一起榮獲InfoWorld Bossie Awards 2015:最佳開源大數(shù)據(jù)工具獎(jiǎng),這是業(yè)界對(duì)Kylin的認(rèn)可

2015年11月18日,Apache Kylin正式畢業(yè)成為Apache頂級(jí)項(xiàng)目

2015年12月15日,Apache Kylin v1.2正式發(fā)布,這是升級(jí)為頂級(jí)項(xiàng)目后的第一個(gè)版本,提供了對(duì)Excel,PowerBI,Tableau 9等的支持,對(duì)高基維度增強(qiáng)了支持,修復(fù)了多個(gè)關(guān)鍵Bug等

2016年,Apache Kylin將迎來(lái)重要的2.x版本,該版本對(duì)底層架構(gòu)和設(shè)計(jì)作了重大重構(gòu),提供可插拔的設(shè)計(jì)及Lambda架構(gòu),同時(shí)提供對(duì)歷史數(shù)據(jù)查詢,Streaming及Realtime查詢等,同時(shí)在性能,任務(wù)管理,UI等各個(gè)方面提供增強(qiáng)。

同時(shí),過(guò)去一年也是社區(qū)發(fā)展的重要一年,在過(guò)去一年內(nèi)發(fā)展了來(lái)自eBay,美團(tuán),京東,明略數(shù)據(jù),網(wǎng)易等眾多committer,社區(qū)每天的討論也是非常熱鬧。社區(qū)提交了很多新特性和Bug修復(fù),包括來(lái)自美團(tuán)的不同HBase寫入,來(lái)自京東的明細(xì)數(shù)據(jù)查詢,來(lái)自網(wǎng)易的多Hive源等多個(gè)重大特性為Apache Kylin帶來(lái)了巨大的增強(qiáng)。

社區(qū)合作

在開源后的一年時(shí)間內(nèi),Apache Kylin也和其他社區(qū)建立了良好的合作關(guān)系,Apache Calcite作為Kylin 的SQL引擎被深入的整合進(jìn)來(lái),我們也向Calcite提交了很多改進(jìn)和修復(fù),Calcite的作者,Julian Hyde也是Kylin的mentor。HBase是Kylin的存儲(chǔ)層,在實(shí)際運(yùn)維中,我們碰到過(guò)無(wú)數(shù)問(wèn)題,從可靠性到性能到其他各個(gè)方面,Kylin社區(qū)和HBase社區(qū)積極合作解決了絕大部分關(guān)鍵問(wèn)題。另外,現(xiàn)在越來(lái)越多的用戶考慮使用Apache Zeppelin作為前端查詢和展現(xiàn)的工具,為此我們開發(fā)了Kylin Interperter并恭喜給了Zeppelin,目前可以直接從最新版的Zeppelin代碼庫(kù)中看到這快。同樣,我們也和其他各個(gè)社區(qū)積極合作,包括Spark,Kafka等,為構(gòu)建和諧的社區(qū)氛圍和形成良好合作打下了堅(jiān)實(shí)的基礎(chǔ)。

技術(shù)發(fā)展

技術(shù)上,這一年來(lái)Apache Kylin主要在以下幾個(gè)方面

Fast Cubing

在現(xiàn)在的版本中,Cube的計(jì)算依賴MapReduce,并且需要多個(gè)步驟的MR Job來(lái)完成計(jì)算,且MR Job的多少和維度相關(guān),越多的維度會(huì)帶來(lái)更多的MR job。而每一次MR job的啟停都需要等待集群調(diào)度,并且MR job之間的數(shù)據(jù)需要多次在HDFS落地和傳輸,從而導(dǎo)致消耗了大量的集群資源。為此我們引入了一種新的算法:Fast Cubing。一個(gè)MapReduce即可完成Cub的計(jì)算,測(cè)試結(jié)果表明整個(gè)Cubing的時(shí)間可以降低30~50%左右,網(wǎng)絡(luò)傳輸可以下降5倍,這在超大規(guī)模數(shù)據(jù)集的計(jì)算上帶來(lái)了客觀的性能改進(jìn)。

Streaming OLAP

Kylin作為一個(gè)預(yù)計(jì)算系統(tǒng),不可避免的有著數(shù)據(jù)刷新延遲的限制,這在大部分用戶案例中并不是問(wèn)題,但隨著業(yè)務(wù)和技術(shù)的發(fā)展,Streaming甚至Realtime的需求越來(lái)越高。2015年Kylin的主要發(fā)展都在Streaming OLAP上,為了支持低延遲的數(shù)據(jù)刷新,從整體的架構(gòu)和設(shè)計(jì)上都做了相當(dāng)大的重新設(shè)計(jì),目前已經(jīng)可以支持從Kafka讀取數(shù)據(jù)并進(jìn)行聚合計(jì)算的能力,同時(shí)提供SQL接口為前端客戶端提供標(biāo)準(zhǔn)的訪問(wèn)接口,數(shù)據(jù)延遲已經(jīng)可以做到分鐘級(jí)別。

Spark Cubing

Spark作為MapReduce的一種替代方案一直在社區(qū)中被問(wèn)及Kylin是否可以支持直接使用Spark來(lái)作為計(jì)算。為此我們?cè)?015年下半年實(shí)現(xiàn)了同樣算法的Spark Cubing引擎,目前還在測(cè)試中。

可插拔架構(gòu)

為了更廣泛的可擴(kuò)展性,并支持如上各種新特性,Kylin在2.x的代碼中引入了可插拔架構(gòu)和設(shè)計(jì),從而解決了對(duì)特定技術(shù)的依賴問(wèn)題。在新的設(shè)計(jì)中,數(shù)據(jù)源可以從Hive,SparkSQL等各種SQL on Hadoop技術(shù)讀取,并支持Kafka;在計(jì)算引擎方面,除了MapReduce方面的Fast Cubing外,實(shí)現(xiàn)了Spark Cubing,Streaming Cubing等多種計(jì)算框架,并為將來(lái)其他計(jì)算框架留下了擴(kuò)展接口;在存儲(chǔ)上,HBase目前依然是唯一的存儲(chǔ)層,但在上層設(shè)計(jì)中已經(jīng)很好的進(jìn)行了抽象,很容易可以擴(kuò)展到其他Key-Value系統(tǒng)。

2,大數(shù)據(jù)與機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是數(shù)據(jù)分析不可缺少的一部分。機(jī)器學(xué)習(xí)被贊譽(yù)為大數(shù)據(jù)分析和商務(wù)智能發(fā)展的未來(lái),成功的機(jī)器學(xué)習(xí)項(xiàng)目依賴于很多因素,包括選擇正確的主題,運(yùn)行環(huán)境,合理的機(jī)器學(xué)習(xí)模型,最重要的是現(xiàn)有的數(shù)據(jù),大數(shù)據(jù)為機(jī)器學(xué)習(xí)提供了很好的用武之地。

機(jī)器學(xué)習(xí)正很快從一個(gè)被很少人關(guān)注的技術(shù)主題轉(zhuǎn)變?yōu)楸缓芏嗳耸褂玫墓芾砉ぞ摺?yōu)秀的算法,大數(shù)據(jù)和高性能的計(jì)算資源的條件的滿足使得機(jī)器學(xué)習(xí)快速發(fā)展,機(jī)器學(xué)習(xí)在今年第一次進(jìn)入Gartner技術(shù)成熟曲線的報(bào)告中,已直接越過(guò)了期望鵬展期的高峰,進(jìn)入大數(shù)據(jù)一樣的應(yīng)用期;而機(jī)器學(xué)習(xí)也是報(bào)告中第一個(gè)出現(xiàn)的技術(shù)。2015年是機(jī)器學(xué)習(xí)豐收年,發(fā)生了很多令人矚目的大事。

各大巨頭開源:

2015年1月,F(xiàn)acebook開源前沿深度學(xué)習(xí)工具“Torch”。

2015年4月,亞馬遜啟動(dòng)其機(jī)器學(xué)習(xí)平臺(tái)Amazon Machine Learning,這是一項(xiàng)全面的托管服務(wù),讓開發(fā)者能夠輕松使用歷史數(shù)據(jù)開發(fā)并部署預(yù)測(cè)模型。

2015年11月,谷歌開源其機(jī)器學(xué)習(xí)平臺(tái)TensorFlow。

同一月,IBM開源SystemML并成為Apache官方孵化項(xiàng)目。

同時(shí),微軟亞洲研究院將分布式機(jī)器學(xué)習(xí)工具DMTK通過(guò)Github開源。DMTK由一個(gè)服務(wù)于分布式機(jī)器學(xué)習(xí)的框架和一組分布式機(jī)器學(xué)習(xí)算法組成,可將機(jī)器學(xué)習(xí)算法應(yīng)用到大數(shù)據(jù)中。

2015年12月,F(xiàn)acebook開源針對(duì)神經(jīng)網(wǎng)絡(luò)研究的服務(wù)器“Big Sur”,配有高性能圖形處理單元(GPUs),轉(zhuǎn)為深度學(xué)習(xí)方向設(shè)計(jì)的芯片。

大公司不僅是用開源社區(qū)來(lái)增強(qiáng)自己的機(jī)器學(xué)習(xí)工具,而且也會(huì)以收購(gòu)來(lái)提升自身的機(jī)器學(xué)習(xí)實(shí)力。如IBM于今年3月收購(gòu)了AIchemyAPI,AIchemyAPI能夠利用深度學(xué)習(xí)人工智能,搜集企業(yè)、網(wǎng)站發(fā)型的圖片和文字等來(lái)進(jìn)行文本識(shí)別和數(shù)據(jù)分析。

此外,2015年不僅僅是關(guān)于大公司的,利用機(jī)器學(xué)習(xí)的各種創(chuàng)業(yè)公司也占了同等地位。比如EverString完成B輪融資,該公司利用企業(yè)內(nèi)部銷售數(shù)據(jù),和不斷主動(dòng)挖掘分析全球新聞數(shù)據(jù),社交媒體等外部數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)自動(dòng)建立量化客戶模型,為企業(yè)預(yù)測(cè)潛在客戶。

3,數(shù)據(jù)科學(xué)家的崛起

大數(shù)據(jù)需要數(shù)據(jù)分析,數(shù)據(jù)分析需要人才。數(shù)據(jù)科學(xué)是早就存在的詞匯,而數(shù)據(jù)科學(xué)家卻是近年來(lái)突然出現(xiàn)的新詞。在Google、Amazon、Quora、Facebook等大公司的背后,都有一批數(shù)據(jù)科學(xué)專業(yè)人才,將大量數(shù)據(jù)變?yōu)榭砷_發(fā)有價(jià)值的金礦。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)科學(xué)家等分析人才的需求在激增。

據(jù)相關(guān)報(bào)告,國(guó)內(nèi)大數(shù)據(jù)人才缺口目前已達(dá)百萬(wàn),一名高級(jí)數(shù)據(jù)挖掘工程師月薪高達(dá)30K-50K。招聘網(wǎng)站上的每天都會(huì)產(chǎn)生大量的大數(shù)據(jù)相關(guān)職位需求。據(jù)拉勾網(wǎng)提供的統(tǒng)計(jì)來(lái)看,從2014年到2015年,IT行業(yè)關(guān)于大數(shù)據(jù)的崗位需求增長(zhǎng)了2.4倍。人才培養(yǎng)迫在眉睫。復(fù)旦大學(xué)于今年成立了全國(guó)首個(gè)大數(shù)據(jù)學(xué)院。阿里云于年底宣布新增30所合作高校,開設(shè)云計(jì)算大數(shù)據(jù)專業(yè),計(jì)劃用3年時(shí)間培養(yǎng)5萬(wàn)名數(shù)據(jù)科學(xué)家。各知名大學(xué)也將數(shù)據(jù)科學(xué)設(shè)為碩士課程。

無(wú)論是國(guó)內(nèi)還是國(guó)外,數(shù)據(jù)科學(xué)都是目前炙手可熱的研究領(lǐng)域,數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師都是非常火爆的職位,幾乎所有的產(chǎn)業(yè)都需要數(shù)據(jù)科學(xué)家來(lái)從大量的數(shù)據(jù)中挖掘有價(jià)值的信息。大數(shù)據(jù)分析領(lǐng)域的專屬首席級(jí)別頭銜也愈發(fā)多見。美國(guó)政府今年任命了DJ Patil作為政府的首席數(shù)據(jù)科學(xué)家(Chief Data Scientist),這也是美國(guó)政府內(nèi)部首次設(shè)立“數(shù)據(jù)科學(xué)家”這個(gè)職位。

展望2016:

Hadoop。對(duì)于 HDFS,會(huì)朝著異構(gòu)存儲(chǔ)介質(zhì)方向發(fā)展,尤其是對(duì)新興存儲(chǔ)介質(zhì)的支持;對(duì)于 YARN,會(huì)朝著通用資源管理和調(diào)度方向發(fā)展,而不僅僅限于大數(shù)據(jù)處理領(lǐng)域,在加強(qiáng)對(duì) MapReduce、Spark等短類型應(yīng)用支持的同時(shí),加強(qiáng)對(duì)類似Web Service 等長(zhǎng)服務(wù)的支持;

對(duì)于Hbase,將會(huì)花費(fèi)更多精力在穩(wěn)定性和性能方面,正嘗試的技術(shù)方向包括:對(duì)于 HDFS 多存儲(chǔ)介質(zhì)的使用;減少對(duì) ZooKeeper 的使用以及通過(guò)使用堆外內(nèi)存緩解Java GC的影響。

Spark 2.0預(yù)計(jì)明年三四月份發(fā)布,將會(huì)確立以DataFrame和Dataset為核心的體系架構(gòu)。同時(shí)在各方面的性能上會(huì)有很大的提升。

Apache Kylin 2.0即將發(fā)布,隨著各項(xiàng)改進(jìn)的不斷完善,該版本將在2016年在OLAP on Hadoop上更進(jìn)一步!

ElasticSearch開源搜索平臺(tái),機(jī)器學(xué)習(xí),Data graphics,數(shù)據(jù)可視化在2016年會(huì)更加火熱。

大數(shù)據(jù)會(huì)越來(lái)越大,IOT、社交媒體依然是一個(gè)主要的推動(dòng)因素。

大數(shù)據(jù)的安全和隱私會(huì)持續(xù)受到關(guān)注。

專家介紹:

董西成就職于Hulu,專注于分布式計(jì)算和資源管理系統(tǒng)等相關(guān)技術(shù)。《Hadoop 技術(shù)內(nèi)幕:深入解析 MapReduce 架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》和《Hadoop 技術(shù)內(nèi)幕:深入解 析 YARN 架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》作者,dongxicheng.org 博主。

梁堰波明略數(shù)據(jù)技術(shù)合伙人,開源愛好者,Apache Spark項(xiàng)目核心貢獻(xiàn)者。北京航空航天大學(xué)計(jì)算機(jī)碩士,曾就職于Yahoo!、美團(tuán)網(wǎng)、法國(guó)電信從事機(jī)器學(xué)習(xí)和推薦系統(tǒng)相關(guān)的工作,在大數(shù)據(jù)、機(jī)器學(xué)習(xí)和分布式系統(tǒng)領(lǐng)域具備豐富的項(xiàng)目經(jīng)驗(yàn)。

盧億雷精碩科技(AdMaster)技術(shù)副總裁兼總架構(gòu)師,大數(shù)據(jù)資深專家,CCF(中國(guó)計(jì)算學(xué)會(huì))大數(shù)據(jù)專委委員,北航特聘教授。主要負(fù)責(zé)數(shù)據(jù)的采集、清洗、存儲(chǔ)、挖掘等整個(gè)數(shù)據(jù)流過(guò)程,確保提供高可靠、高可用、高擴(kuò)展、高性能系統(tǒng)服務(wù),提供Hadoop/HBase/Storm/Spark/ElasticSearch等離線、流式及實(shí)時(shí)分布式計(jì)算服務(wù)。對(duì)分布式存儲(chǔ)和分布式計(jì)算、超大集群、大數(shù)據(jù)分析等有深刻理解及實(shí)踐經(jīng)驗(yàn)。有超過(guò)10年云計(jì)算、云存儲(chǔ)、大數(shù)據(jù)經(jīng)驗(yàn)。曾在聯(lián)想、百度、Carbonite工作,并擁有多篇大數(shù)據(jù)相關(guān)的專利和論文。

韓卿(Luke Han) eBay全球分析基礎(chǔ)架構(gòu)部(ADI) 大數(shù)據(jù)平臺(tái)產(chǎn)品負(fù)責(zé)人,Apache Kylin 副總裁,聯(lián)合創(chuàng)始人,管理和驅(qū)動(dòng)著Apache Kylin的愿景,路線圖,特性及計(jì)劃等,在全球各地不同部門中發(fā)展客戶,開拓內(nèi)外部合作伙伴及管理開源社區(qū)等,建立與大數(shù)據(jù)廠商,集成商及最終用戶的聯(lián)系已構(gòu)建健壯的Apache Kylin生態(tài)系統(tǒng)。在大數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù),商務(wù)智能等方面擁有超過(guò)十年的工作經(jīng)驗(yàn)。

本文地址:http://www.mudan321.com/zixun/12239656230.html 轉(zhuǎn)載請(qǐng)注明!


PostgreSQL入門到精通 100+ 個(gè)學(xué)習(xí)資料

Oracle培訓(xùn)機(jī)構(gòu)

金牌講師<>

冉乃綱-老師CUUG金牌講師
冉老師 CUUG金牌講師 Oracle及RedHat高級(jí)講師、Unix/Linux 資深專家...[詳細(xì)了解老師]

免費(fèi)咨詢上課流程 客服在線中

陳衛(wèi)星-老師CUUG金牌講師
陳老師 CUUG金牌講師 精通Oracle管理、備份恢復(fù)、性能優(yōu)化 11年Ora...[詳細(xì)了解老師]

免費(fèi)咨詢上課流程 客服在線中

選學(xué)校如何選擇適合自己的學(xué)校

CUUG -CHINA UNIX USER GROUP,是國(guó)際UNIX組織UNIFORUM的中國(guó)代表,是國(guó)內(nèi)悠久的專業(yè)UNIX培訓(xùn)機(jī)構(gòu),被譽(yù)為中國(guó)UNIX 的搖籃。多年來(lái),以提高教學(xué)質(zhì)量為本,強(qiáng)調(diào)素質(zhì)教育,積極引進(jìn)、消化國(guó)外的新技術(shù),有效的結(jié)合中國(guó)....[詳情]

一站式服務(wù)(從入學(xué)到就業(yè)一幫到底)

入學(xué)

學(xué)習(xí)

就業(yè)

實(shí)操

食宿
地址:北京市海淀區(qū)田村山南路35號(hào)院17號(hào)樓
課程咨詢: 400-0909-964
企業(yè)服務(wù):137 1818 8639(陳經(jīng)理)
部分信息來(lái)源于網(wǎng)絡(luò),如有錯(cuò)誤請(qǐng)聯(lián)系指正!
版權(quán)所有@北京神腦資訊技術(shù)有限公司 (CUUG,中國(guó)UNIX用戶協(xié)會(huì)) Copyright 2016 ALL Rights Reserved 京ICP備11008061號(hào)-1