來(lái)源:中國(guó)電商物流網(wǎng) 發(fā)布時(shí)間:2020-1-7 9:40
星環(huán)科技人工智能平臺(tái)團(tuán)隊(duì)合著的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-基于Sophon平臺(tái)的機(jī)器學(xué)習(xí)理論與實(shí)踐》現(xiàn)已問(wèn)世,該書(shū)由機(jī)械工業(yè)出版社出版,凝結(jié)星環(huán)科技人工智能和大數(shù)據(jù)團(tuán)隊(duì)豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。
從技術(shù)視角提供當(dāng)前人工智能相關(guān)技術(shù)的深入介紹,不僅講解人工智能知識(shí)體系的理論基礎(chǔ),也指導(dǎo)基于實(shí)戰(zhàn)平臺(tái)的環(huán)境進(jìn)行操作。
這是一本面向機(jī)器學(xué)習(xí)一線(xiàn)工程技術(shù)人員的實(shí)戰(zhàn)指南。除了算法原理講解,本書(shū)還結(jié)合實(shí)際業(yè)務(wù)問(wèn)題,串聯(lián)起各種工具,手把手教您快速搭建模型,構(gòu)建行業(yè)應(yīng)用。
本書(shū)特色
人工智能已然成為了本時(shí)代的新動(dòng)力——它正在革新世界各地的工業(yè),并從根本上改變我們工作的方式。隨著技術(shù)體系越來(lái)越復(fù)雜,應(yīng)用場(chǎng)景日益廣泛,開(kāi)發(fā)門(mén)檻也越來(lái)越高。在這種情況下,需要一本關(guān)于機(jī)器學(xué)習(xí)的專(zhuān)業(yè)圖書(shū),不僅講解關(guān)于整體知識(shí)體系的理論基礎(chǔ),也可以提供基于人工智能研發(fā)實(shí)戰(zhàn)平臺(tái)環(huán)境的操作指導(dǎo)。
《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Sophon平臺(tái)的機(jī)器學(xué)習(xí)理論與實(shí)踐》在講解AI的算法原理的基礎(chǔ)上,還指導(dǎo)針對(duì)真實(shí)業(yè)務(wù)問(wèn)題,如何快速搭建模型,構(gòu)建機(jī)器學(xué)習(xí)的行業(yè)應(yīng)用。
1. 緊接地氣:本書(shū)由星環(huán)科技人工智能平臺(tái)研發(fā)團(tuán)隊(duì)合著,凝聚了來(lái)自算法專(zhuān)家及一線(xiàn)軟件工程專(zhuān)家的實(shí)戰(zhàn)經(jīng)驗(yàn)。相比于國(guó)內(nèi)學(xué)術(shù)人員的教材或國(guó)外譯注,本教材案例來(lái)自本土真實(shí)的業(yè)界實(shí)踐,更加貼合國(guó)內(nèi)機(jī)器學(xué)習(xí)產(chǎn)業(yè)的需求。
2. 注重實(shí)踐:與基于Python等特定語(yǔ)言的機(jī)器學(xué)習(xí)入門(mén)教材不同,本書(shū)不拘泥于具體功能的代碼實(shí)現(xiàn),更關(guān)注技術(shù)大方向與業(yè)務(wù)落地的有機(jī)結(jié)合。
3. 新手友好:對(duì)于機(jī)器學(xué)習(xí)的各環(huán)節(jié),本教材采用交互式的平臺(tái)Sophon進(jìn)行落地,各環(huán)節(jié)高度可視化。對(duì)于有基礎(chǔ)的編程愛(ài)好者,可以擴(kuò)展視野,看看平臺(tái)帶來(lái)的效率提升,并無(wú)縫遷移文本代碼至新平臺(tái);對(duì)于零基礎(chǔ)的讀者,可以快速搭建并跑通完整的機(jī)器學(xué)習(xí)流程,提升入門(mén)機(jī)器學(xué)習(xí)的自信心。
針對(duì)各種類(lèi)型的機(jī)器學(xué)習(xí)問(wèn)題,基于星環(huán)自研的人工智能平臺(tái)(Sophon)環(huán)境,結(jié)合真實(shí)案例,依照數(shù)據(jù)、分析、建模的演進(jìn)歷程以及系統(tǒng)化闡述并進(jìn)行實(shí)戰(zhàn)講解。
通過(guò)原理講解與實(shí)例分析,讀者既能了解人工智能相關(guān)的算法原理,也能了解人工智能一些可落地的具體應(yīng)用場(chǎng)景。此外,本書(shū)還適合作為Sophon平臺(tái)工具的使用手冊(cè),供平臺(tái)用戶(hù)參考。
本書(shū)既適合作為高等院校計(jì)算機(jī)、軟件工程、人工智能等相關(guān)專(zhuān)業(yè)的教學(xué)用書(shū),同時(shí)也可供從事機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的工程技術(shù)人員閱讀和參考,幫助掌握機(jī)器學(xué)習(xí)相關(guān)的算法原理,并能通過(guò)專(zhuān)業(yè)工具平臺(tái)快速搭建各類(lèi)模型,構(gòu)建機(jī)器學(xué)習(xí)的行業(yè)應(yīng)用。
星環(huán)科技作為國(guó)內(nèi)大數(shù)據(jù)和人工智能平臺(tái)的領(lǐng)航者,專(zhuān)注于企業(yè)級(jí)容量云計(jì)算、大數(shù)據(jù)和人工智能核心平臺(tái)的自主研發(fā)。星環(huán)科技Sophon集合基礎(chǔ)算法、實(shí)體畫(huà)像、視頻分析、知識(shí)圖譜、云服務(wù)、邊緣計(jì)算和管理組件等多個(gè)模塊的能量,可以讓用戶(hù)快速完成從特征工程、模型訓(xùn)練再到模型上線(xiàn)應(yīng)用的機(jī)器學(xué)習(xí)全生命周期的開(kāi)發(fā)工作。
關(guān)于我們
星環(huán)科技人工智能平臺(tái)團(tuán)隊(duì)由五十多位優(yōu)秀的研發(fā)工程師和算法工程師組成,逾八成具有國(guó)內(nèi)外名校碩士及以上學(xué)歷。其中研發(fā)子團(tuán)隊(duì)的工作重心為一站式人工智能建模平臺(tái)Sophon;算法子團(tuán)隊(duì)則負(fù)責(zé)基礎(chǔ)算法的研發(fā)及改進(jìn),并在數(shù)據(jù)挖掘、傳統(tǒng)機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、知識(shí)圖譜等領(lǐng)域進(jìn)行前瞻性研究以及項(xiàng)目實(shí)施落地。星環(huán)科技人工智能平臺(tái)團(tuán)隊(duì)一直致力于“把中國(guó)人自主研發(fā)的領(lǐng)先創(chuàng)新技術(shù)賦能全世界各行各業(yè),促進(jìn)社會(huì)可持續(xù)發(fā)展,通過(guò)科技讓人類(lèi)的生活更美好”。目前產(chǎn)品應(yīng)用已覆蓋金融、安防、電力、交通、教育等數(shù)十個(gè)行業(yè)和領(lǐng)域,申請(qǐng)專(zhuān)利近三十個(gè)。
下面,我們將用一個(gè)商戶(hù)反欺詐的例子,串起本書(shū)的主要章節(jié)內(nèi)容。
1 案例背景
隨著移動(dòng)支付的推廣,傳統(tǒng)的POS機(jī)刷卡已經(jīng)逐步被新興二維碼POS機(jī)刷碼所取代。同時(shí),傳統(tǒng)的線(xiàn)下商鋪刷卡套現(xiàn)也逐步演化為網(wǎng)絡(luò)購(gòu)物套現(xiàn)、個(gè)人POS機(jī)套現(xiàn)、微商及線(xiàn)上商鋪套現(xiàn)等多種方式。
POS刷卡刷碼的流程如下圖所示:
銀行或第三方支付平臺(tái)首先向商家推廣POS機(jī),然后持有銀行卡的消費(fèi)者就可以在相應(yīng)商鋪使用POS機(jī)刷卡消費(fèi),或者也可以將銀行卡與支付平臺(tái)綁定,再在商鋪使用POS機(jī)刷碼消費(fèi)。這一過(guò)程中很有可能產(chǎn)生套現(xiàn)欺詐行為,而我們可以使用機(jī)器學(xué)習(xí)方法對(duì)商戶(hù)與消費(fèi)者間交易行為建模,通過(guò)模型自動(dòng)檢測(cè)異常商戶(hù)。
處理這類(lèi)案例時(shí),我們會(huì)先將抽象的業(yè)務(wù)目標(biāo)轉(zhuǎn)化為機(jī)器可理解的問(wèn)題,根據(jù)我們手中的數(shù)據(jù)和業(yè)務(wù)目標(biāo)構(gòu)想模型。整個(gè)機(jī)器學(xué)習(xí)的過(guò)程包含數(shù)據(jù)預(yù)處理及探索性分析、特征提取及選擇、模型構(gòu)建及訓(xùn)練和模型評(píng)估。問(wèn)題建模的流程如下圖所示:
2 數(shù)據(jù)預(yù)處理與探索性分析
這一過(guò)程包含箱線(xiàn)圖、條形圖和數(shù)據(jù)分布特征研究等初步的數(shù)據(jù)探索、數(shù)據(jù)的歸一化處理、類(lèi)別特征數(shù)據(jù)的獨(dú)熱編碼或高勢(shì)集特征編碼處理、時(shí)間特征數(shù)據(jù)的連續(xù)性變換或時(shí)間窗口提取處理等操作,為后續(xù)模型的構(gòu)建及模型收斂速度和精度的提升做了鋪墊。
3 特征提取及選擇
在POS套現(xiàn)的案例中,我們將構(gòu)建四種特征,其構(gòu)建流程如下:
1. 將消費(fèi)者和商家的靜態(tài)屬性信息作為靜態(tài)特征;
2. 將商家與消費(fèi)者之間的動(dòng)態(tài)交易記錄作為交易特征,同時(shí)加入了商戶(hù)的平均交易額度等商戶(hù)深度數(shù)據(jù);
3. 分析得到消費(fèi)者和商家交易圖的模式結(jié)構(gòu)特性、傳播特征、聚類(lèi)特征等圖結(jié)構(gòu)特征;
使用圖嵌入算法和異常檢測(cè)算法 LOF得到用嵌入特征表示的深度圖特征
若數(shù)據(jù)存在于多個(gè)表格中,則可以運(yùn)用DFS(深度特征融合)進(jìn)行數(shù)據(jù)表關(guān)聯(lián),特征基元以及自動(dòng)特征搜索與組合(Sophon中提供了自動(dòng)多表擴(kuò)展算子的接口供建模使用)。自動(dòng)特征構(gòu)建出的特征則可以使用不同類(lèi)型的評(píng)價(jià)指標(biāo)(如LRLogLossMetric、SquaredLossMetric和EntropyBasedMetric)進(jìn)行評(píng)價(jià),再使用一些局部最優(yōu)方法進(jìn)行選擇(Sophon中的AutoML模塊專(zhuān)門(mén)提供了自動(dòng)特征構(gòu)建算子供使用)。
4 模型構(gòu)建及訓(xùn)練
1. 分類(lèi)模型:將銀行業(yè)務(wù)人員預(yù)先指定的異常商戶(hù)標(biāo)簽作為分類(lèi)目標(biāo),訓(xùn)練一個(gè)分類(lèi)模型(如邏輯回歸模型),再根據(jù)模型結(jié)果判定新商戶(hù)是否異常;
2. 回歸模型:將異常商戶(hù)標(biāo)簽經(jīng)交易網(wǎng)絡(luò)傳播后的異常值作為擬合目標(biāo),訓(xùn)練一個(gè)回歸模型(如線(xiàn)性回歸模型),再根據(jù)模型結(jié)果預(yù)測(cè)商戶(hù)未來(lái)出現(xiàn)套現(xiàn)異常的等級(jí);
3. 圖計(jì)算模型:計(jì)算圖結(jié)構(gòu)及圖特征,輔助對(duì)交易行為進(jìn)行可視化圖分析
當(dāng)我們擔(dān)心單一的分類(lèi)/回歸模型性能無(wú)法滿(mǎn)足需求時(shí),可以使用集成學(xué)習(xí),將XGBoost回歸、決策樹(shù)回歸/SVM、多層感知機(jī)和梯度提升樹(shù)等各類(lèi)模型進(jìn)行簡(jiǎn)單平均/投票融合,集合成一個(gè)強(qiáng)學(xué)習(xí)器,從而得到一個(gè)具有比單獨(dú)學(xué)習(xí)算法更好預(yù)測(cè)性能的結(jié)果。而當(dāng)算法性能受到諸如訓(xùn)練過(guò)程和正則化方法等選擇的設(shè)計(jì)決策影響時(shí),則可以選擇使用自動(dòng)建模。
另外,可視化圖分析能夠提供大量信息。如圖所示:AB 兩個(gè)詐騙商鋪的顧客中大多使用非信用卡交易,而其共同消費(fèi)者(疑似欺詐團(tuán)伙)卻大都使用信用卡交易,很可能在實(shí)施信用卡套現(xiàn)等詐騙行為。結(jié)合商戶(hù)信息的查詢(xún)結(jié)果:這兩個(gè)店鋪物理距離相距超過(guò) 30 公里,且這幾個(gè)消費(fèi)者短時(shí)間內(nèi)同時(shí)在這兩家發(fā)生了消費(fèi),也佐證了可視化圖提供的信息。
5 模型評(píng)估
以判定商戶(hù)是否異常的分類(lèi)模型為例,我們選擇混淆矩陣、ROC曲線(xiàn)與PR曲線(xiàn)進(jìn)行模型評(píng)估。
從圖中可以看到,在使用了前面所述特征進(jìn)行模型訓(xùn)練使得測(cè)試集上模型的精度和召回率分別達(dá)到 0.925 和 0.7,基本能夠滿(mǎn)足商戶(hù)異常監(jiān)測(cè)場(chǎng)景的需要。
從以上分析案例可以看到,Sophon的各個(gè)算法算子和可視化分析工具,能夠幫助有數(shù)據(jù)分析需求的業(yè)務(wù)人員更好地上手使用機(jī)器學(xué)習(xí)對(duì)相關(guān)業(yè)務(wù)案例進(jìn)行分析,同時(shí)也使得整個(gè)模型搭建流程和結(jié)果展示更加清晰,幫助業(yè)務(wù)人員更好地研究場(chǎng)景問(wèn)題,助力業(yè)務(wù)目標(biāo)的達(dá)成。
此外,我們還可以借助自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)技術(shù),將更多關(guān)于商戶(hù)和消費(fèi)者的非結(jié)構(gòu)化信息納入模型,形成更綜合化的分析體系。更多主題將在后續(xù)的獨(dú)立文章中呈現(xiàn),敬請(qǐng)期待。
內(nèi)容提前知
本書(shū)內(nèi)容覆蓋了機(jī)器學(xué)習(xí)領(lǐng)域從理論到實(shí)踐的多個(gè)主題,總共分為10章。
1
第一章 機(jī)器學(xué)習(xí)導(dǎo)論
介紹機(jī)器學(xué)習(xí)的背景、定義和任務(wù)類(lèi)型,構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用的步驟,以及開(kāi)發(fā)機(jī)器學(xué)習(xí)工作流的方式。
2
第二章 數(shù)據(jù)預(yù)處理與特征工程
詳細(xì)介紹數(shù)據(jù)預(yù)處理和特征工程技術(shù),并輔以實(shí)例進(jìn)行驗(yàn)證。
3-6
第三~六章
介紹回歸模型、分類(lèi)模型、模型融合和聚類(lèi)模型,這些內(nèi)容是機(jī)器學(xué)習(xí)理論和實(shí)踐中的傳統(tǒng)重點(diǎn)。其中不僅介紹各種常見(jiàn)數(shù)據(jù)類(lèi)型的處理方法,還針對(duì)刪失數(shù)據(jù)進(jìn)行了專(zhuān)門(mén)的綜述和實(shí)踐。
7
第七章 圖計(jì)算
介紹機(jī)器學(xué)習(xí)領(lǐng)域較難的圖計(jì)算話(huà)題,并從工業(yè)界視角解讀如何將圖計(jì)算落地。
8
第八章 自動(dòng)機(jī)器學(xué)習(xí)
針對(duì)特征工程、建模過(guò)程中大量調(diào)參的場(chǎng)景介紹自動(dòng)機(jī)器學(xué)習(xí)的理論和應(yīng)用,并細(xì)致比較和測(cè)試了各種自動(dòng)特征工程算法在不同數(shù)據(jù)上的表現(xiàn)。
9
第九章 自然語(yǔ)言處理
介紹自然語(yǔ)言處理(詞向量、序列標(biāo)注、關(guān)鍵詞抽取、自動(dòng)摘要和情感分析)技術(shù),使用新聞文本數(shù)據(jù)搭建文本分類(lèi)的流程。
10
第十章 計(jì)算機(jī)視覺(jué)
介紹計(jì)算機(jī)視覺(jué)中圖像分類(lèi)和目標(biāo)檢測(cè)的應(yīng)用以及車(chē)輛檢測(cè)的落地案例。
《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》目前已在如下渠道開(kāi)啟銷(xiāo)售:
京東:
https://item.jd.com/12782006.html
當(dāng)當(dāng):
http://product.dangdang.com/28498312.html
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類(lèi)作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。