出租房里的交互高康张睿篇,亚洲中文字幕一区精品自拍,里番本子库绅士ACG全彩无码,偷天宝鉴在线观看国语版

中國電商物流網(wǎng)-電子商務(wù)與物流行業(yè)融合媒體!電子商務(wù)物流行業(yè)門戶網(wǎng)站!
快遞網(wǎng)點 郵編查詢 行政區(qū)劃 高鐵時刻 高鐵票價 高鐵車次
貿(mào)易資訊
免費注冊 登錄
中國電商物流網(wǎng)
企 業(yè)
產(chǎn) 品
商 務(wù)

自然語言處理“橋頭堡”百度與一線技術(shù)專家齊聚AI ProCon ERNIE超“吸睛”

來源:中國電商物流網(wǎng)  發(fā)布時間:2019-9-11 8:30

  北京雖已入秋,但依舊迎來AI的一股熱浪。風(fēng)靡自然語言處理領(lǐng)域的“網(wǎng)紅”預(yù)訓(xùn)練模型百度ERNIE再次現(xiàn)身“極客盛宴”,引發(fā)行業(yè)廣泛關(guān)注。

  9月5日,CSDN主辦的為期三天的 2019 AI開發(fā)者大會(AI ProCon)在北京拉開序幕。大會聚集國內(nèi)外如百度、華為、Google微軟等40多知名科技公司,60位一線技術(shù)專家,深入聚焦技術(shù)與應(yīng)用,闡述產(chǎn)業(yè)變革。7日下午自然語言處理論壇中,百度NLP主任研發(fā)架構(gòu)師孫宇從自然語言處理的關(guān)鍵難點語義表示技術(shù)切入,為到場開發(fā)者解析了中英文任務(wù)超越谷歌BERT的百度語義理解框架ERNIE。

  語言表示是解決自然語言理解的首要問題,語言表示的好壞一定程度決定了計算機處理自然語言的效果;诖,百度在今年3月首次提出知識增強的語義表示模型ERNIE(Enhanced Representation from kNowledge IntEgration),它在中文NLP任務(wù)上表現(xiàn)非凡,百度在多個公開的中文數(shù)據(jù)集上進行了效果驗證,在語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務(wù)上,超越了谷歌的語義表示模型BERT的效果。

  ERNIE模型通過建模海量數(shù)據(jù)中的實體概念等先驗語義知識,學(xué)習(xí)真實世界的語義關(guān)系。具體來說,百度ERNIE模型通過對詞、實體等語義單元的掩碼,使得模型學(xué)習(xí)完整概念的語義表示。相較于 BERT 學(xué)習(xí)原始語言信號,ERNIE 直接對先驗語義知識單元進行建模,增強了模型語義表示能力。

  例如:

  Learned by BERT:哈 [mask] 濱是 [mask] 龍江的省會,[mask] 際冰 [mask] 文化名城。

  Learned by ERNIE:[mask] [mask] [mask] 是黑龍江的省會,國際 [mask] [mask] 文化名城。

  在 BERT 模型中,通過『哈』與『濱』的局部共現(xiàn),即可判斷出『爾』字,模型沒有學(xué)習(xí)『哈爾濱』本身的任何知識。而ERNIE通過學(xué)習(xí)詞與實體的表達(dá),使模型能夠建模出『哈爾濱』與『黑龍江』的關(guān)系,學(xué)到『哈爾濱』是 『黑龍江』的省會以及『哈爾濱』是個冰雪城市。

  會上,孫宇還用幾道趣味填空題驗證了ERNIE的知識學(xué)習(xí)能力。實驗將段落中的實體知識去掉,讓模型推理其答案。不難看出,ERNIE在基于上下文知識推理能力上表現(xiàn)的更加出色。

  ERNIE在自然語言處理領(lǐng)域前進的腳步從未停歇。沉淀短短幾個月,升級后的ERNIE于8月正式推出。百度發(fā)布的持續(xù)學(xué)習(xí)的語義理解框架ERNIE 2.0在1.0版本中文任務(wù)全面超越BERT的基礎(chǔ)上,英文任務(wù)取得了全新突破,在共計16個中英文任務(wù)上超越了BERT和XLNet, 取得了SOTA效果。

  孫宇指出,以BERT、XLNet為代表的無監(jiān)督預(yù)訓(xùn)練技術(shù)在語言推斷、語義相似度、命名實體識別、情感分析等多個自然語言處理任務(wù)上在近兩年取得了技術(shù)突破;诖笠(guī)模數(shù)據(jù)的無監(jiān)督預(yù)訓(xùn)練技術(shù)在自然語言處理領(lǐng)域變得至關(guān)重要。百度發(fā)現(xiàn),之前的工作主要通過詞或句子的共現(xiàn)信號,構(gòu)建語言模型任務(wù)進行模型預(yù)訓(xùn)練。例如,BERT通過掩碼語言模型和下一句預(yù)測任務(wù)進行預(yù)訓(xùn)練。XLNet構(gòu)建了全排列的語言模型,并通過自回歸的方式進行預(yù)訓(xùn)練。

  然而,除了語言共現(xiàn)信息之外,語料中還包含詞法、語法、語義等更多有價值的信息。例如,人名、地名、機構(gòu)名等詞語概念知識,句子間順序和距離關(guān)系等結(jié)構(gòu)知識,文本語義相似度和語言邏輯關(guān)系等語義知識。如果能持續(xù)地學(xué)習(xí)各類任務(wù),模型的效果將會將入一個全新的階段。

  基于此,百度提出可持續(xù)學(xué)習(xí)語義理解框架ERNIE 2.0。該框架支持增量引入詞匯(lexical)、語法 (syntactic) 、語義 (semantic) 等3個層次的自定義預(yù)訓(xùn)練任務(wù),能夠全面捕捉訓(xùn)練語料中的詞法、語法、語義等潛在信息。這些任務(wù)通過多任務(wù)學(xué)習(xí)對模型進行訓(xùn)練更新,每當(dāng)引入新任務(wù)時,該框架可在學(xué)習(xí)該任務(wù)的同時,不遺忘之前學(xué)到過的信息。這也意味著,該框架可以通過持續(xù)構(gòu)建訓(xùn)練包含詞法、句法、語義等預(yù)訓(xùn)練任務(wù),持續(xù)提升模型效果。

  依托該框架,百度充分借助飛槳(PaddlePaddle)多機分布式訓(xùn)練優(yōu)勢,利用 79億tokens訓(xùn)練數(shù)據(jù)(約1/4的XLNet數(shù)據(jù))和64張V100 (約1/8的XLNet硬件算力)訓(xùn)練的ERNIE 2.0預(yù)訓(xùn)練模型不僅實現(xiàn)了SOTA效果,而且為開發(fā)人員定制自己的NLP模型提供了方案。目前,百度開源了ERNIE 2.0的fine-tuning代碼和英文預(yù)訓(xùn)練模型。

  百度研究團隊分別比較了中英文環(huán)境上的模型效果。英文上,ERNIE 2.0在自然語言理解數(shù)據(jù)集GLUE的7個任務(wù)上擊敗了BERT和XLNet。中文上,在包括閱讀理解、情感分析、問答等不同類型的9個數(shù)據(jù)集上超越了BERT并刷新了SOTA。

  如今,百度已在自然語言處理領(lǐng)域積累十余年,ERNIE的誕生除了在學(xué)術(shù)領(lǐng)域的價值,也具備相當(dāng)重要的產(chǎn)業(yè)價值,尤其是在目前國際貿(mào)易與科技背景下,擁有與谷歌比肩的語義理解框架意義非凡。ERNIE可以說是百度在自然語言處理方面的重要里程碑,未來百度還將持續(xù)深耕該領(lǐng)域,搭起人類與機器“暢所欲言”的溝通橋梁。

Copyright © 2012-2025 sd56.net.cn All Rights Reserved 中國電商物流網(wǎng) 版權(quán)所有