蛋播视频一区,无码鲁丝一区二区,精品 久久 五月天,国产老熟女,五月草草在线观看,中文日韩欧美,情色一区二区三区,欧美日韩亚洲激情在线,亚洲制服在线香蕉

珞珈論語 |《基于NLP自然語義處理的機器學(xué)習(xí)算法》研討會論壇成功舉辦

武漢大學(xué)經(jīng)濟與管理學(xué)院
2021-12-03 16:40 瀏覽量: 2931
?智能總結(jié)

基于NLP自然語義處理的機器學(xué)習(xí)算法 近日,武漢大學(xué)經(jīng)濟與管理學(xué)院珞珈論語《基于NLP自然語義處理的機器學(xué)習(xí)算法》研討會在線上成功舉辦。 本次論壇由武漢大學(xué)2020級MEM商業(yè)/金融數(shù)據(jù)分析工程管理...

基于NLP自然語義處理的機器學(xué)習(xí)算法

近日,武漢大學(xué)經(jīng)濟與管理學(xué)院珞珈論語《基于NLP自然語義處理的機器學(xué)習(xí)算法》研討會在線上成功舉辦。

本次論壇由武漢大學(xué)2020級MEM商業(yè)/金融數(shù)據(jù)分析工程管理專業(yè)研究生尹俊主講,來自武漢大學(xué)2020級MEM商業(yè)/金融數(shù)據(jù)分析工程管理專業(yè)部分研究生參加了研討會。

論壇講了四個部分:

NLP是什么

NLP(Natural Language Processing)是人工智能(Al)的一個子領(lǐng)域。機器,人,動物都有自己的溝通語言,不同的語言之間無法直接溝通。

不同人類語?之間可以通過翻譯互相理解,?類和機器之間也可以通過“翻譯”的方式來直接交流。NLP 就是?類和機器之間溝通的橋梁。

人類的語言,文章文本是非結(jié)構(gòu)化數(shù)據(jù),NLP是通過算法處理讓機器能夠理解和處理非結(jié)構(gòu)化的人類語言和文字文章。

NLP處理的過程和算法介紹

2.1、文本預(yù)處理

文本分類的處理大致分為文本預(yù)處理、文本特征提取、分類模型構(gòu)建等。

英文文本預(yù)處理:英文文本的分詞處理相對簡單,語義單元可以是單詞,諺語,短語。

中文文本預(yù)處理:中文文本分詞,文本切分成構(gòu)成文本的基本語義單元:可以是句子、成語、短語、詞語或單個的字。

分詞方法:基于詞典的中文分詞,基于統(tǒng)計的中文分詞方法,基于理解的分詞方法:基于理解的分詞。

2.2、去除停用詞

停用詞包括一些連接詞、副詞、形容詞。去除這些詞可以改善機器學(xué)習(xí)效果:(在英文中例如:“for”、“with”、 “as”、“to” 、“the”、“of”等,在中文中例如:“的”、“得”、“啊”、“了”、“哦”、“因此”等)。

2.3、文本特征提取

1、詞袋模型(BOW):

思想:用無序的單詞序列來表達一段文字或者一個文檔,按照詞語出現(xiàn)的次數(shù)來表示文檔。

問題:(1)維度太大,語料庫太大,導(dǎo)致計算困難。(2)僅考慮詞語出現(xiàn)的次數(shù),語義信息未考慮

2、TF-IDF文本特征提取

TF-IDF 由兩部分組成:TF(Term frequency,詞頻),IDF(Inverse document frequency,逆文檔頻率)兩部分組成,TF 是詞頻,每一個文檔中出現(xiàn)的詞語的次數(shù)越多詞語的重要性更大。IDF是體現(xiàn)詞語在文檔間的重要性即如果某個詞語出現(xiàn)在極少數(shù)的文檔中,說明該詞語對于文檔的區(qū)別性強,對應(yīng)的特征值高,IDF值高。

3、特征選擇和分類器

NLP任務(wù)非常重要的一步就是特征提取(降維)。常用的word2vec主要是CBOW和skip-gram兩種模型。word2vec通過訓(xùn)練大量的語料最終用定維度的向量來表示每個詞語,詞語之間語義和語法相似度都可以通過向量的相似度來表示。

● 基于特征工程 + 分類算法 :機器學(xué)習(xí)算法中能用來分類的模型常見的有:聚類算法(kmeans,optics,DBSCAN),隨機森林模型(RF),樸素貝葉斯分類器(Naive Bayes),SVM分類模型,KNN分類模型模型,Logistic regression (邏輯回歸),梯度提升決策樹(GBDT)等。

●基于詞向量 + 神經(jīng)網(wǎng)絡(luò):

詞向量技術(shù)是將自然語言中的詞轉(zhuǎn)化為稠密的向量,語義相似的詞會有相似的向量表示。生成詞向量的方法從一開始基于統(tǒng)計學(xué)到基于神經(jīng)網(wǎng)絡(luò)的語言模型,比較經(jīng)典的語言模型:word2vec、FastText、TextCNN、TextRNN、RCNN、HAN、Bert(Google發(fā)表的BERT模型,目前為止,在NLP大賽中有最好表現(xiàn))。

NLP的4個典型應(yīng)用

輿情分析

輿情行業(yè)是個新興行業(yè),近年來發(fā)展特別迅猛,各級機構(gòu),企事業(yè)單位,KOL個人都非常關(guān)注網(wǎng)絡(luò)輿情。互聯(lián)網(wǎng)上有大量的文本信息,評論數(shù)據(jù)。通過NLP機器學(xué)習(xí)算法進行分析,可以快速了解和預(yù)測網(wǎng)絡(luò)輿論走向。電商網(wǎng)站評價的情感分析也是輿情分析的一個方向,對于指導(dǎo)產(chǎn)品更新迭代具有關(guān)鍵性作用。

?指令

目前計算機已經(jīng)可以理解人的簡單語音指令。比如汽車?yán)锩娴恼Z音導(dǎo)航,百度智能音響指令。機器識別人的復(fù)雜語音指令,通過人的語音識別人的情緒,識別人的諷刺反話語義將成為可能。未來語音搜索將應(yīng)用更加廣泛。

機器人客服

人的意圖被識別以后,自然的對話就可以借此實現(xiàn)了。人類意圖識別本質(zhì)上也是一個分類問題,意圖識別工作最大的難點其實是在于標(biāo)注數(shù)據(jù)的獲取。目前標(biāo)注數(shù)據(jù)的獲取主要是專門的數(shù)據(jù)標(biāo)注團隊對數(shù)據(jù)進行標(biāo)注,未來通過半監(jiān)督的方式自動生成標(biāo)注數(shù)據(jù)的方式將越來越多。機器人客服上線之后有很多人用,得到了有很多人的反饋,在與客戶互動中,不斷學(xué)習(xí)并更新迭代。

機器翻譯

目前Google 翻譯基本比較準(zhǔn)確了。雖然在專業(yè)技術(shù)論文翻譯,高端商務(wù)活動方面機器翻譯暫無法完全準(zhǔn)確,但是可以作為非常給力的輔助。隨著技術(shù)的發(fā)展,機器翻譯的應(yīng)用也將更加廣闊。

NLP可以應(yīng)用在各行各業(yè)

只要有文本的地方,就有NLP技術(shù)的用武之地。當(dāng)前社會以文本形式積累了海量數(shù)據(jù),使得NLP不僅僅是一種計算機技術(shù),而是一個可以融合應(yīng)用在全部社會科學(xué)和自然科學(xué)領(lǐng)域的技術(shù)。

金融領(lǐng)域:上市公司財報,金融新聞,股吧的評論數(shù)據(jù)的提取和分析。

工商領(lǐng)域:利用工商總局公開信息,數(shù)據(jù)提取和分析相關(guān)公司信息。

法律領(lǐng)域:裁判文書網(wǎng)上海量的裁判文書的讀取和分析。

數(shù)字健康領(lǐng)域:病例數(shù)據(jù),體檢數(shù)據(jù)的讀取和分析。

制藥行業(yè):從海量研究文檔中提取信息,以查證過去的實驗結(jié)果。

NLP自然語義處理是?工智能領(lǐng)域皇冠上的明珠。NLP也是人工智能未來應(yīng)用最為廣泛的領(lǐng)域之一。NLP自然語言處理未來將應(yīng)用在社會生活中的方方面面,提高社會生產(chǎn)和協(xié)作效率,造福我們的生活。

《珞珈論語》理事會招募會員+志愿者15名,有意向同學(xué)可以聯(lián)系,理事會會長尹俊的郵箱:yinjun20@whu.edu.cn

珞珈論語論壇(MEM商業(yè)數(shù)據(jù)分析方向)往期推薦:(點擊下方文字即可閱讀)

第一期:2021/07/10 倪閱其《大數(shù)據(jù)透視房地產(chǎn)》

第二期:2021/07/25 王豐《漫談大數(shù)據(jù)》

第三期:2021/08/01陳炯昊《大數(shù)據(jù)驅(qū)動的行業(yè)案例探討》

第四期:2021/08/07陳景《車聯(lián)網(wǎng)的發(fā)展現(xiàn)狀及大數(shù)據(jù)應(yīng)用》

第五期:2021/08/21傅駿《商業(yè)數(shù)據(jù)在供應(yīng)鏈金融中的實踐分享》

第六期:2021/08/28《從〈理想之城〉看大數(shù)據(jù)時代的工程造價

第七期:2021/09/04 孫濤《智慧城市基于語義智能的多數(shù)據(jù)融合治理》

第八期:2021/09/05 陸泉(教授 博導(dǎo))《數(shù)字賦能智慧健康》

第九期:2021/09/08 劉波《數(shù)據(jù)時代的個體價值》

第十期:2021/09/11 辯論賽《大數(shù)據(jù)時代讓人更自由還是更不自由?》第十一期:2021/10/18 劉博(同濟醫(yī)院)《大數(shù)據(jù)背景下腫瘤的預(yù)防和診斷》第十二期:2021/10/25 王中興《數(shù)據(jù)分析與品牌電商》第十三期:2021/10/30 胡桂玲《大數(shù)據(jù)提升國際物流運營效率》第十四期:2021/11/08 粟四維(英國利物浦大學(xué)博導(dǎo))《讓人生更精彩的旅行體驗》第十五期:2021/11/10 郭峰(上海財經(jīng)大學(xué) 副教授)《池魚之殃:上市公司社交媒體聯(lián)結(jié)與股價溢出效應(yīng)》第十六期:2021/11/13 賈鵬飛《我的武漢大學(xué)研究生求學(xué)經(jīng)歷》

大數(shù)據(jù)論壇郵箱:yinjun20@whu.edu.cn

-END-

圖、文 I 20級MEM尹俊

編輯 I 盛貴

MBA/EMBA/MPAcc/MEM招生

咨詢電話: 027-68755136 , 027-68755129;

咨詢郵箱:mba@whu.edu.cn;

官方網(wǎng)站:http://ems.whu.edu.cn/

聯(lián)系人:張老師,周老師,段老師

啟思明德 謀道勵行

內(nèi)容編輯:凌墨

(本文轉(zhuǎn)載自 ,如有侵權(quán)請電話聯(lián)系13810995524)

* 文章為作者獨立觀點,不代表MBAChina立場。采編部郵箱:news@mbachina.com,歡迎交流與合作。

收藏
訂閱

備考交流

  • 【MBAChina 官方社群矩陣】
  • 涵蓋 199管理類聯(lián)考備考 · 復(fù)試調(diào)劑 · 博士申請 · 中外合辦學(xué) 四大板塊。
  • ??2027 MBA/MPA/MEM/MPAcc /EMBA聯(lián)考備考群
  • ??2026 管理類聯(lián)考復(fù)試調(diào)劑群
  • ??博士項目交流群
  • ??中外合作辦學(xué)項目群
  • ?? 添加微信:MBAChina001
  • 備注【報考項目】,邀請您加入專屬交流群
免費領(lǐng)取價值5000元MBA備考學(xué)習(xí)包 購買管理類聯(lián)考MBA/MPAcc/MEM/MPA大綱配套新教材

掃碼關(guān)注我們

  • 獲取報考資訊
  • 了解院?;顒?/li>
  • 學(xué)習(xí)備考干貨
  • 研究上岸攻略

最新動態(tài)

    MBAChina 掃碼關(guān)注

    掃碼關(guān)注 MBAChina

    EMBA 掃碼關(guān)注

    掃碼關(guān)注
    EMBA

    潮州市| 左云县| 淳化县| 镇平县| 怀仁县| 界首市| 都江堰市| 济阳县| 和平区| 金昌市| 桑日县| 郧西县| 高密市| 龙泉市| 周至县| 沛县| 宁南县| 广安市| 突泉县| 建瓯市| 来宾市| 石渠县| 延安市| 彭阳县| 读书| 杨浦区| 定南县| 彰武县| 迭部县| 惠水县| 南平市| 达尔| 伊川县| 盐城市| 自治县| 财经| 栖霞市| 罗平县| 雷山县| 沅陵县| 灵璧县|