珞珈論語 |《基于NLP自然語義處理的機器學(xué)習(xí)算法》研討會論壇成功舉辦

?智能總結(jié)基于NLP自然語義處理的機器學(xué)習(xí)算法 近日,武漢大學(xué)經(jīng)濟與管理學(xué)院珞珈論語《基于NLP自然語義處理的機器學(xué)習(xí)算法》研討會在線上成功舉辦。 本次論壇由武漢大學(xué)2020級MEM商業(yè)/金融數(shù)據(jù)分析工程管理...
基于NLP自然語義處理的機器學(xué)習(xí)算法
近日,武漢大學(xué)經(jīng)濟與管理學(xué)院珞珈論語《基于NLP自然語義處理的機器學(xué)習(xí)算法》研討會在線上成功舉辦。

本次論壇由武漢大學(xué)2020級MEM商業(yè)/金融數(shù)據(jù)分析工程管理專業(yè)研究生尹俊主講,來自武漢大學(xué)2020級MEM商業(yè)/金融數(shù)據(jù)分析工程管理專業(yè)部分研究生參加了研討會。
論壇講了四個部分:
NLP是什么
NLP(Natural Language Processing)是人工智能(Al)的一個子領(lǐng)域。機器,人,動物都有自己的溝通語言,不同的語言之間無法直接溝通。

不同人類語?之間可以通過翻譯互相理解,?類和機器之間也可以通過“翻譯”的方式來直接交流。NLP 就是?類和機器之間溝通的橋梁。

人類的語言,文章文本是非結(jié)構(gòu)化數(shù)據(jù),NLP是通過算法處理讓機器能夠理解和處理非結(jié)構(gòu)化的人類語言和文字文章。
NLP處理的過程和算法介紹
2.1、文本預(yù)處理
文本分類的處理大致分為文本預(yù)處理、文本特征提取、分類模型構(gòu)建等。

英文文本預(yù)處理:英文文本的分詞處理相對簡單,語義單元可以是單詞,諺語,短語。
中文文本預(yù)處理:中文文本分詞,文本切分成構(gòu)成文本的基本語義單元:可以是句子、成語、短語、詞語或單個的字。
分詞方法:基于詞典的中文分詞,基于統(tǒng)計的中文分詞方法,基于理解的分詞方法:基于理解的分詞。
2.2、去除停用詞
停用詞包括一些連接詞、副詞、形容詞。去除這些詞可以改善機器學(xué)習(xí)效果:(在英文中例如:“for”、“with”、 “as”、“to” 、“the”、“of”等,在中文中例如:“的”、“得”、“啊”、“了”、“哦”、“因此”等)。
2.3、文本特征提取
1、詞袋模型(BOW):
思想:用無序的單詞序列來表達一段文字或者一個文檔,按照詞語出現(xiàn)的次數(shù)來表示文檔。
問題:(1)維度太大,語料庫太大,導(dǎo)致計算困難。(2)僅考慮詞語出現(xiàn)的次數(shù),語義信息未考慮
2、TF-IDF文本特征提取
TF-IDF 由兩部分組成:TF(Term frequency,詞頻),IDF(Inverse document frequency,逆文檔頻率)兩部分組成,TF 是詞頻,每一個文檔中出現(xiàn)的詞語的次數(shù)越多詞語的重要性更大。IDF是體現(xiàn)詞語在文檔間的重要性即如果某個詞語出現(xiàn)在極少數(shù)的文檔中,說明該詞語對于文檔的區(qū)別性強,對應(yīng)的特征值高,IDF值高。
3、特征選擇和分類器
NLP任務(wù)非常重要的一步就是特征提取(降維)。常用的word2vec主要是CBOW和skip-gram兩種模型。word2vec通過訓(xùn)練大量的語料最終用定維度的向量來表示每個詞語,詞語之間語義和語法相似度都可以通過向量的相似度來表示。
● 基于特征工程 + 分類算法 :機器學(xué)習(xí)算法中能用來分類的模型常見的有:聚類算法(kmeans,optics,DBSCAN),隨機森林模型(RF),樸素貝葉斯分類器(Naive Bayes),SVM分類模型,KNN分類模型模型,Logistic regression (邏輯回歸),梯度提升決策樹(GBDT)等。
●基于詞向量 + 神經(jīng)網(wǎng)絡(luò):
詞向量技術(shù)是將自然語言中的詞轉(zhuǎn)化為稠密的向量,語義相似的詞會有相似的向量表示。生成詞向量的方法從一開始基于統(tǒng)計學(xué)到基于神經(jīng)網(wǎng)絡(luò)的語言模型,比較經(jīng)典的語言模型:word2vec、FastText、TextCNN、TextRNN、RCNN、HAN、Bert(Google發(fā)表的BERT模型,目前為止,在NLP大賽中有最好表現(xiàn))。
NLP的4個典型應(yīng)用

輿情分析
輿情行業(yè)是個新興行業(yè),近年來發(fā)展特別迅猛,各級機構(gòu),企事業(yè)單位,KOL個人都非常關(guān)注網(wǎng)絡(luò)輿情。互聯(lián)網(wǎng)上有大量的文本信息,評論數(shù)據(jù)。通過NLP機器學(xué)習(xí)算法進行分析,可以快速了解和預(yù)測網(wǎng)絡(luò)輿論走向。電商網(wǎng)站評價的情感分析也是輿情分析的一個方向,對于指導(dǎo)產(chǎn)品更新迭代具有關(guān)鍵性作用。
語?指令
目前計算機已經(jīng)可以理解人的簡單語音指令。比如汽車?yán)锩娴恼Z音導(dǎo)航,百度智能音響指令。機器識別人的復(fù)雜語音指令,通過人的語音識別人的情緒,識別人的諷刺反話語義將成為可能。未來語音搜索將應(yīng)用更加廣泛。
機器人客服
人的意圖被識別以后,自然的對話就可以借此實現(xiàn)了。人類意圖識別本質(zhì)上也是一個分類問題,意圖識別工作最大的難點其實是在于標(biāo)注數(shù)據(jù)的獲取。目前標(biāo)注數(shù)據(jù)的獲取主要是專門的數(shù)據(jù)標(biāo)注團隊對數(shù)據(jù)進行標(biāo)注,未來通過半監(jiān)督的方式自動生成標(biāo)注數(shù)據(jù)的方式將越來越多。機器人客服上線之后有很多人用,得到了有很多人的反饋,在與客戶互動中,不斷學(xué)習(xí)并更新迭代。
機器翻譯
目前Google 翻譯基本比較準(zhǔn)確了。雖然在專業(yè)技術(shù)論文翻譯,高端商務(wù)活動方面機器翻譯暫無法完全準(zhǔn)確,但是可以作為非常給力的輔助。隨著技術(shù)的發(fā)展,機器翻譯的應(yīng)用也將更加廣闊。
NLP可以應(yīng)用在各行各業(yè)
只要有文本的地方,就有NLP技術(shù)的用武之地。當(dāng)前社會以文本形式積累了海量數(shù)據(jù),使得NLP不僅僅是一種計算機技術(shù),而是一個可以融合應(yīng)用在全部社會科學(xué)和自然科學(xué)領(lǐng)域的技術(shù)。
金融領(lǐng)域:上市公司財報,金融新聞,股吧的評論數(shù)據(jù)的提取和分析。
工商領(lǐng)域:利用工商總局公開信息,數(shù)據(jù)提取和分析相關(guān)公司信息。
法律領(lǐng)域:裁判文書網(wǎng)上海量的裁判文書的讀取和分析。
數(shù)字健康領(lǐng)域:病例數(shù)據(jù),體檢數(shù)據(jù)的讀取和分析。
制藥行業(yè):從海量研究文檔中提取信息,以查證過去的實驗結(jié)果。

NLP自然語義處理是?工智能領(lǐng)域皇冠上的明珠。NLP也是人工智能未來應(yīng)用最為廣泛的領(lǐng)域之一。NLP自然語言處理未來將應(yīng)用在社會生活中的方方面面,提高社會生產(chǎn)和協(xié)作效率,造福我們的生活。
《珞珈論語》理事會招募會員+志愿者15名,有意向同學(xué)可以聯(lián)系,理事會會長尹俊的郵箱:yinjun20@whu.edu.cn
珞珈論語論壇(MEM商業(yè)數(shù)據(jù)分析方向)往期推薦:(點擊下方文字即可閱讀)
第一期:2021/07/10 倪閱其《大數(shù)據(jù)透視房地產(chǎn)》
第二期:2021/07/25 王豐《漫談大數(shù)據(jù)》
第三期:2021/08/01陳炯昊《大數(shù)據(jù)驅(qū)動的行業(yè)案例探討》
第四期:2021/08/07陳景《車聯(lián)網(wǎng)的發(fā)展現(xiàn)狀及大數(shù)據(jù)應(yīng)用》
第五期:2021/08/21傅駿《商業(yè)數(shù)據(jù)在供應(yīng)鏈金融中的實踐分享》
第六期:2021/08/28《從〈理想之城〉看大數(shù)據(jù)時代的工程造價
第七期:2021/09/04 孫濤《智慧城市基于語義智能的多數(shù)據(jù)融合治理》
第八期:2021/09/05 陸泉(教授 博導(dǎo))《數(shù)字賦能智慧健康》
第九期:2021/09/08 劉波《數(shù)據(jù)時代的個體價值》
第十期:2021/09/11 辯論賽《大數(shù)據(jù)時代讓人更自由還是更不自由?》第十一期:2021/10/18 劉博(同濟醫(yī)院)《大數(shù)據(jù)背景下腫瘤的預(yù)防和診斷》第十二期:2021/10/25 王中興《數(shù)據(jù)分析與品牌電商》第十三期:2021/10/30 胡桂玲《大數(shù)據(jù)提升國際物流運營效率》第十四期:2021/11/08 粟四維(英國利物浦大學(xué)博導(dǎo))《讓人生更精彩的旅行體驗》第十五期:2021/11/10 郭峰(上海財經(jīng)大學(xué) 副教授)《池魚之殃:上市公司社交媒體聯(lián)結(jié)與股價溢出效應(yīng)》第十六期:2021/11/13 賈鵬飛《我的武漢大學(xué)研究生求學(xué)經(jīng)歷》 大數(shù)據(jù)論壇郵箱:yinjun20@whu.edu.cn-END-
圖、文 I 20級MEM尹俊
編輯 I 盛貴

MBA/EMBA/MPAcc/MEM招生
咨詢電話: 027-68755136 , 027-68755129;
咨詢郵箱:mba@whu.edu.cn;
官方網(wǎng)站:http://ems.whu.edu.cn/
聯(lián)系人:張老師,周老師,段老師
啟思明德 謀道勵行
(本文轉(zhuǎn)載自 ,如有侵權(quán)請電話聯(lián)系13810995524)
* 文章為作者獨立觀點,不代表MBAChina立場。采編部郵箱:news@mbachina.com,歡迎交流與合作。
備考交流
- 【MBAChina 官方社群矩陣】
- 涵蓋 199管理類聯(lián)考備考 · 復(fù)試調(diào)劑 · 博士申請 · 中外合辦學(xué) 四大板塊。
- ??2027 MBA/MPA/MEM/MPAcc /EMBA聯(lián)考備考群
- ??2026 管理類聯(lián)考復(fù)試調(diào)劑群
- ??博士項目交流群
- ??中外合作辦學(xué)項目群
- ?? 添加微信:MBAChina001
- 備注【報考項目】,邀請您加入專屬交流群

掃碼關(guān)注我們
- 獲取報考資訊
- 了解院?;顒?/li>
- 學(xué)習(xí)備考干貨
- 研究上岸攻略
最新動態(tài)
活動日歷
- 01月
- 02月
- 03月
- 04月
- 05月
- 06月
- 07月
- 08月
- 09月
- 10月
- 11月
- 12月
- 06/01 6月1日直播預(yù)告:香港理工大學(xué)SPEED學(xué)院_全新碩士課程專場!26fall入學(xué)!
- 06/03 6月3日活動報名 | 北大光華-凱洛格國際EMBA項目Coffee Chat@上海
- 06/03 【活動報名】中國科學(xué)技術(shù)大學(xué)科技商學(xué)院專題講座重磅開啟!
- 06/04 6月4日 席位鎖定中 | 香港中文大學(xué)(深圳)MBM2027級招生說明會
- 06/06 長春理工大學(xué)2027級工商管理碩士(MBA)考生見面會
- 06/06 重磅!上財?shù)嗡呓?027級全日制金融碩士“新興金融探索日”活動通知
- 06/06 深圳場 | 清華-康奈爾雙學(xué)位金融MBA公開課暨2027級招生說明會報名中!
- 06/06 上海 | 紫荊課堂暨2027級清華MBA招生咨詢會報名開啟!
- 06/06 浪潮已至|南科大科創(chuàng)MBA 2027級招生啟動大會來了
- 06/06 活動報名 | “迅策科技”校友企業(yè)參訪暨清華五道口金融EMBA深圳招生說明會
熱門資訊
掃碼關(guān)注 MBAChina
掃碼關(guān)注
EMBA







