數據科學的關鍵技術包括數據存儲計算、數據治理、結構化數據分析、語音分析、視覺分析、文本分析和知識圖譜等方面。本書的重點是詳細介紹文本分析和知識圖譜方面的技術。文本分析技術主要包括文本預訓練模型、多語種文本分析、文本情感分析、文本機器翻譯、文本智能糾錯、NL2SQL問答以及ChatGPT大語言模型等。知識圖譜技術主要包括知識圖譜構建和知識圖譜問答等。本書將理論介紹和實踐相結合,詳細闡述各個技術主題的實現路線,並對應用於業界算法大賽中的技術方案和技巧進行源代碼解讀,幫助讀者深入理解技術原理。最後,本書還介紹了文本分析和知識圖譜技術在政務、公共安全、應急等多個行業中的智能應用實踐案例。
《數據科學技術:文本分析和知識圖譜》適合具備Python和機器學習技術基礎的高等院校學生、文本分析(或者自然語言處理)以及知識圖譜領域的算法工程師和研究機構的研究者閱讀,也適合數據科學和人工智能領域的研究者作為參考書。
蘇海波,清華大學電子工程系博士,副研究員,在文本分析、知識圖譜、大模型等人工智能方向擁有超過十年的研發實踐經驗。多篇SCI和EI論文發表於國外頂尖學術會議和期刊,獲得國家發明專利20余項,曾擔任科技部重點研發計劃子課題負責人。獲得2019年和2020年北京市科學技術進步獎,帶領團隊獲得多個業界知名算法技術評測的冠軍和亞軍。
劉譯璟,北京大學博士、正高級工程師,現任北京百分點科技集團股份有限公司CTO。在雲計算、大數據、人工智能等領域擁有15年研究和工作經驗。曾榮獲北京市科學技術獎等獎項,承擔國家科技部重點研發計劃項目2項,參與多個國家自然科學基金項目,多篇論文曾發表於國內外學術刊物。
易顯維,中國地質大學碩士,擁有12年AI算法研發崗相關研發管理經驗。在數據挖掘、OCR、文本分析等方面擁有豐富的實踐經驗,在眾多知名企事業單位舉辦的高水平機器學習算法競賽中累計獲獎20余次。
蘇萌,美國康奈爾大學博士,研究員,現任北京百分點科技集團股份有限公司董事長兼CEO、北京大學國家發展研究院實踐教授、北京大學光華管理學院實踐教授、北京市商會副會長、海淀區工商聯副主席、海淀區政協委員、國務院學位委員會全國應用統計專業“大數據專家委員會"委員等。曾執教於北京大學光華管理學院,任副系主任、博士生導師。
蘇海波
清華大學電子工程系博士,副研究員,百分點科技首席算法科學家。擅長人工智慧領域的自然語言理解、知識圖譜、深度學習、個性化推薦以及計算廣告技術,有豐富的研發實踐經驗;曾就職於新浪微博,負責廣告系統的算法效果優化,以及資訊流產品整體算法策略的設計及研發;現負責百分點大資料與人工智慧核心算法,帶領團隊研發智慧校對系統、智慧問答系統、知識圖譜系統等多款認知智慧產品,榮獲業界多項獎項,並獲得不錯的商業化落地效果。
多篇SCI和EI論文發表於 GLOBECOM、ICC、IEICE Transactions 等國外頂尖學術會議和期刊,獲得國家發明專利20余項,曾擔任科技部重點研發計畫子課題負責人。獲得2019年和2020年北京市科學技術進步獎,獲得2019年全球人工智慧與機器學習大會(AiCon)明星講師,指導團隊獲得2021 CCKS(全國知識圖譜與語義計算大會)知識圖譜問答大賽的季軍。