10/10/2008

[圖資學]10/1 專題演講: Bibliographic Latent Semantic Index: No Blames on Users

專題演講:Bibliographic Latent Semantic Index: No Blames on Users
(書目隱性語義索引:使用者無錯 )
主講人::Prof. Xiangming Mu

今天所上邀請到穆教授來為我們演講
他的大陸音,一開始讓我很不習慣
必須要很仔細仔細聆聽
還沒開始演講時,我就覺得這位教授好厲害
可以英文講的好,可以在國外教課
他也喜歡到處去遊玩,增廣見聞
也介紹他所教的學校一些狀況
人看起來就很好相處

因為演講過程幾乎是英文,所以有一些東西不是很清楚
之後我又去找了一些資料來看,這樣才可以更知道書目隱性語意索引的意思

※ What is LSI?
是一種資訊檢索(IR)
而IR傳統的有:
全文掃描 full text scanning
倒排檔 inversion
簽名文件 signature file
聚類 clustering
IR新的:
自然語言處理NLP
神經網路(Neural network)
隱性語意索引

LSI是作索引最重要的特徵,從文字中找到重要的特徵
是一種以矩陣,向量方法表示字詞與文件之間的關聯
利用SVD(Singular value decomposition)奇異值分解

※使用者行為
很少人利用進階搜尋,布林邏輯,相關回饋
所以找到的資料常不是使用者所想要的

※ Lexica vs. Semantic
語彙和語義的關係
使用者在找尋資料時,常常打的字跟想的有不一樣
Because they know we are "thinking"
based on what we are "saying"
LSI是讓使用者更接近他所要找的內容

※書本是一個資料一個資料的,獨立無連結
如何找尋相關的聯結就很重要
Google上的link連結就是隱性

※LSI可提高正確率和回收率
但是需要很多的時間和建立標引項


※產品~是要讓人家弄不壞
研究~是要看有沒有新的想法
才是重要的


在演講內容中
有好幾張的PPT的圖,數字
是我不了解的**

沒有留言: