词袋模型
在自然語言處理和信息檢索裏,词袋模型(英語:Bag-of-words model)是一個簡化的表達模型。在此模型下,一段文本(比如一个句子或是一个文档)可以用一個装着这些词的袋子来表示,這種表示方式不考慮文法以及詞的順序。最近词袋模型也被應用在電腦視覺領域。[1]
词袋模型被廣泛應用在文件分類,詞語出現的頻率可以用來當作訓練分類器的特徵。
關於「词袋」這個用字的由來可追溯到澤里格·哈里斯於1954年在《Distributional Structure》的文章。[2]
範例编辑
下列文件可用词袋表示:
以下是兩個簡單的文件:
(1) John likes to watch movies. Mary likes movies too.
(2) John also likes to watch football games.
基於以上兩個文件,可以建構出下列清單:
[ "John", "likes", "to", "watch", "movies", "also", "football", "games", "Mary", "too"]
此處有10個不同的詞,使用清單的索引表示長度為10的向量:
(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
每個向量的索引內容對應到清單中詞出現的次數。
舉例來說,第一個向量(文件一)前兩個內容索引是1和2,第一個索引內容是"John"對應到清單第一個詞並且該值設定為1,因為"John"出現一次。
此向量表示法不會保存原始句子中詞的順序。該表示法有許多成功的應用,像是郵件過濾。
Term weighting编辑
在上述的範例,文件向量包含term頻率。
在信息檢索和文字分類常用不同方法量term權重。常見方法為tf-idf。
範例:垃圾郵件過濾编辑
分類一個郵件訊息,一個貝氏垃圾郵件分類假設訊息是一堆字並且隨機倒在兩堆袋子其中一個袋子裡,之後使用貝氏機率去決定哪個「袋子」(「垃圾郵件袋子」還是「正常郵件袋子」)是較有可能的。
参考文献编辑
- ^ Sivic, Josef. Efficient visual search of videos cast as text retrieval (PDF). IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE: 591–605. April 2009 [2016-03-06]. (原始内容存档 (PDF)于2016-02-22).
- ^ Harris, Zellig. Distributional Structure. Word. 1954, 10 (2/3): 146–62.
And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use
參見编辑
🔥 Top keywords: Baike: 首页Special:搜索胖猫跳江事件背着善宰跑九龍城寨之圍城逆天奇案2璩静淚之女王歌手2024Energy (組合)新生 (网络剧)习近平匈牙利邊佑錫劉俊謙 (香港)金智媛神耆小子塞尔维亚金秀賢 (男演員)母亲节猩球崛起:王國誕生九龍寨城馴鹿寶貝家族榮耀之繼承者Seventeen (組合)六四事件不夠善良的我們张维为楊佩潔TripleS支配物种庆余年郭葦昀洪若潭命案金惠奫2024年英雄联盟季中邀请赛春色寄情人BABYMONSTER笑看風雲乘風2024排球少年!!角色列表破墓徐巧芯中华人民共和国中華民國打天下2WIND BREAKER—防風少年—习明泽排球少年!!彭丽媛磁暴ILLIT贾斯汀·比伯逆天奇案BOYNEXTDOOR猿人爭霸戰:猩凶革命張書偉我的婆婆怎麼那麼可愛我獨自升級怪獸8號謝坤達IVE (組合)與鳳行關於我轉生變成史萊姆這檔事角色列表黃道十二宮福建號航空母艦虽然不是英雄葉乃文五月天張員瑛草榴社区張文傑2024年花蓮地震极光香緹·摩爾迷宮飯呂家愷搜查班長1958日本劉德華海莉·鮑德溫蕭景鴻越位 (足球)葬送的芙莉蓮周處除三害 (電影)毛泽东願榮光歸香港林峯周雨彤伍允龍羅毓儀香港Baike: 分類索引沒有秘密猩球崛起:終極決戰角質層唐振剛柯佳嬿文化大革命