求问如何保证文本的特征向量维数一样大? 举报 理由 举报 取消 问题:目前在做微博聚类,对微博分词之后,采用Google开源的Word2Vec进行词向量的训练,每个词对应一个1*N维的向量,然后对微博进行关键 词提取,由于微博的长度不一致导致会产生每个微博提取出来的关键词个数不同,怎么才能保证每条微博由关键词词向量构成的特征向量维数一样呢?除了将每个词 向量加起来求平均还没有有其他方法? 2018年1月1日 1 条回复 830 次浏览 分析,挖掘,数据挖掘,文本
回复 ( 1 )
不把所有词向量加起来,光看向量长度也没有意义吧,一个词频向量是 1,2,3;一个词频向量是3,4,5,6。不统一成1,2,3,4,5,6,这两个词向量也没法比较.