举报文档 收藏
/11
帮帮创意 > 其他文档 > 中文及英文的文本挖掘——r语言.doc

中文及英文的文本挖掘——r语言.doc

中文及英文的文本挖掘——r语言.doc
内容要点:
中文及英文的文本挖掘——r语言,中文及英文的文本挖掘——R 语言所需要的包 tm(text mining) rJava,Snowball,zoo,XML,slam,Rz, RWeka,matlab1 文本挖掘概要文本挖掘是从大量的文本数据中抽取隐含的,求和的,可能有用的信息。通过文本挖掘实现?Associate:关联分析,根据同时出现的频率找出关联规则?Cluster:将相似的文档(词条)进行聚类?Categorize:将文本划分到预先定义的类别里?文档自动摘要:利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯描述性短文。文本挖掘的运用主要有如下几方面? 智能信息检索同义词,简称词,异形词,同音字、赘字移除? 网络内容安全内容监控内容过滤? 内容管理自动分类检测和追踪? 市场监测口碑监测竞争情报系统市场分析2 英文文本挖掘实例实现多个英文文档的聚类分析2.1 文本预处理2.1.1读取文本内容#取得 tm内部文件 texts/crude/下的文件目录。>library("tm",lib.loc="d:/ProgramFiles/R/R-3.0.3/library")> vignette("tm")#获取相关帮助文档的内容,pdf 格式reut inputtest query tm_filter(reuters, FUN = sFilter, query)找到由于语料库已经将大小写转换以及将介词类删除所以对应的语句只是特有单词的组合。2.1.4生成词频矩阵并查看内容dtm inspect(dtm[10:15,110:120])A document-term matrix (6 documents, 11 terms)Non-/sparse entries: 6/60Sparsity : 91%Maximal term length: 9 Weighting : term frequency (tf)TermsDocs activity. add added added. address addressed adherence adhering advantage advisers agency[1,] 0 0 0 0 0 0 1 1 0 0 2[2,] 0 0 0 0 0 0 0 0 0 0 0[3,] 0 0 0 0 0 0 0 0 0 0 1[4,] 0 0 0 0 0 0 0 1 0 0 2[5,] 0 0 0 0 0 0 0 0 0 0 0[6,] 0 0 0 0 0 0 0 0 0 0 02.1.5查看含有特定词的文档若要考察多个文档特定词汇的出现频率或以手工生成字典,并将其作为生成

发表评论

暂无评论,赶快抢占沙发吧。

13****9

咨询 关注

扫描手机访问

反馈 足迹 顶部