大佬教程收集整理的这篇文章主要介绍了为文本分析高效创建词法单元,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
我对文本分析比较陌生,我遇到了一些必须有 a)
名称和 b)
处理它的罐头程序,但我没有的话知道从哪里开始寻找。
这是一个提供上下文的示例管道。然而,我对这篇文章唯一感兴趣的部分是 @H_174_3@mutate 内部发生的事情。
w2 <- warnIE %>%
SELEct(ID,dislikes) %>%
unnest_tokens(input = dislikes,output = 'word') %>%
anti_join(no_negation) %>%
group_by(ID) %>%
summarize(dislikes = paste(word,collapse = ' ')) %>%
ungroup() %>%
mutate(dislikes = str_@R_262_9363@ce(dislikes,fixed('not '),'not_'),dislikes = str_@R_262_9363@ce(dislikes,fixed('bernIE sanders'),'bernIE_sanders'),fixed('joe bIDen'),'jb'),fixed('democratic party'),'dp'),fixed('green new deal'),'gnd'),fixed('donald trump'),'trump')) %>%
unnest_tokens(input = dislikes,output = 'bigram',token = 'ngrams',n = 2) %>%
count(bigram)
如您所见,我正在做的是创建确保多词词汇单位是可识别的词,unigrams -- 好吧,我还将“not”附加到它否定的任何内容上,这是一个略有不同的问题.
但我想知道经验丰富的文本分析师是做什么的?我知道您肯定会创建一个函数而不是让它占用管道中的多少行,但即使在一个函数中,单个调用 str_@R_262_9363@ce
(或 grep
如果更多你的风格)一定非常低效。
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)
以上是大佬教程为你收集整理的为文本分析高效创建词法单元全部内容,希望文章能够帮你解决为文本分析高效创建词法单元所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。