大佬教程收集整理的这篇文章主要介绍了语言无关 – 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本?,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
我想使用马尔可夫模型(看看哪些单词/字母跟随哪些)来弄清楚有多少人使用过这个论坛,哪些帖子是由同一个人写的.为了大大简化,也许一个人倾向于说“他是”,而另一个人倾向于说“他是” – 我说的是模型与这种基本逻辑一起工作.
请注意数据有一些明显的问题:有些帖子可能很短(一个单词答案).它们可能是重复的(引用彼此或使用流行的论坛流行语).个别文本不是很长.
有人可能会怀疑一个人连续发帖很少,或者很可能人们更有可能在他们@R_696_11353@的帖子中发帖.利用这个是可选的.
我们假设帖子是明文,没有标记,论坛上的每个人都使用英语.
我想获得所有文本T_i的距离矩阵,使得D_ij是文本T_i和文本T_j由同一作者基于单词/字符模式写入的概率.我打算使用这个距离矩阵来聚类文本,并提出诸如“撰写本文的人撰写了哪些其他文本?”之类的问题.
我将如何实际实现这一目标?我需要隐藏的MM吗?如果是这样,隐藏的状态是什么?我理解如何训练文本上的MM,然后生成类似的文本(例如,在仙境中生成爱丽丝)但是在我训练频率树之后,如何用它来检查文本以获得它生成的概率那棵树?在构建树时,我应该看一下字母或单词吗?
以上是大佬教程为你收集整理的语言无关 – 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本?全部内容,希望文章能够帮你解决语言无关 – 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本?所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。