HTML   发布时间:2022-04-14  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了如何将文本文本表示为文本分类的特征向量?大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
我有大约10,000个文本文档.

如何将它们表示为特征向量,以便我可以使用它们进行文本分类?

有没有自动执行特征向量表示的工具?

解决方法

最简单的方法是使用 bag of words型号.您将每个文档表示为无序的单词集合.

你可能想要删除标点符号,你可能想忽略大小写.您可能还想删除像’和’,’或’和”的常用单词.

为了将其适应为特征向量,您可以从样本中选择(例如)10,000个代表性单词,如果文档i包含单词j并且v [i,j] = 0,则二进制向量v [i,j] = 1.

大佬总结

以上是大佬教程为你收集整理的如何将文本文本表示为文本分类的特征向量?全部内容,希望文章能够帮你解决如何将文本文本表示为文本分类的特征向量?所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。