大佬教程收集整理的这篇文章主要介绍了sklearn Count vectorizer - 如何在以后保存、加载和用于转换单个文本,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
像往常一样,我正在努力将基本原理概念化。我已经在数据集上训练和测试了许多 1v1 估计器。训练数据是每个估计器的句子中所有单词的 count_vectorizer 和 tfIDf 分数总和的组合(每个估计器用于不同的分类器,每个分类器都有一个专用的词典)。 因此,count_vectorizer 值保持不变,并将其连接到与每个估计器的给定类相关的分数数组。
下面是一个玩具示例:
cv = CountVectorizer(min_df=2,ngram_range=(1,3),stop_words=stopwords)
count_vector = cv.fit_transform(serIEs_of_Train_texts.toList())
test_vector = cv.transform(serIEs_of_test_texts.toList())
df_Train_scores = List(zip(df_Train['score_1'],df_Train['score_2'],df_Train['score_3']
))
Training_array = np.array(df_Train_List)
test_array = np.array(df_test_List)
X_Train = np.hstack([count_vector.todense(),Training_array])
X_test = np.hstack([test_vector.todense(),test_array])
svm_var = linearSVC(tol=1e-5,max_iter=1500)
for class in groups:
svm_var.fit(X_Train,df_Train[class].toList())
preDictions= List(svm_var.preDict(X_test))
我有两个问题:
我通常解决这个问题的方法是 1) 阅读文档; 2)谷歌搜索; 3)尝试我能想到的一切。当我达到 3 级时,这是一个痛苦而漫长的过程,我尝试将我认为可行的所有可能的组合都进行了尝试,但不知道我应该如何思考问题。
谁能帮我理解一下?
持久化和重用列车模型的最简单方法是将其保存为一个对象。 scikit-learn 中的 Pipeline
允许您将预处理步骤和模型组合到对象中。创建管道后,您可以将它与您的训练集一起 fit()
,然后使用 joblib
保存它,如本玩具示例所示:
import joblib
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
import pandas as pd
df = pd.DataFrame({
'A': ['abcde','abcde','xyz','xyz'],'B': [0,1,1]}
)
X = df['A']
y = df['B']
model = Pipeline([('countVectorizer',CountVectorizer()),('svc',LinearSVC())])
model.fit(X,y)
joblib.dump(model,'model.joblib')
model2 = joblib.load('model.joblib')
model2.preDict(['abde'])
以上是大佬教程为你收集整理的sklearn Count vectorizer - 如何在以后保存、加载和用于转换单个文本全部内容,希望文章能够帮你解决sklearn Count vectorizer - 如何在以后保存、加载和用于转换单个文本所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。