php怎么给词组分类,有没什么比较好方法

我有一个几万的词库,里面有各种类型的中文关键词,请问怎么用PHP把他们自动分类?PY也行,或者提供一个思路

比如词库片段:
股票相关类:

光一科技股票牛叉诊股
证券公司发展前景
经济危机时拿什么股票好
为什么买入的股票不能卖
公司如何通过股票挣钱的
股票每天浮动百分比在多少
基金从哪儿买
中原证券集成版官网
买入退市整理股票条件
股票的日k线图怎么看
哪家证券公司收费低

篮球相关类:

东京奥运会篮球门票
nba历史各位置排名
哈尔滨盛龙实业篮球
cba球员爱吃的食物
篮球朱松玮
篮球是把球投到对方篮里吗
首都体育馆篮球培训
九台农商银行篮球队排名
锡安隔扣詹姆斯
国家篮球教练等级

明确以下问题

  1. 词库的格式是什么?
  2. 分类的标准是什么?
  3. 你想要使用哪种算法进行分类?
    参考如下:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# 读取词库
df = pd.read_csv('keywords.csv')

# 分类标签
df['label'] = df['category'].apply(lambda x: 1 if x == 'type1' else 0)

# 特征提取
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['keyword'])

# 训练模型
clf = MultinomialNB()
clf.fit(X, df['label'])

# 预测新数据
new_data = ['新的关键字']
X_new = vectorizer.transform(new_data)
y_pred = clf.predict(X_new)

if y_pred[0] == 1:
    print('属于type1')
else:
    print('不属于type1')

这个代码框架使用了朴素贝叶斯算法进行分类