Подготовьте набор данных для тематических моделей LDA с помощью CountVectorizer.

avatar
Adham Enaya
8 апреля 2018 в 07:15
425
1
0

Я хочу использовать CountVectorizerиз Scikitдля создания матрицы, которая будет использоваться моделью LDA. Но мой набор данных представляет собой последовательность закодированных терминов, например, в следующем виде:

(1-2252, 5-5588, 10-5478, 2-9632 ....)

Как я могу указать CountVectorizer рассматривать каждую пару данных, т.е. 1-2252 как одно слово

Источник

Ответы (1)

avatar
Adham Enaya
8 апреля 2018 в 07:55
0

К счастью, я нашел полезный блог, который дал мне ответ.

Поскольку я использовал следующий метод для токенизации текста:

import re
REGEX = re.compile(r",\s*")
def tokenize(text):
    return [tok.strip().lower() for tok in REGEX.split(text)]

И передайте токенизатор CountVectorizer следующим образом:

tf = CountVectorizer(tokenizer=tokenize)