Я хочу использовать CountVectorizer
из Scikit
для создания матрицы, которая будет использоваться моделью LDA
. Но мой набор данных представляет собой последовательность закодированных терминов, например, в следующем виде:
(1-2252, 5-5588, 10-5478, 2-9632 ....)
Как я могу указать CountVectorizer
рассматривать каждую пару данных, т.е. 1-2252
как одно слово