Вопросы, помеченные тегом «nlp»
Обработка естественного языка (NLP) - это подполе искусственного интеллекта, которое включает в себя преобразование или извлечение полезной информации из данных на естественном языке. Методы включают машинное обучение и подходы, основанные на правилах.
9 августа 2021 в 06:38
52
0
Почему больший NN Transformer менее точен, чем меньший?
Когда я обучаю модель Transformer (TF, Keras) с 4 слоями и размером встраивания 128, модель обучается очень хорошо и достигает точности 99,80 с обучающими данными. Но когда я пытаюсь увеличить параметры модели, увеличивая слои (до 6) и увеличивая размер встраивания (до...
9 августа 2021 в 06:35
137
0
ViVIT PyTorch: RuntimeError: многоцелевой режим не поддерживается в /pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu:15
Я пытаюсь запустить код Video Vision Transformer (ViViT) с моим набором данных, но получаю сообщение об ошибке, используя CrossEntropyLoss из Pytorch в качестве функции потери.
У меня есть 6 классов:
['Run', 'Sit', 'Walk', 'Wave', 'Sit', 'Stand']
Оптимизатор
optimizer...
9 августа 2021 в 00:10
60
1
Предел элементов обучения AutoML
GCP AutoML Natural Language , максимальное количество обучающих элементов – 1 000 000. Мне нужно будет увеличить это намного больше, чем 1 миллион. Как мне это сделать? Это делается через поддержку GCP. Есть ли другой вариант? Я не вижу этого в квоте редактирования.
8 августа 2021 в 23:10
225
1
Оценка сходства для фильтрации столбцов данных в пандах
У меня есть кадр данных pandas, df со следующими именами столбцов
columns = ['Baillie Gifford Positive Change Fund B Accumulation',
'Stewart Investors Worldwide Select Fund Class B (accumulation) Gbp',
'Stewart Investors Worldwide Select Fund Class A (accumulation)...
8 августа 2021 в 21:44
103
0
Как оценить предварительно обученную модель NER в тексте, специфичном для моей предметной области, со строфой (для coreNLP)?
Я пытаюсь получить баллы F1 для предварительно обученной английской модели в моем конкретном текстовом домене без какого-либо обучения.
В документах упоминается следующая команда:
python -m stanza.utils.training.run_ete ${corpus} --score_${split}
Однако, поскольку я...
8 августа 2021 в 21:03
175
0
Конфиг для pytesseract (язык урду)
У меня проблемы с pytesseract. С этой строкой кода pytesseract плохо работает с языком урду:
text = pytesseract.image_to_string(img, lang="urd")
Какую конфигурацию следует использовать для повышения точности языка урду? И какую предварительную обработку я могу...
8 августа 2021 в 19:45
92
1
Невозможно установить библиотеку python, pycontradictions, в среде anaconda (ноутбуки jupyter)
Я работаю над проектом НЛП и пытаюсь загрузить pycontradictions для работы с отрицаниями в тексте. Ex "не было" -> "не было". Однако, когда я пытаюсь установить с помощью conda install pycontractions, я получаю следующую ошибку:
Solving environment: failed with...
8 августа 2021 в 15:46
93
1
Красивый суп, XML в кадр данных Pandas
Я новичок в машинном обучении и изучении базы данных для моего проекта nlp. здесь я получил данные из http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html. и я пытаюсь создать кадр данных pd, в котором я хочу проанализировать данные xml, я также хочу добавить...
8 августа 2021 в 15:03
99
0
Как визуализировать 20 самых частых слов для каждого ярлыка
У меня есть фрейм данных, содержащий столбец с названием твиты и еще один столбец с соответствующими метками (либо 1, либо 0). Я новичок в анализе настроений, и мне было интересно, есть ли способ просмотреть 20 наиболее распространенных слов для каждого ярлыка. Я нашел...
8 августа 2021 в 11:38
275
1
Как получить word2vec из предварительно обученной модели Google
Я хочу получить векторное представление слов.
Я попытался использовать API GENSIM, но получил ту же ошибку, что и здесь (для Python 3.6):
ValueError при загрузке набора данных gensim
Как лучше всего получить вектор из предварительно обученной модели?
8 августа 2021 в 07:44
51
1
Как получить доступ к приложению beanstalk venv?
на прошлой неделе я пытался загрузить приложение flask с помощью AWS Beanstalk.
Основной проблемой для меня была загрузка очень тяжелой библиотеки как части пакета (для загрузки кода пакета существует ограничение в 500 МБ).
Вместо этого я попытался использовать файл...
7 августа 2021 в 20:39
28
1
Обновить ячейки фрейма данных с вхождениями слов, указанными в словаре
У меня есть словарь уникальных слов из корпуса. с вхождениями текста следующим образом:
dict_unique_words = {'word1':3, 'word2':5, 'word3':9}
Слово в каждом из трех утверждений встречается следующим образом:
word_freq_statement1 = {'word2':1, 'word3'...
7 августа 2021 в 17:39
317
2
Python Regex: как выбрать строки между двумя шаблонами
Рассмотрите типичные данные живого чата следующим образом:
Peter (08:16):
Hi
What's up?
;-D
Anji Juo (09:13):
Hey, I'm using WhatsApp!
Peter (11:17):
Could you please tell me where is the feedback?
Anji Juo (19:13):
I don't know where it is.
Anji Juo (19:14):...
7 августа 2021 в 17:11
45
0
Почему NLTK.Tree.Fromstring неверно интерпретирует части моего дерева, перемещая их на передний план? Нужна помощь
Эта часть кода получает существующее дерево синтаксического анализа из набора данных, создает представление nltk.tree и использует pretty_print для отображения дерева в командной строке.
Обозначение — это обозначение скобок, которое использует NLTK:
(TOP(S(NP(NP Новая...
7 августа 2021 в 16:18
23
0
Создание графа знаний с экономическими терминами в качестве семантики
У меня есть следующий текст, и я хочу извлечь триплеты, чтобы создать график знаний (KG).
text = “Dr. Gao concluded that a long-term systematic migrant worker shortage began to appear in the Chinese
migrant labor market around 2005, which greatly increased the growth...
7 августа 2021 в 15:59
48
1
два слова как одна лемма в питоне
Я хочу создать облако слов на основе моего текста. Я использую следующий код:
import wordcloud
cloud = WordCloud(background_color='white').generate(str(mytext))
plt.figure(figsize=(8, 8), facecolor=None)
plt.imshow(cloud,...
7 августа 2021 в 15:03
30
0
Строковый подкласс для фонетического расстояния Левенштейна
Я пытаюсь создать подкласс строки, чтобы представить символы Arpabet как одиночные символы. Вот что я получил до сих пор:
import Levenshtein
class ArpabetChar(str):
"""
Class that turn string into an Arpabet character.
http://www.speech.cs.cmu.edu/cgi-bin/cmudict
"""
...
7 августа 2021 в 14:02
56
3
Удалить числовые ссылки в тексте [дубликат]
У меня есть текст, содержащий пронумерованные ссылки. Например:
text = 'The number of catastrophes caused by natural hazards increased from 249 in 1980 to 820 in 2019, peaking at 848 in 2018. Adjusting for inflation, overall economic losses increased from around USD 60...
7 августа 2021 в 14:01
44
1
Модель Doc2Vec не дает ожидаемых показателей сходства
Я пытаюсь сравнить два предложения и получить косинусное сходство между ними.
У меня есть около 50 предложений, и я использовал предварительно обученный doc2vec genism и обучил модель на этих 50 предложениях, чтобы немного изменить веса. Однако косинусное сходство...
7 августа 2021 в 10:19
852
1
Как я могу проверить матрицу путаницы после тонкой настройки с помощью пользовательских наборов данных?
Этот вопрос аналогичен вопросу Как я могу проверить матрицу путаницы после тонкой настройки с помощью пользовательских наборов данных?, на сайте Data Science Stack Exchange.
Фон
Я хотел бы проверить матрицу путаницы, включая точность, отзыв и показатель f1, как...