Вопросы, помеченные тегом «nlp»

Обработка естественного языка (NLP) - это подполе искусственного интеллекта, которое включает в себя преобразование или извлечение полезной информации из данных на естественном языке. Методы включают машинное обучение и подходы, основанные на правилах.
avatar
Abhishek Chauhan
9 августа 2021 в 06:38
52
0

Почему больший NN Transformer менее точен, чем меньший?

Когда я обучаю модель Transformer (TF, Keras) с 4 слоями и размером встраивания 128, модель обучается очень хорошо и достигает точности 99,80 с обучающими данными. Но когда я пытаюсь увеличить параметры модели, увеличивая слои (до 6) и увеличивая размер встраивания (до...
avatar
Vaibhav Sah
9 августа 2021 в 06:35
137
0

ViVIT PyTorch: RuntimeError: многоцелевой режим не поддерживается в /pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu:15

Я пытаюсь запустить код Video Vision Transformer (ViViT) с моим набором данных, но получаю сообщение об ошибке, используя CrossEntropyLoss из Pytorch в качестве функции потери. У меня есть 6 классов: ['Run', 'Sit', 'Walk', 'Wave', 'Sit', 'Stand'] Оптимизатор optimizer...
avatar
Jay Nair
9 августа 2021 в 00:10
60
1

Предел элементов обучения AutoML

GCP AutoML Natural Language , максимальное количество обучающих элементов – 1 000 000. Мне нужно будет увеличить это намного больше, чем 1 миллион. Как мне это сделать? Это делается через поддержку GCP. Есть ли другой вариант? Я не вижу этого в квоте редактирования.
avatar
msh855
8 августа 2021 в 23:10
225
1

Оценка сходства для фильтрации столбцов данных в пандах

У меня есть кадр данных pandas, df со следующими именами столбцов columns = ['Baillie Gifford Positive Change Fund B Accumulation', 'Stewart Investors Worldwide Select Fund Class B (accumulation) Gbp', 'Stewart Investors Worldwide Select Fund Class A (accumulation)...
avatar
padawan94
8 августа 2021 в 21:44
103
0

Как оценить предварительно обученную модель NER в тексте, специфичном для моей предметной области, со строфой (для coreNLP)?

Я пытаюсь получить баллы F1 для предварительно обученной английской модели в моем конкретном текстовом домене без какого-либо обучения. В документах упоминается следующая команда: python -m stanza.utils.training.run_ete ${corpus} --score_${split} Однако, поскольку я...
avatar
Samee Arif
8 августа 2021 в 21:03
175
0

Конфиг для pytesseract (язык урду)

У меня проблемы с pytesseract. С этой строкой кода pytesseract плохо работает с языком урду: text = pytesseract.image_to_string(img, lang="urd") Какую конфигурацию следует использовать для повышения точности языка урду? И какую предварительную обработку я могу...
avatar
Josh Belandres
8 августа 2021 в 19:45
92
1

Невозможно установить библиотеку python, pycontradictions, в среде anaconda (ноутбуки jupyter)

Я работаю над проектом НЛП и пытаюсь загрузить pycontradictions для работы с отрицаниями в тексте. Ex "не было" -> "не было". Однако, когда я пытаюсь установить с помощью conda install pycontractions, я получаю следующую ошибку: Solving environment: failed with...
avatar
Tasfiq.Asif
8 августа 2021 в 15:46
93
1

Красивый суп, XML в кадр данных Pandas

Я новичок в машинном обучении и изучении базы данных для моего проекта nlp. здесь я получил данные из http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html. и я пытаюсь создать кадр данных pd, в котором я хочу проанализировать данные xml, я также хочу добавить...
avatar
hellomoto
8 августа 2021 в 15:03
99
0

Как визуализировать 20 самых частых слов для каждого ярлыка

У меня есть фрейм данных, содержащий столбец с названием твиты и еще один столбец с соответствующими метками (либо 1, либо 0). Я новичок в анализе настроений, и мне было интересно, есть ли способ просмотреть 20 наиболее распространенных слов для каждого ярлыка. Я нашел...
avatar
okuoub
8 августа 2021 в 11:38
275
1

Как получить word2vec из предварительно обученной модели Google

Я хочу получить векторное представление слов. Я попытался использовать API GENSIM, но получил ту же ошибку, что и здесь (для Python 3.6): ValueError при загрузке набора данных gensim Как лучше всего получить вектор из предварительно обученной модели?
avatar
Sleeper
8 августа 2021 в 07:44
51
1

Как получить доступ к приложению beanstalk venv?

на прошлой неделе я пытался загрузить приложение flask с помощью AWS Beanstalk. Основной проблемой для меня была загрузка очень тяжелой библиотеки как части пакета (для загрузки кода пакета существует ограничение в 500 МБ). Вместо этого я попытался использовать файл...
avatar
Debalina
7 августа 2021 в 20:39
28
1

Обновить ячейки фрейма данных с вхождениями слов, указанными в словаре

У меня есть словарь уникальных слов из корпуса. с вхождениями текста следующим образом: dict_unique_words = {'word1':3, 'word2':5, 'word3':9} Слово в каждом из трех утверждений встречается следующим образом: word_freq_statement1 = {'word2':1, 'word3'...
avatar
sci9
7 августа 2021 в 17:39
317
2

Python Regex: как выбрать строки между двумя шаблонами

Рассмотрите типичные данные живого чата следующим образом: Peter (08:16): Hi What's up? ;-D Anji Juo (09:13): Hey, I'm using WhatsApp! Peter (11:17): Could you please tell me where is the feedback? Anji Juo (19:13): I don't know where it is. Anji Juo (19:14):...
avatar
PyDev
7 августа 2021 в 17:11
45
0

Почему NLTK.Tree.Fromstring неверно интерпретирует части моего дерева, перемещая их на передний план? Нужна помощь

Эта часть кода получает существующее дерево синтаксического анализа из набора данных, создает представление nltk.tree и использует pretty_print для отображения дерева в командной строке. Обозначение — это обозначение скобок, которое использует NLTK: (TOP(S(NP(NP Новая...
avatar
msh855
7 августа 2021 в 16:18
23
0

Создание графа знаний с экономическими терминами в качестве семантики

У меня есть следующий текст, и я хочу извлечь триплеты, чтобы создать график знаний (KG). text = “Dr. Gao concluded that a long-term systematic migrant worker shortage began to appear in the Chinese migrant labor market around 2005, which greatly increased the growth...
avatar
msh855
7 августа 2021 в 15:59
48
1

два слова как одна лемма в питоне

Я хочу создать облако слов на основе моего текста. Я использую следующий код: import wordcloud cloud = WordCloud(background_color='white').generate(str(mytext)) plt.figure(figsize=(8, 8), facecolor=None) plt.imshow(cloud,...
avatar
Michael
7 августа 2021 в 15:03
30
0

Строковый подкласс для фонетического расстояния Левенштейна

Я пытаюсь создать подкласс строки, чтобы представить символы Arpabet как одиночные символы. Вот что я получил до сих пор: import Levenshtein class ArpabetChar(str): """ Class that turn string into an Arpabet character. http://www.speech.cs.cmu.edu/cgi-bin/cmudict """ ...
avatar
msh855
7 августа 2021 в 14:02
56
3

Удалить числовые ссылки в тексте [дубликат]

У меня есть текст, содержащий пронумерованные ссылки. Например: text = 'The number of catastrophes caused by natural hazards increased from 249 in 1980 to 820 in 2019, peaking at 848 in 2018. Adjusting for inflation, overall economic losses increased from around USD 60...
avatar
Jeff Jefferson
7 августа 2021 в 14:01
44
1

Модель Doc2Vec не дает ожидаемых показателей сходства

Я пытаюсь сравнить два предложения и получить косинусное сходство между ними. У меня есть около 50 предложений, и я использовал предварительно обученный doc2vec genism и обучил модель на этих 50 предложениях, чтобы немного изменить веса. Однако косинусное сходство...
avatar
Mahler
7 августа 2021 в 10:19
852
1

Как я могу проверить матрицу путаницы после тонкой настройки с помощью пользовательских наборов данных?

Этот вопрос аналогичен вопросу Как я могу проверить матрицу путаницы после тонкой настройки с помощью пользовательских наборов данных?, на сайте Data Science Stack Exchange. Фон Я хотел бы проверить матрицу путаницы, включая точность, отзыв и показатель f1, как...