Вопросы, помеченные тегом «web-scraping»

Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу с парсингом» (например, с Excel VBA), следует * тщательно изучить *, поскольку доступны многочисленные образцы функционального кода. Методы парсинга веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже сбор данных вручную стандартным способом.
avatar
Matt
9 августа 2021 в 07:10
58
0

Избегайте гонок данных при парсинге веб-страниц с помощью Selenium

Я пытаюсь очистить некоторые динамические элементы с веб-страниц, используя Selenium. В конце концов, мне придется очистка страниц, исчисляемых сотнями из 1000, поэтому я пытаюсь найти способ сделать это как можно быстрее, что и привело меня к параллелизму. Я хочу...
avatar
krishan
9 августа 2021 в 06:45
111
2

невозможно сохранить очищенные данные в файле excel

Привет, ребята, я очищал эти данные, и мой код работает нормально, но я не могу понять, как сохранить эти очищенные данные в файл Excel, и я еще больше запутался, посмотрев на другие решения и ответы вот мой код import time import pandas as pd from selenium import...
avatar
Resultados Oficiais
9 августа 2021 в 05:01
54
1

Создание цикла для последовательного открытия ссылок

Этот сайт:https://int.soccerway.com/international/europe/european-championships/c25/ EUROPE European Championship 2020 Group Stage Final Stages EC Qualification WC Qualification Europe UEFA Nations...
avatar
Nicolás Brevis
9 августа 2021 в 01:54
86
1

Проблемы с размещением «driver.find_element_by_css_selector» в условии if с селеном

Я пытаюсь использовать функцию из библиотеки webdriver в условии if, но это условие ситуативное, то есть не всегда происходит. Очевидно, это дает мне ошибку, потому что в тех случаях, когда условие неверно, функция «driver.find_element_by_css_selector()» не находит...
avatar
onit
8 августа 2021 в 22:05
136
1

Как получить конкретную информацию на HTML-странице с помощью Cheerio на GAS?

Мне не удалось определить какой-либо класс, идентификатор и т. д., откуда код должен получать информацию. Вот html-страница и часть информации, которую я должен получать каждый день: ...и вот фрагмент кода, который я пытаюсь использовать: var content =...
avatar
Manuel Jiménez
8 августа 2021 в 20:39
303
1

Почему моя функция бесконечной прокрутки в Apify не работает?

Я пытаюсь получить данные о товарах с веб-сайта, который загружает список товаров, когда пользователь прокручивает страницу вниз. Я использую Apify для этого. Моей первой мыслью было посмотреть, не решил ли кто-нибудь уже эту проблему, и я нашел 2 полезные ссылки: Как...
avatar
Capcoil
8 августа 2021 в 20:02
51
0

Как работать с боковыми панелями в Selenium

Я использую селен для навигации по страницам продуктов Amazon. Когда мой сценарий пытается добавить товар в корзину, иногда появляется боковая панель с вопросом, хочу ли я добавить гарантию перед добавлением в корзину. Это мой процесс добавления в...
avatar
Bill My
8 августа 2021 в 19:04
92
1

Проблемы при очистке на питоне с помощью BeautifulSoup

Я начал парсить на питоне, обычно в большинстве случаев работает почти 99% материала. Но я сталкиваюсь с проблемами, которых, по моему мнению, быть не должно (потому что, когда я пытаюсь выполнить ту же очистку, используя другие языки, мне это удалось). Я постараюсь...
avatar
Hasophie
8 августа 2021 в 18:17
28
1

Найти подкласс класса и вернуть список элементов

Я намерен очистить некоторые страны с веб-страницы, которые находятся в главе 4, и вернуть список этих стран. Проблема в том, что я не могу получить тег ИСПОЛЬЗОВАНИЕ ЧТЕНИЯ HTML reqUS = Request('https://www.state.gov/reports/country-reports-on-terrorism-2019/',...
avatar
RickeDz
8 августа 2021 в 17:33
113
3

Python -> Получить все действительные URL-адреса загрузки мультимедиа из веб-папки

У меня есть веб-сайт с такой структурой ссылок https://example.com/assets/contents/1627347928.mp4 https://example.com/assets/contents/1627342345.mp4 https://example.com/assets/contents/1627215324.mp4 И я хочу использовать python, чтобы получить все ссылки для...
avatar
Void S
8 августа 2021 в 17:12
30
1

Почему этот цикл останавливается после первой итерации?

Мой код обращается к странице, где каждая строка может иметь или не иметь раскрывающийся список с дополнительной информацией. У меня есть оператор try и exclude, чтобы проверить это. Прекрасно работает в строке 1, но не в строке 2? import requests from bs4 import...
avatar
Bill My
8 августа 2021 в 15:51
52
0

Не могу очистить роботов в питоне с помощью BeautifulSoup

Мне удалось получить суп и html веб-страницы, но по какой-то причине я не могу найти robots tag, хотя я могу найти его при очистке на других языках. Пример: headers = { 'Accept-Encoding': 'gzip, deflate, sdch', 'Accept-Language': 'en-US,en;q=0.8', ...
avatar
Marc
8 августа 2021 в 15:04
79
1

Красивый суп не загружает всю страницу

У меня есть проект, в котором я собираю данные на Trulia.com и где я хочу получить максимальное количество страниц (последнее число) для определенного места (фото ниже), чтобы я мог просмотреть его и получить все ссылки. Чтобы получить это последнее число, у меня есть...
avatar
user16618147
8 августа 2021 в 13:19
29
0

Как очистить несколько точек данных в одну строку с помощью скребка гелия

Я пытаюсь очистить данные в одной строке с помощью скребка гелия.
avatar
Mohamed Yahia
8 августа 2021 в 12:11
87
1

почему мой метод поиска в BeautifulSoup возвращает None при очистке веб-сайта Coursera?

Я хочу очистить курсы по анализу данных с веб-сайта Coursera. когда я просматриваю название курса в браузере, я вижу это значение: <h2 class="cds-1 card-title css-iyr9nj cds-3">Google Data Analytics</h2> поэтому я написал этот код: import requests from bs4...
avatar
Crite
8 августа 2021 в 11:08
64
0

Puppeteer иногда не мог найти селектор соответствия элементов, но я жду этого

Я использую следующее для ожидания src в теге видео: await frame2.waitForSelector('source', { timeout: 8000}) а затем захватить его с помощью: const video = await frame2.$eval('source', v => v.getAttribute('src')) Но иногда я получал ошибку: Ошибка: не удалось найти...
avatar
onurmutluay
8 августа 2021 в 10:39
325
0

Можно ли очистить данные с веб-сайта политики CORS?

Я хочу получить данные с веб-сайта, используя только javascript (без фреймворка, nodejs или пакета). Однако, когда я пытаюсь получить данные с веб-сайта, на консоли появляется ошибка о политике CORS. Можно ли решить проблему?
avatar
Delaram R
7 августа 2021 в 21:23
188
1

Получение цветового кода при очистке веб-страниц с помощью BeautifulSoup

Я использую BeautifulSoup в Python для скрапинга веб-страниц. В тексте на сайте имена написаны красным шрифтом, а мне нужны цветовые коды. Я использую текст на веб-сайте в качестве обучающих данных для NER (только для имен собственных). Как я могу получить код цвета с...
avatar
pbakkark
7 августа 2021 в 20:07
37
0

Почему rvest может вытащить только первые 5 строк таблицы Football Outsiders?

Я играю с rvest, пытаясь очистить стол. По общему признанию, я новичок в html и до сих пор не совсем уверен, что делаю. Мне удалось извлечь пять строк, используя приведенные ниже фрагменты кода, но остальная часть таблицы совершенно пуста. Не уверен, что это проблема с...
avatar
SMTH
7 августа 2021 в 19:38
63
2

Не удается получить первую ссылку на изображение из массива ссылок на изображения

Я пытаюсь найти способ получить изображения с веб-страницы с помощью запросов xmlhttp в vba. Покопавшись поглубже, я заметил, что могу получить доступ к этим изображениям, используя этот атрибут data-lazy-srcset. Однако этот атрибут создает массив ссылок на...