Вопросы, помеченные тегом «web-scraping»
Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу с парсингом» (например, с Excel VBA), следует * тщательно изучить *, поскольку доступны многочисленные образцы функционального кода. Методы парсинга веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже сбор данных вручную стандартным способом.
9 августа 2021 в 07:10
58
0
Избегайте гонок данных при парсинге веб-страниц с помощью Selenium
Я пытаюсь очистить некоторые динамические элементы с веб-страниц, используя Selenium. В конце концов, мне придется очистка страниц, исчисляемых сотнями из 1000, поэтому я пытаюсь найти способ сделать это как можно быстрее, что и привело меня к параллелизму. Я хочу...
9 августа 2021 в 06:45
111
2
невозможно сохранить очищенные данные в файле excel
Привет, ребята, я очищал эти данные, и мой код работает нормально, но я не могу понять, как сохранить эти очищенные данные в файл Excel, и я еще больше запутался, посмотрев на другие решения и ответы
вот мой код
import time
import pandas as pd
from selenium import...
9 августа 2021 в 05:01
54
1
Создание цикла для последовательного открытия ссылок
Этот сайт:https://int.soccerway.com/international/europe/european-championships/c25/
EUROPE
European Championship
2020
Group Stage
Final Stages
EC Qualification
WC Qualification Europe
UEFA Nations...
9 августа 2021 в 01:54
86
1
Проблемы с размещением «driver.find_element_by_css_selector» в условии if с селеном
Я пытаюсь использовать функцию из библиотеки webdriver в условии if, но это условие ситуативное, то есть не всегда происходит.
Очевидно, это дает мне ошибку, потому что в тех случаях, когда условие неверно, функция «driver.find_element_by_css_selector()» не находит...
8 августа 2021 в 22:05
136
1
Как получить конкретную информацию на HTML-странице с помощью Cheerio на GAS?
Мне не удалось определить какой-либо класс, идентификатор и т. д., откуда код должен получать информацию.
Вот html-страница и часть информации, которую я должен получать каждый день:
...и вот фрагмент кода, который я пытаюсь использовать:
var content =...
8 августа 2021 в 20:39
303
1
Почему моя функция бесконечной прокрутки в Apify не работает?
Я пытаюсь получить данные о товарах с веб-сайта, который загружает список товаров, когда пользователь прокручивает страницу вниз. Я использую Apify для этого. Моей первой мыслью было посмотреть, не решил ли кто-нибудь уже эту проблему, и я нашел 2 полезные ссылки: Как...
8 августа 2021 в 20:02
51
0
Как работать с боковыми панелями в Selenium
Я использую селен для навигации по страницам продуктов Amazon. Когда мой сценарий пытается добавить товар в корзину, иногда появляется боковая панель с вопросом, хочу ли я добавить гарантию перед добавлением в корзину.
Это мой процесс добавления в...
8 августа 2021 в 19:04
92
1
Проблемы при очистке на питоне с помощью BeautifulSoup
Я начал парсить на питоне, обычно в большинстве случаев работает почти 99% материала.
Но я сталкиваюсь с проблемами, которых, по моему мнению, быть не должно (потому что, когда я пытаюсь выполнить ту же очистку, используя другие языки, мне это удалось).
Я постараюсь...
8 августа 2021 в 18:17
28
1
Найти подкласс класса и вернуть список элементов
Я намерен очистить некоторые страны с веб-страницы, которые находятся в главе 4, и вернуть список этих стран. Проблема в том, что я не могу получить тег
ИСПОЛЬЗОВАНИЕ ЧТЕНИЯ HTML
reqUS = Request('https://www.state.gov/reports/country-reports-on-terrorism-2019/',...
8 августа 2021 в 17:33
113
3
Python -> Получить все действительные URL-адреса загрузки мультимедиа из веб-папки
У меня есть веб-сайт с такой структурой ссылок
https://example.com/assets/contents/1627347928.mp4
https://example.com/assets/contents/1627342345.mp4
https://example.com/assets/contents/1627215324.mp4
И я хочу использовать python, чтобы получить все ссылки для...
8 августа 2021 в 17:12
30
1
Почему этот цикл останавливается после первой итерации?
Мой код обращается к странице, где каждая строка может иметь или не иметь раскрывающийся список с дополнительной информацией.
У меня есть оператор try и exclude, чтобы проверить это.
Прекрасно работает в строке 1, но не в строке 2?
import requests
from bs4 import...
8 августа 2021 в 15:51
52
0
Не могу очистить роботов в питоне с помощью BeautifulSoup
Мне удалось получить суп и html веб-страницы, но по какой-то причине я не могу найти robots tag, хотя я могу найти его при очистке на других языках.
Пример:
headers = {
'Accept-Encoding': 'gzip, deflate, sdch',
'Accept-Language': 'en-US,en;q=0.8',
...
8 августа 2021 в 15:04
79
1
Красивый суп не загружает всю страницу
У меня есть проект, в котором я собираю данные на Trulia.com и где я хочу получить максимальное количество страниц (последнее число) для определенного места (фото ниже), чтобы я мог просмотреть его и получить все ссылки.
Чтобы получить это последнее число, у меня есть...
8 августа 2021 в 13:19
29
0
Как очистить несколько точек данных в одну строку с помощью скребка гелия
Я пытаюсь очистить данные в одной строке с помощью скребка гелия.
8 августа 2021 в 12:11
87
1
почему мой метод поиска в BeautifulSoup возвращает None при очистке веб-сайта Coursera?
Я хочу очистить курсы по анализу данных с веб-сайта Coursera. когда я просматриваю название курса в браузере, я вижу это значение:
<h2 class="cds-1 card-title css-iyr9nj cds-3">Google Data Analytics</h2>
поэтому я написал этот код:
import requests
from bs4...
8 августа 2021 в 11:08
64
0
Puppeteer иногда не мог найти селектор соответствия элементов, но я жду этого
Я использую следующее для ожидания src в теге видео:
await frame2.waitForSelector('source', { timeout: 8000})
а затем захватить его с помощью:
const video = await frame2.$eval('source', v => v.getAttribute('src'))
Но иногда я получал ошибку: Ошибка: не удалось найти...
8 августа 2021 в 10:39
325
0
Можно ли очистить данные с веб-сайта политики CORS?
Я хочу получить данные с веб-сайта, используя только javascript (без фреймворка, nodejs или пакета). Однако, когда я пытаюсь получить данные с веб-сайта, на консоли появляется ошибка о политике CORS.
Можно ли решить проблему?
7 августа 2021 в 21:23
188
1
Получение цветового кода при очистке веб-страниц с помощью BeautifulSoup
Я использую BeautifulSoup в Python для скрапинга веб-страниц. В тексте на сайте имена написаны красным шрифтом, а мне нужны цветовые коды. Я использую текст на веб-сайте в качестве обучающих данных для NER (только для имен собственных). Как я могу получить код цвета с...
7 августа 2021 в 20:07
37
0
Почему rvest может вытащить только первые 5 строк таблицы Football Outsiders?
Я играю с rvest, пытаясь очистить стол. По общему признанию, я новичок в html и до сих пор не совсем уверен, что делаю. Мне удалось извлечь пять строк, используя приведенные ниже фрагменты кода, но остальная часть таблицы совершенно пуста. Не уверен, что это проблема с...
7 августа 2021 в 19:38
63
2
Не удается получить первую ссылку на изображение из массива ссылок на изображения
Я пытаюсь найти способ получить изображения с веб-страницы с помощью запросов xmlhttp в vba. Покопавшись поглубже, я заметил, что могу получить доступ к этим изображениям, используя этот атрибут data-lazy-srcset. Однако этот атрибут создает массив ссылок на...