Вопросы, помеченные тегом «hadoop»

Hadoop - это проект Apache с открытым исходным кодом, который предоставляет программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и диспетчера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве уровня сохраняемости.
avatar
Abdulaziz Alshehri
9 августа 2021 в 03:37
163
2

Hadoop застрял на уменьшении 67% (только с большими данными)

Я новичок в Hadoop и Linux. Проблема Hadoop уменьшает зависание (или движется очень-очень медленно), когда входные данные велики (например, 600 тысяч строк или 6 миллионов строк), даже несмотря на то, что функции Map и Reduce довольно просты, 2021-08-08 22:53:12,350...
avatar
chen amos
9 августа 2021 в 02:31
37
1

Ресурсы, применяемые YARN, не активны. Будут ли они использоваться другими заданиями?

Я запускаю искровое задание, выделяющее много ресурсов в пряже, и задание длится долго. В последней задаче искрового задания активны только одно ядро ​​и два ядра. Я хочу знать, что неактивный ресурс может использоваться другим заданием Spark или Mr. Или просто...
avatar
Hoài Lâm
7 августа 2021 в 19:55
103
0

Потоковые окна Python для Hadoop не могут запустить подпроцесс mapreduce с ошибкой с кодом 64

Я пытаюсь запустить простую программу подсчета слов mapreduce с помощью Python в Windows и получаю следующую ошибку: 2021-08-07 23:30:14,670 INFO mapreduce.Job: Task Id : attempt_1628353447352_0001_m_000001_0, Status : FAILED Error: java.lang.RuntimeException:...
avatar
Ankit Katiyar
7 августа 2021 в 08:00
441
2

Преобразование строки в метку времени в улье при создании таблицы

У меня есть данные в реальном времени в формате CSV. Я хочу создать внешние таблицы из этих данных, чтобы я мог запрашивать их из улья. Проблема заключается в том, что эти файлы имеют эпоху unix как last_updated_epoch и поле даты last_updated, которое отформатировано...
avatar
SteveTR
6 августа 2021 в 15:15
106
0

Совокупное выделение ресурсов YARN (из команды) и выделенная память (в пользовательском интерфейсе RM)

Я пытаюсь использовать команду 'yarn application -status' для сбора информации об использовании ресурсов для предыдущих заданий запуска. Этот сообщение предполагает, что выход этой команды в МБ-секундах представляет собой выделенную приложению память, умноженную на...
avatar
Stella
6 августа 2021 в 14:54
95
1

читать таблицу кустов в сценарии Python в действии оболочки oozie

У меня есть следующий скрипт python shell_csv.sh, работающий в действии оболочки oozie: #! /usr/bin/env python import csv import sys import os import subprocess csv.field_size_limit(300000) with open(r'csv_1.csv', 'r') as file: my_reader = csv.reader(file,...
avatar
nobody
6 августа 2021 в 14:38
67
0

Совместимость Hbase с Hadoop

Я собираюсь использовать Hbase 2.3.5 и Hadoop 3.2.2, но меня беспокоит совместимость. Согласно матрице совместимости Hbase 2.3.x, эти версии кажутся совместимыми, но файл личности Hbase 2.3.5 предполагает, что совместимость Hbase 2.3.5 проверена с Hadoop 3.2.1 и не...
avatar
Rachid Saidane
6 августа 2021 в 13:10
31
0

как изменить http-ссылки внутренних менеджеров узлов пряжи?

Я запускаю hadoop 2.7.0 в разных контейнерах докеров, связанных с роем докеров. Как на скриншоте ниже Я хочу изменить или перенаправить внутренние ссылки менеджеров узлов из диспетчера ресурсов пряжи, чтобы получить к ним доступ за пределами контейнера...
avatar
Craig
6 августа 2021 в 09:12
179
0

Есть ли простой способ исключить узлы с помощью Spark с Yarn?

Обзор Мне действительно не нужны очереди или метки узлов. Я просто хочу указать, что это искровое приложение должно работать на 2 воркерах, выбирайте их по желанию. Кажется, я не могу этого сделать, поэтому я настроил каждый узел на свою собственную метку узла и создал...
avatar
梅闻啼
6 августа 2021 в 01:45
58
1

Как HBase добавляет свои банки зависимостей и использует HADOOP_CLASSPATH

48. HBase, MapReduce и CLASSPATH По умолчанию задания MapReduce, развернутые в кластере MapReduce, не имеют доступа ни к конфигурации HBase в $HBASE_CONF_DIR, ни к классам HBase. Чтобы предоставить заданиям MapReduce необходимый им доступ, вы можете добавить...
avatar
Sri
5 августа 2021 в 19:20
83
0

Динамическое разделение не работает от потоковой передачи Spark до Hive (формат ORC)

У меня есть программа Spark, написанная на scala, которая постоянно использует данные из топика Kafka, обрабатывает и собирает данные. Программа использует структурированную потоковую передачу и должна вставлять данные в Hive (некислотную таблицу), разделенную на...
avatar
Carlos
5 августа 2021 в 18:44
69
0

Сбой примера рабочего процесса Oozie, несмотря на запуск общей библиотеки oozie-setup.sh с EJ001

Я пытаюсь запустить примеры, задокументированные по адресу https://oozie.apache.org/docs/5.2.1/DG_Examples.html. Когда я запускаю первый пример, он завершается с ошибкой EJ001:. root@50e1f53d5ded:/opt/oozie# oozie job -oozie http://localhost:11000/oozie -config...
avatar
alemarchan
5 августа 2021 в 16:44
65
1

Удалить файл в hadoop, за исключением некоторых файлов

У меня есть сотни тысяч файлов в формате: CDR_IP2MSISDN_CYO-CGN-CC-YYYY-MM-NN_NN_NN_NN-N.csv.gz где MM — месяц, ГГГГ год, а NN — инкрементный счетчик. Все они находятся в каталоге hdfs, и когда я должен отлаживать папку, оставляю только последний месяц резервного...
avatar
Paras
5 августа 2021 в 08:38
25
0

AWS EMR Как узнать, выполнены ли все параллельные шаги

Я начинаю с AWS EMR. У меня есть определенные шаги в моем кластере, которые должны выполняться параллельно. Мне нужно запустить лямбда-функцию, когда эта группа шагов (параллельных шагов) завершена. Есть ли способ узнать это, я просматривал документацию, но ничего не...
avatar
Karen
5 августа 2021 в 00:59
33
1

Система docker build Hadoop: как поддерживать работоспособность контейнера

Ниже показан один из моих контейнеров в системе Hadoop. Я хочу, чтобы контейнер работал после того, как я использую «docker-compose up -d». Я использовал команду «/usr/bin/yes», чтобы контейнер работал. Однако это тратит ресурсы. Есть ли ответ? Спасибо. version:...
avatar
sagar
4 августа 2021 в 18:55
18
1

После того, как кластер HDP подключил службу узла журнала к керберу, возникли проблемы при запуске

Ниже показана ошибка после кластеризации с помощью Kerberos. Исключение в потоке "main" java.io.IOException: ошибка входа в систему для jn/keystone.mwbsys.com@EXAMPLE.COM из keytab /etc/security/keytabs/jn.service.keytab: javax.security.auth.login.LoginException : Не...
avatar
teja
4 августа 2021 в 18:02
22
0

Команда производительности Hadoop mapreduce в Putty

Как увидеть увеличение памяти задания на сервере Hadoop, когда задание находится в процессе? Другими словами, на сервере Hadoop я выполнил задание MapReduce (данные Twitter) на 5 терминалах, и когда я получу результат, я хотел бы проверить, увеличивается или...
avatar
Bill
4 августа 2021 в 17:52
47
1

может ли задание OOZIE Map-Reduce сохранять данные в формате паркета?

У меня есть задание Map Reduce, которое использует рабочий процесс OOZIE xml и записывает вывод в формате файла последовательности (org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat), есть ли что-то подобное для сохранения в формате Parquet? Я не смог...
avatar
Amel ha
4 августа 2021 в 15:06
219
1

Подключите Sqoop к Hadoop в Pyspark

Это код, который я использую в Pyspark. В настоящее время я пытаюсь подключить Sqoop к HDFS. Я новичок во всем этом. Я не уверен, какие библиотеки использовать. from pysqoop.SqoopImport import Sqoop sqoop = Sqoop(help=True) code = sqoop.perform_import() sqoop =...
avatar
Amel ha
4 августа 2021 в 13:32
59
1

Pycharm не распознает библиотеки Sqoop

Я на Pycharm пытаюсь использовать задание импорта Sqoop для загрузки данных MySQL в HDFS. Я загрузил этот пакет на терминал pip install pysqoop Я пытался запустить этот пакет from pysqoop.SqoopImport import Sqoop sqoop = Sqoop(help=True) code =...