Как я могу извлечь заголовок из URL-адреса в Python без использования какого-либо внешнего модуля?

avatar
Lectro
8 апреля 2018 в 04:11
213
2
-4

Я хочу создать переменную, данными которой является заголовок, извлеченный из URL-адреса, без использования какого-либо внешнего модуля.

Я новичок в Python, поэтому, если можете, объясните, что делает каждая часть кода.

Спасибо.

PD: я использую Python 3.

PD2: я имею в виду тег заголовка его HTML.

Источник
user6683711
8 апреля 2018 в 04:21
1

Просто предупреждаю вас, я думаю, вам следует снять этот вопрос, прежде чем он будет помечен как дубликат. Вы можете найти ответ здесь

DYZ
8 апреля 2018 в 04:32
2

@ToisMcBrois Во-первых, нет ничего плохого в том, что вопрос помечен как дубликат. Во-вторых, ОП не хочет использовать какие-либо внешние модули, и все ответы на вопрос, который вы упоминаете, используют внешние модули.

DYZ
8 апреля 2018 в 04:34
1

URL-адрес не имеет заголовка. Вы действительно хотите извлечь тег <title> из ранее загруженного HTML-файла?

Ответы (2)

avatar
DYZ
8 апреля 2018 в 16:43
0

Пусть html будет строкой HTML (скажем, источником HTML этой конкретной страницы). Вы можете найти открывающий и закрывающий теги с помощью str.find(). Строка преобразуется в нижний регистр, чтобы разрешить поиск без учета регистра.

start = html.lower().find('<title>') + len('<title>')
end = html.lower().find('</title>')

Затем вы можете извлечь часть строки HTML между тегами:

html[start:end]
#'How can I extract the title from a URL in Python without using any...'
DYZ
8 апреля 2018 в 17:22
0

Пожалуйста, рассмотрите возможность принятия ответа, если он работает для вас.

Lectro
8 апреля 2018 в 17:32
0

Да извини. я новичок на этой платформе

avatar
Ollie
8 апреля 2018 в 04:23
0

Предположим, что под "названием" вы подразумеваете название ресурса: возьмите URL вида https://www.foo.com/bar/baz/resource.jpg. Вам нужно разбить его на список по /, а затем взять последний элемент в этом списке. Код

url = "https://www.foo.com/bar/baz/resource.jpg"
print(url.split('/')[-1])

выдает результат

resource.jpg    
DYZ
8 апреля 2018 в 04:34
0

resource.jpg не является заголовком. URL-адрес не имеет заголовок.