sitemap中の%エンコードされた日本語のURLの一覧

sitemap.xml を確認しようとすると、日本語の URL にしていると、sitemap.xml 内の URL が % エンコードされてしまい、内容がわからないということがあるかもしれません。(そんなことで困っている人はいないかもしれませんが。。。)

python で xml 内の loc タグ内の % エンコードされたURLを日本語にして表示します。

print_sitemap.py

#!/usr/bin/env python

import requests
import sys
from bs4 import BeautifulSoup
import urllib.parse

url = sys.argv[1]
sitemap = requests.get(url)
soup = BeautifulSoup(sitemap.text)
locs = soup.find_all('loc')
for loc in locs:
    print(urllib.parse.unquote(loc.text))

python print_sitemap.py URL

BeautifulSoup は xml や、html の解析に便利なので、使ってみてください。

1969年生まれ。大学卒業後から15年以上にわたり、通信、カードリーダ、セキュリティ業界においてソフトウェア開発に従事。その後、2012年5月に当社を設立。電力、交通、車載向けの組み込み系システム、旅行業界向けの WEB システム開発、音声合成システム、消防向けのシステム開発等に参画。
低コストかつシンプルで安定稼働するシステムの実現を目指し、アーキテクチャ設計に取り組んでいます。
会社情報と代表者守屋のプロフィール詳細