python で html の要素を操作する簡単なモジュール


html のソースから,a の href の部分や,img の src を取り出したり書き換えたい思ったことはありませんか? python の BeautifulSoup というモジュールを使えばかなり簡単に取り出せます。
ドキュメントはこちらを。http://www.crummy.com/software/BeautifulSoup/

例:
== imgsrc.py ==
import sys
import BeautifulSoup

s = BeautifulSoup.BeautifulSoup(open(sys.argv[1]).read())
imgs = s.findAll(‘img’)
for img in imgs:
print img[‘src’]

$ python imgsrc.py hogehoge.html