正規表現:タグ間テキスト抜きだし。
但し、コレ1行に1セットタグがある場合のみ有効。
使うのは・・・
(?<=pattern) patternがこの位置の左に存在する場合にマッチ。
import re html = '<p>ここをぬきだす。</p>' matchObj = re.search(r'(?<=>)[^<]+', html) print matchObj.group()
リクエストヘッダーの追加。
これで一応通ったけど、、、他に無いのかねぇ。
メッチャ冗長。
import urllib2 req = urllib2.Request('http://www.xxx.com/xxx.html') req.add_header('Host', 'www.xxx.com') req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.0; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8') req.add_header('Keep-Alive', '300') req.add_header('Connection', 'keep-alive') req.add_header('Referer', 'http://www.xxx.com/') html = urllib2.urlopen(req).read()
と思ったら、
urllib2.Request(url[, data][, headers] [, origin_req_host][, unverifiable])
で、第3引数にヘッダーとったorz
urllib2を利用したインターネットリソースの取得方法←参考
import urllib2 header = { 'Host' : 'www.xxx.com', 'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.0; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8', 'Keep-Alive' : '300', 'Connection' : 'keep-alive', 'Referer' : 'http://www.xxx.com/' } req = urllib2.Request('http://www.xxx.com/xxx.html', None, header) html = urllib2.urlopen(req).read()
ってカンジで、辞書でがっつり渡してやればOkだそうな。
Firefox便利アドオン
今更ながら幾つか入れてみた。
入力補助(MTの入力にメチャ便利)
https://addons.mozilla.org/ja/firefox/addon/4125
web開発補助の基本・・・なんでしょ?
https://addons.mozilla.org/ja/firefox/addon/1843
"firebug"入れたらコレも入れとくとイイみたい。
https://addons.mozilla.org/ja/firefox/addon/10273