2009-04-10

正規表現：タグ間テキスト抜きだし。

python

但し、コレ1行に1セットタグがある場合のみ有効。
使うのは・・・
(?<=pattern) patternがこの位置の左に存在する場合にマッチ。

import re

html = '<p>ここをぬきだす。</p>'
matchObj = re.search(r'(?<=>)[^<]+', html)
print matchObj.group()

2009-04-08

リクエストヘッダーの追加。

python

これで一応通ったけど、、、他に無いのかねぇ。
メッチャ冗長。

import urllib2


req = urllib2.Request('http://www.xxx.com/xxx.html')
req.add_header('Host', 'www.xxx.com')
req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.0; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8')
req.add_header('Keep-Alive', '300')
req.add_header('Connection', 'keep-alive')
req.add_header('Referer', 'http://www.xxx.com/')

html = urllib2.urlopen(req).read()

と思ったら、
urllib2.Request(url[, data][, headers] [, origin_req_host][, unverifiable])
で、第3引数にヘッダーとったorz
urllib2を利用したインターネットリソースの取得方法←参考

import urllib2

header = {  'Host' : 'www.xxx.com',
            'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.0; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8',
            'Keep-Alive' : '300',
            'Connection' : 'keep-alive',
            'Referer' : 'http://www.xxx.com/'
         }

req = urllib2.Request('http://www.xxx.com/xxx.html', None, header)

html = urllib2.urlopen(req).read()

ってカンジで、辞書でがっつり渡してやればOkだそうな。

2009-04-05

090405

TODO

・健康保険料チェック
→国民健康保険の料金？その他

・国民年金チェック
→機構ちぇっく

・コンクリ調査

2009-04-03

根本がぁ〜

python TODO

要・再理解

・高階関数
・クロージャ
・コールバック関数
http://www.phactory.jp/blog/pyblosxom.cgi/tech/081121.html

2009-04-01

URL通信。

python

いちおーメモ。

urllib2モジュール使用例

import urllib2

req = urllib2.Request("http://www.yahoo.co.jp/")

req.add_header("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.6) Gecko/2009011913 Firefox/3.0.6")

html = urllib2.urlopen(req).read()
print html