webscraper
http://use.perl.org/~miyagawa/journal/34461 また真似してUser-Agentの変更とhandlerの指定を出来るようにした。UserAgentの変更がうまくいっているかをdebuglevelが1のHTTPHandlerをつかって 確認する例。 #!/usr/bin/env python2.5 #-*- coding: utf-8 -…
http://use.perl.org/~miyagawa/journal/34457 また便利になってる。 相対URIは絶対URIに自動変換 (img@src, script@src etc) 便利なショートカット、HTML,RAWの追加 2の方はすでにクリアしてるので1の方はPython版でもlxmlのmake_links_absolute()で自動変…
次はhttp://menno.b10m.net/blog/blosxom/perl/scraping-yahoo-search-with-web-scraper.htmlと同じことをやってみる。比較しやすいようにPerlのコードも並べてみた。 コードの量も見た目もあんまり変わらない。 Perlは括弧がなくてすっきり、Pythonの方はセ…
Web::Scraper の"Twitter Friends (complex)"ができるようになった。 s = scraper( process('span.vcard', people=scraper( process('a', link='@href', name='@title'), process('img', thumb='@src') ) ) ) 下のパッチ加えただけ。 + elif hasattr(val, 's…
http://use.perl.org/~miyagawa/journal/34398第二弾。普通にtextで取れた。 s = scraper( process("script", js="text"), )
http://use.perl.org/~miyagawa/journal/34325の真似をできるようにした。 #!/usr/bin/env python2.5 from scraper import scraper, process import codecs, sys sys.stdout = codecs.getwriter('utf-8')(sys.stdout) s = scraper( process("//a[contains(@h…
lxml2.0からCSSSelectorが導入されたので、Web::Scraperのようなものを作ってみました。 とりあえず動作するところまでいったので載せておきます。機能はまだ全然足りてないので、簡単なことしかできません。 Python2.5とlxml2.0alpha が必要です。Pythonは…