追随

Python webscraper

http://use.perl.org/~miyagawa/journal/34461 また真似してUser-Agentの変更とhandlerの指定を出来るようにした。UserAgentの変更がうまくいっているかをdebuglevelが1のHTTPHandlerをつかって確認する例。 #!/usr/bin/env python2.5 #-*- coding: utf-8 -…

2007-09-15

Web::Scraper 0.14 released

Python lxml webscraper Perl

http://use.perl.org/~miyagawa/journal/34457 また便利になってる。相対URIは絶対URIに自動変換 (img@src, script@src etc) 便利なショートカット、HTML,RAWの追加 2の方はすでにクリアしてるので1の方はPython版でもlxmlのmake_links_absolute()で自動変…

2007-09-15

Scraping Yahoo! Search with Web::Scraper in Python

Python lxml webscraper Perl

次はhttp://menno.b10m.net/blog/blosxom/perl/scraping-yahoo-search-with-web-scraper.htmlと同じことをやってみる。比較しやすいようにPerlのコードも並べてみた。コードの量も見た目もあんまり変わらない。 Perlは括弧がなくてすっきり、Pythonの方はセ…

2007-09-13

scraperにscraperを渡せるようにした

Python lxml webscraper

Web::Scraper の"Twitter Friends (complex)"ができるようになった。 s = scraper( process('span.vcard', people=scraper( process('a', link='@href', name='@title'), process('img', thumb='@src') ) ) ) 下のパッチ加えただけ。 + elif hasattr(val, 's…

2007-09-13

Web::Scraper in Python hacks #2: Extract javascript and css content

Python lxml webscraper

http://use.perl.org/~miyagawa/journal/34398第二弾。普通にtextで取れた。 s = scraper( process("script", js="text"), )

2007-09-12

Web::Scraper in Python hacks #1: Extract links linking to images

Python lxml webscraper

http://use.perl.org/~miyagawa/journal/34325の真似をできるようにした。 #!/usr/bin/env python2.5 from scraper import scraper, process import codecs, sys sys.stdout = codecs.getwriter('utf-8')(sys.stdout) s = scraper( process("//a[contains(@h…

2007-09-11

Web::Scraper in Python (もしくは scrAPI in Python)

Python lxml webscraper

lxml2.0からCSSSelectorが導入されたので、Web::Scraperのようなものを作ってみました。とりあえず動作するところまでいったので載せておきます。機能はまだ全然足りてないので、簡単なことしかできません。 Python2.5とlxml2.0alpha が必要です。Pythonは…