のぶLab.

流しのソフトウェアエンジニアの雑記帳. Android, Scala, Clojure, Ruby on Railsなど

Scrapy

Scrapyでtdタグ内の要素が取得できない

div > table > tbody > tr > tdとなっているtdタグ内のテキストを取得する場合、 XPathを下のように書くとダメ //div[@id='hoge']/table/tbody/tr[i]/td[j]/text()tbodyタグがあってもtbodyは書かず、 このようにしないといけないらしい //div[@id='hoge']/t…

PythonのクローラフレームワークScrapyを使ってみた(Mac OS X Maverics)

pythonでクローラを作成するためのフレームワークscrapyを使ってみました。http://doc.scrapy.org/en/latest/index.html これを使って下の情報をjsonで保存してみます。http://www.google.co.jp/movies?near=%E6%B8%8B%E8%B0%B7 まずはscrapyのインストール …