2014年11月24日月曜日

141124

クローラー(開発言語:Ruby)


今日「Rubyによるクローラー開発技法」という本を買ってきた。

第1章に「10分クローラーの作成」と書いてあるし、
amazonのレビューを見ても、親切で初心者向けと書いてあったので、
「よし!クローラーが作ってみよう!!」と意気込んでいたのですが、
結構つまづいている感じ…。

今日の進捗を大まかに記してみる。

1.wgetのインストール
2.wgetの簡単な使い方はわかっていないがすっとばす。
3.Rubyの基礎はわかっているのですっとばす。
4.webrick0.rb 実行
5.webrick-template.rb 実行
6.test-webserver0.rb 実行
7.再帰ダウンロードの検証には、
  2.がわかっていないといけないことに気付く。

  本書ではwgetは
  C:\wget\bin
  の直下にあるので、wgetを使用するときは
  cd /d 〜
  を使って移動。

  また、検証の際、立ち上げたページは閉じてしまわない。
8.10分クローラーの作成
  WebサイトのエンコードはUTF-8。
  本書では、
  そのまま処理できる
  と書いてあるが、
  Windowsではどのように標準出力してよいかわからない。
  ↑
  挫折気味。

0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。