正規表現エディタ&データ分析ツール など
とあるプロジェクトで、データを整形する必要がありました。
(データ抽出の流れ)
①PDFデータのtextデータだけを抜き出す
②textデータを整形する
③textデータをcsvに変換
単純な作業ですが、思うようにいかずに試行錯誤しました。
いろいろ調べて使えそうな、エディタやデータ整理の方法です。
エディタ関係
1. CotEditor
文章内で、強力な正規表現の検索&置換をやってくれます。
日本製で無料です。すばらしい!
検索&置換で採用する正規表現も、perl, Ruby, Javaなどから選べます。
CotEditor -Text Editor for OS X
2.Text Wrangler
こちらの方がCotEditorよりスタンダードな感あり。
無料です。
3.サクラエディタ
windowsで人気のエディタです。
簡単な正規表現が使えます。
無料です。
Sakura Editor - A Japanese text editor
4.秀丸エディタ
windowsで人気のエディタ。
強力な正規表現が使えます。
サクラエディタより、動作が重め。
シェアウェアです。
(無料のお試し期間をすぎたら購入してね)
エディタは、他にも沢山ありますが、この辺りで。
何か正規表現で大量のデータ整形につかえるエディタをご存知の方は、コメントしてください。
データの分析関係
1.DataWrangler
スタンフォード大学内のプロジェクトだったとか。
無料で使えるWebアプリです。
現在更新は止まっているようです。
グチャグチャ&大量のデータを整理する作業には使えませんでした。
2.Opne Refine (Google Refine)
データマイニングアプリ。
無料です。ダウンロードして、ローカル環境で使えます。
正規表現エディタで、成形方法を色々トライして、
うまくいったら、うまくいった手順をプログラム化、
そして一気にデータ整形。
というのが良いのかなと思います。
もし、もっと良いやり方をご存知ならば、コメントをください。