正規表現エディタ&データ分析ツール など

とあるプロジェクトで、データを整形する必要がありました。

(データ抽出の流れ)

①PDFデータのtextデータだけを抜き出す

②textデータを整形する

③textデータをcsvに変換

 

単純な作業ですが、思うようにいかずに試行錯誤しました。

いろいろ調べて使えそうな、エディタやデータ整理の方法です。

 

エディタ関係

1. CotEditor

mac正規表現が使えるエディタです。

文章内で、強力な正規表現の検索&置換をやってくれます。

日本製で無料です。すばらしい!

検索&置換で採用する正規表現も、perl, Ruby, Javaなどから選べます。


CotEditor -Text Editor for OS X

 

2.Text Wrangler

mac正規表現が使えるエディタ。

こちらの方がCotEditorよりスタンダードな感あり。

無料です。

TextWrangler

TextWrangler

  • Bare Bones Software, Inc.
  • Developer Tools
  • Free

 

3.サクラエディタ

windowsで人気のエディタです。

簡単な正規表現が使えます。

無料です。


Sakura Editor - A Japanese text editor

 

4.秀丸エディタ

windowsで人気のエディタ。

強力な正規表現が使えます。

サクラエディタより、動作が重め。

シェアウェアです。

(無料のお試し期間をすぎたら購入してね)

秀まるおのホームページ(サイトー企画)

 

エディタは、他にも沢山ありますが、この辺りで。

何か正規表現で大量のデータ整形につかえるエディタをご存知の方は、コメントしてください。

 

データの分析関係

1.DataWrangler

スタンフォード大学内のプロジェクトだったとか。

無料で使えるWebアプリです。

現在更新は止まっているようです。

グチャグチャ&大量のデータを整理する作業には使えませんでした。

Data Wrangler

 

2.Opne Refine (Google Refine)

データマイニングアプリ。

無料です。ダウンロードして、ローカル環境で使えます。


OpenRefine

 

正規表現エディタで、成形方法を色々トライして、

うまくいったら、うまくいった手順をプログラム化、

そして一気にデータ整形。

というのが良いのかなと思います。

もし、もっと良いやり方をご存知ならば、コメントをください。