
データクレンジング入門 - OpenRefineでデータをキレイにする技術
無料ツールOpenRefineを利用した
データクレンジングの実践
OpenRefineというオープンソースで無料のウェブアプリケーションを使用して「データをキレイにする」ための方法論と具体的な手法をご紹介します。
マウスの操作のみでデータクレンジングを行う方法を学べますが、一部、スクリプトとよばれる一行単位で完結するような短めのプログラミング言語を使う場面もあります。
データをキレイにする処理(データ前処理、データプレパレーション、データクレンジング、データラングリング等とも呼ばれる処理)を行うことで、データの可視化や分析に用いるツールで扱いやすいデータとなり、可視化、分析の幅を広げ、打ち手を増やすことが可能になります。
※ なお、このコースは「データをキレイにする」ことがテーマであり、データ取得やデータ可視化については扱っていません(話の流れで登場している箇所はあります)。
このコースの特徴
このコースでは、作業全体を、クレンジングと整形、列と行の合計4つに作業を分類し、具体的な作業内容について、解説していきます。
ほかの書籍やツールなどで紹介されているクレンジング方法は、抽出/集約/結合などといったデータベースの操作を基本としているため、一般の方には少し分かりづらい点がありますが、このコースでは初心者の方にも分かりやすい構成で解説しています。
このコースの構成
- A...セクション1〜3:原理原則の紹介
- B...セクション4〜10:ツール操作方法の紹介
- C...セクション11〜13:サンプルデータを用いた演習
- D...セクション14:まとめ
すべての動画を最初から最後までこの順序で見なければならない、ということはありません。
たとえば、
- A→C→B(基礎と実践をできるだけ最短で)
- C→B→A(座学は後回しでいいので、まずはサンプルを言われたとおりに操作しながら慣れたい)
といった順序でご覧いただくなど、受講者の方のニーズに応じて、柔軟に対応できる構成をとっています。
このコースで対象とするデータ
リスト形式の表データを対象にしています。
複雑な階層のファイル、ネットワークデータ、自然言語の文章や画像/音声/動画ファイルといったメディアファイルは対象にしていません。
このコースで対象としていない処理
機械学習のための前処理は対象にしていません。
データの匿名化は対象にしていません。
このコースで得られるもの
- データ取得とデータ可視化・分析の間にある、これまでなかなか一般向けに言語化されてこなかった、データをキレイにする行為。
- 無料ツールOpen Refineを用いたデータをキレイにするための実際のやり方を学びます。
- データ可視化をするための最低限の条件であるデータの状態とは何であるかが学べます。
- 実際公開されている公的なデータを用いて、クレンジングや整形をハンズオンで画面を見ながらやり方を学べます。
こんな方にオススメ
- プログラマーでなくデータ分析の専門でもない一般の方
- 効率よくデータを活用したい方
- 普段Excelを使っていて、他のツールも使ってステップアップしたい方
無料のツールを用いて、データ活用の専門家でない、一般の方がどなたでもデータを活用いただけるよう、丁寧に解説しています。このコースでデータクレンジングの基礎を学び、データをより柔軟に扱える技術を身につけましょう。
About the instructor

多摩美術大学 情報デザイン学科 非常勤講師/国立国会図書館 委嘱研究員/東京大学空間情報科学研究センター 柴崎研究室 協力研究員/千葉工業大学大学院 デザイン科学専攻/コード・フォー・トウキョウ 代表/データ・ビジュアライゼーション・ジャパン 発起人/合同会社ノーテーション 代表社員/おもちゃコンサルタント。
株式会社ビジネス・アーキテクツにてデザイナー及びアートディレクターを7年間経験後、2008年に独立。
近年では、データ・ビジュアライゼーションの実践と普及に関する様々な活動をおこなっている。
共著書に「RESASの教科書」がある。
Course content
Loading |