Pythonデータ分析入門2026|PandasとMatplotlibで始める実践ガイド【コード例付き】

使い方ガイド

「Excelでのデータ集計に限界を感じている」「Pythonでデータ分析ができるようになりたいけど、何から始めればいいかわからない」——そんな方に向けて、Pythonデータ分析の基礎を実践的に解説します。

筆者は非エンジニアからPythonを独学し、現在は業務で月間300件以上のデータ分析レポートをPythonで自動生成しています。この記事では、PandasとMatplotlibを使った実践的なデータ分析の始め方を、コード例とともにステップバイステップで解説します。

なぜPythonでデータ分析を学ぶべきなのか

データ分析ツールはExcel、R、Python、BIツールなど多岐にわたりますが、2026年現在、Pythonが最も汎用性が高く将来性のある選択肢です。

Pythonを選ぶ4つの理由

  1. 圧倒的なライブラリの充実度:Pandas、NumPy、Matplotlib、Scikit-learnなど、データ分析から機械学習まで無料で使える
  2. 学習コストの低さ:文法がシンプルで、プログラミング未経験者でも1〜2週間で基本操作を習得可能
  3. AI・機械学習との連携:データ分析の次のステップとしてAI・機械学習にシームレスに移行できる
  4. 高い市場価値:Python×データ分析スキルを持つ人材の求人は年々増加。年収の中央値も上昇傾向

Excel vs Python:データ分析ツール比較

項目ExcelPython(Pandas)R
処理可能データ量約100万行が限界数千万行対応可能数千万行対応可能
自動化VBA(限定的)◎(スクリプト化容易)
可視化○(グラフ機能)◎(Matplotlib/Seaborn)◎(ggplot2)
機械学習連携×◎(Scikit-learn等)
学習コスト◎(直感的)○(文法シンプル)△(統計知識前提)
再現性△(手動操作多い)◎(コードで記録)

環境構築:Anacondaで最速セットアップ

Pythonデータ分析の環境構築はAnacondaを使うのが最も簡単です。Pandas、NumPy、Matplotlib、Jupyter Notebookなど必要なツールが一括でインストールされます。

セットアップ手順

  1. Anacondaのダウンロード:公式サイトからOS に合ったインストーラーをダウンロード(無料)
  2. インストール実行:ウィザードに従って進めるだけ。デフォルト設定でOK
  3. Jupyter Notebook起動:Anaconda Navigatorから「Launch」をクリック、またはターミナルでjupyter notebookを実行
  4. 動作確認:新しいNotebookを作成し、import pandas as pdがエラーなく実行できればOK

軽量な環境が好みなら、VS Code + venvの組み合わせもおすすめです。pip install pandas matplotlib jupyterで必要なパッケージだけインストールできます。

Pandasの基本操作:データの読み込みから加工まで

Pandasはデータ操作に特化したPythonライブラリで、ExcelのピボットテーブルやVLOOKUPに相当する操作をコード一行で実行できます。

データの読み込み

Pandasは多様なフォーマットに対応しています。CSV、Excel、JSON、SQL、HTMLテーブルなど、pd.read_csv()pd.read_excel()のような関数1つでデータを読み込めます。

データの確認と前処理

データ分析の第一歩はデータの概要を把握することです。以下のメソッドを使い分けましょう。

  • df.head():先頭5行を表示。データの構造をざっと確認
  • df.info():各列のデータ型と欠損値の有無を確認
  • df.describe():数値列の統計量(平均、標準偏差、最大最小など)を一覧表示
  • df.isnull().sum():列ごとの欠損値数をカウント

データのフィルタリングと集計

Pandasの真価は条件フィルタリングとグループ集計の簡潔さにあります。Excelで複雑なフィルターやピボットテーブルを組む作業が、たった数行のコードで再現可能です。

  • 条件フィルタdf[df['売上'] > 100000]で売上10万円以上の行を抽出
  • グループ集計df.groupby('部門')['売上'].sum()で部門別売上合計を算出
  • ピボットテーブルpd.pivot_table(df, values='売上', index='月', columns='商品')でクロス集計

Matplotlibでデータを可視化する

MatplotlibはPythonの最も基本的なグラフ描画ライブラリです。棒グラフ、折れ線グラフ、散布図、ヒートマップなど、ビジネスレポートに必要なグラフを網羅しています。

ビジネスで使えるグラフの種類と使い分け

グラフの種類用途Matplotlibメソッド
棒グラフカテゴリ別の比較plt.bar()
折れ線グラフ時系列の推移plt.plot()
散布図2変数の相関plt.scatter()
円グラフ構成比の表示plt.pie()
ヒストグラム分布の確認plt.hist()
箱ひげ図分布とばらつきplt.boxplot()

より洗練されたグラフが必要な場合はSeabornがおすすめです。Matplotlibのラッパーライブラリで、少ないコードでプレゼンテーション品質のグラフを作成できます。

実践プロジェクト:売上データの分析フロー

学んだ知識を実践に活かすため、売上データ分析の典型的なフローを紹介します。

分析の5ステップ

  1. データ収集:CSVやExcelからPandasにデータを読み込む
  2. データクリーニング:欠損値の処理、重複の削除、データ型の変換
  3. 探索的データ分析(EDA):統計量の確認、分布の可視化、外れ値の検出
  4. 集計・可視化:月別売上推移、商品別構成比、前年比較などをグラフ化
  5. インサイト抽出:分析結果から改善施策を提案するレポートを作成

スキルアップのための学習ロードマップ

Pandas・Matplotlibの基礎を身につけたら、以下の順序でスキルを拡張していきましょう。

  1. Seaborn:統計的可視化の定番。相関行列やカテゴリ別の分布比較が簡単
  2. Plotly:インタラクティブなグラフを作成。Webダッシュボード向け
  3. Scikit-learn:機械学習の入門。回帰分析やクラスタリングで予測モデルを構築
  4. Streamlit:Pythonだけでデータ分析Webアプリを構築。プロトタイプ作成に最適
  5. SQL:データベースからの直接データ取得。PandasのSQLコネクタと連携

まとめ:Pythonデータ分析は今すぐ始められる

Pythonでのデータ分析は、Anacondaのインストールから始めれば30分以内に環境構築が完了し、すぐに実践できます。Excelの限界を感じているなら、まずはCSVファイルをPandasで読み込んでみることから始めましょう。

最初は小さな成功体験を積み重ねることが継続の鍵です。業務で使っているExcelデータをPandasで処理してみる、毎月手動で作成しているレポートを自動化してみる——そんな身近なところから始めてみてください。

あわせて読みたい

  • AI時代のプログラミング学習法ガイド
  • 機械学習入門:Pythonで始める予測モデル
  • データサイエンティストのキャリアパス

コメント

タイトルとURLをコピーしました