読み方 : パンダス

pandas

概要

pandasとは、Pythonデータの集計や加工、分析を効率的に行うことができるオープンソースライブラリデータサイエンス機械学習の前処理において世界的に広く使われている標準的なツールである。
pandasのイメージ画像

主に「DataFrame」と呼ばれる二次元の表形式データ構造と、「Series」と呼ばれる一次元配列を中心に構成されている。DataFrameはExcelの表のように行と列で構成される二次元のデータ構造で、異なるデータ型の列を混在させて扱うことができる。Seriesは一次元の配列状のデータ構造で、DataFrameの一列一列がSeriesに相当する。

CSVJSONExcelファイルリレーショナルデータベースなど多様な形式の入力元からデータを読み込む機能が標準で備わっており、一行のコードで大量のデータをDataFrameとして取り込むことができる。読み込んだデータに対しては、欠損値の処理、重複行の削除、列の追加や変換、条件によるフィルタリングなど、実務でよく必要とされる操作を簡潔なコードで実行できる。

また、複数のDataFrameを結合、マージする機能や、データをグループ別に集計する「groupby」機能なども用意されている。売上データを商品カテゴリ別に合計したり、日付ごとの平均値を算出したりといった集計処理を、SQLに近い感覚で直感的に記述できる。時系列データの処理にも対応しており、日付や時間を基準とした集計や変換を行うことができる。

単体でも強力なデータ加工ライブラリとして利用できるが、NumPyやMatplotlib、scikit-learnといった他のPythonライブラリとの親和性も高い。これらを組み合わせることで、データの読み込みから分析、可視化、機械学習モデルへの入力までを一貫したPython環境で処理できる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。