読み方 : パンダス
pandas
概要

主に「DataFrame」と呼ばれる二次元の表形式データ構造と、「Series」と呼ばれる一次元配列を中心に構成されている。DataFrameはExcelの表のように行と列で構成される二次元のデータ構造で、異なるデータ型の列を混在させて扱うことができる。Seriesは一次元の配列状のデータ構造で、DataFrameの一列一列がSeriesに相当する。
CSVやJSON、Excelファイル、リレーショナルデータベースなど多様な形式の入力元からデータを読み込む機能が標準で備わっており、一行のコードで大量のデータをDataFrameとして取り込むことができる。読み込んだデータに対しては、欠損値の処理、重複行の削除、列の追加や変換、条件によるフィルタリングなど、実務でよく必要とされる操作を簡潔なコードで実行できる。
また、複数のDataFrameを結合、マージする機能や、データをグループ別に集計する「groupby」機能なども用意されている。売上データを商品カテゴリ別に合計したり、日付ごとの平均値を算出したりといった集計処理を、SQLに近い感覚で直感的に記述できる。時系列データの処理にも対応しており、日付や時間を基準とした集計や変換を行うことができる。
単体でも強力なデータ加工ライブラリとして利用できるが、NumPyやMatplotlib、scikit-learnといった他のPythonライブラリとの親和性も高い。これらを組み合わせることで、データの読み込みから分析、可視化、機械学習モデルへの入力までを一貫したPython環境で処理できる。