데이터 분석 4일차 - 기본 문법 공부
조금씩, 천천히
pandas https://pandas.pydata.org/
pandas를 사용하기 위해서 PyCharm을 이용해서 pandas package를 설치하면 아래와 같이 import에서 사용 가능하다.
import pandas as pd
pandas에서의 datatable에 대한 표현
import pandas as pd
df = pd.DataFrame(
{
"Name": [
"Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth",
],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"],
}
)
print(df)
- DataFrame는 컬러명을 가지고 있는 2차원 데이터 구조
- DateFrame의 각각의 컬럼은 Series
D:\GIT\sample\sample\python\python_deeplearning\venv\Scripts\python.exe D:/GIT/sample/sample/python/python_deeplearning/dataanalysis_20210819_pandas.py
Name Age Sex
0 Braund, Mr. Owen Harris 22 male
1 Allen, Mr. William Henry 35 male
2 Bonnell, Miss. Elizabeth 58 female
Process finished with exit code 0
- 그래서 만약 내가 특정 컬럼에 관심이 있다면 아래와 같이 코딩이 가능하고,
print(df["Age"])
0 22
1 35
2 58
Name: Age, dtype: int64
- max 값을 구하거나 , 데이터의 basic statistics 에 관심이 있다면
print(df["Age"].max())
print(df.describe())
# print(df["Age"].max()) 의 결과
58
# print(df.describe()) 의 결과
Age
count 3.000000
mean 38.333333
std 18.230012
min 22.000000
25% 28.500000
50% 35.000000
75% 46.500000
max 58.000000