- pandas ํ์ผ ๋ถ๋ฌ์ค๊ธฐ
- csv ํ์ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ
import pandas as pd
df = pd.read_csv('ํ์ผ๋ช
.csv') # csvํ์ผํ์์ ๊ฐ๋จํ๊ฒ ๋ถ๋ฌ์์ง
- ํญ์ผ๋ก ๋ถ๋ฆฌ๋ txt ํ์ผ ๋ถ๋ฌ์ค๊ธฐ
import pandas as pd
df= pd.read_csv('ํ์ผ๋ช
.txt', delimiter = '\t')
# ํญ์ผ๋ก ๋ถ๋ฆฌ๋ txt(tsv ํ์๋ ๊ฐ๋ฅ) ๋ถ๋ฌ์ค๊ธฐ
- ๊ณต๋ฐฑ์ผ๋ก ๋ถ๋ฆฌ๋ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ
import pandas as pd
df = pd.read_csv(‘ํ์ผ๋ช
.ํ์ฅ์’, delimiter = ' ')
# ๊ณต๋ฐฑ์ผ๋ก ๋ถ๋ฆฌ๋ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ
- Dataframe์ data ๊ฐ์ ์ธ๊ธฐ
print(len(df.index))
print(df.shape[0])
print(len(df))
์์ ์ธ ๊ฐ ์ค ํ๋ ์ด์ฉํ๋ฉด ๋จ
โป ์ฐธ๊ณ
shape[0]: ํ / shape[1]: ์ด
- Dataframe 2๊ฐ ์ฐ๊ฒฐํ๊ธฐ
import pandas as pd
pd.concat([df1, df2])
- ์ด ๊ธฐ์ค, ํ ๊ธฐ์ค merge ์ ๋ค๋ฅธ ๊ฐ๋ ์ผ๋ก ๊ทธ๋ฅ ์ฐ๊ฒฐ๋ง ํด์ฃผ๋ ์ฝ๋
- ๋ง์ฝ ํ ๋ฐ์ดํฐํ๋ ์์ ๋ค๋ฅธ ๋ฐ์ดํฐํ๋ ์์ ์ด์ด ์๋ค๋ฉด, NaN(์์)์ผ๋ก ๊ฐ์ด ๋ค์ด๊ฐ
- ์ด์ด ๋ค๋ฅผ ๋ ๊ตณ๊ตณ
- Dataframe csv๋ txt๋ก ์ ์ฅํ๊ธฐ
df.to_csv('ํ์ผ๋ช
.csv') # ๊ทธ๋ฅ csv๋ก ์ ์ฅ
df.to_csv('ํ์ผ๋ช
.txt', sep = '\t') # ํญ์ผ๋ก ๋ถ๋ฆฌ๋ txt ํ์ผ๋ก ์ ์ฅ
df.to_csv('ํ์ผ๋ช
.ํ์ฅ์', index = False) # index ๋นผ๊ณ ์ ์ฅํ๊ธฐ
- Dataframe ์ด์ value ํ์ธํ๊ธฐ
import pandas as pd
f1 = pd.read_csv('9606.protein.actions.detailed.v9.1.txt', sep = '\t')
lists = f1['action']
temp = pd.Series(lists)
print(temp.value_counts())
- pd.Series.value_counts() ์ด์ฉ
action ์ด์ vaue ํ์ธ
- Dataframe์ column_name ๋ณด๊ธฐ
column_name = list(df.columns)
#column_name ๋ณด๊ธฐ
dataframe.columns ์ด์ฉํด column_name ๋ณด๊ธฐ
728x90