'데이터전처리' 태그의 글 목록

[Python] Pandas Dataframe 중복 제거, distinct한 값 확인

df.drop_duplicates() df 전체의 중복 제거도 할 수 있지만, 열 끼리 중복 제거도 가능하다. 위의 데이터는 pert_iname이라는 열에 중복된 데이터들이 많이 있는데, 여기서 df.drop_duplicates()로 distinct한 값은 몇 개인지 확인할 수 있다. 원래 13553개의 데이터가 중복값을 제외하면 6798개라는 것을 알 수 있다. 다른 방법으로 df.value_counts() 를 이용하면 distinct한 값을 찾아주면서 몇 개가 중복되어있는지 확인할 수 있다.

PL(Programming Language)/Python 2021.02.18

[Data Analysis] 데이터 분석 과정, 전처리의 중요성

데이터 분석 과정(Data Analysis Process) 1. Goal Definition 객관적, 구체적으로 분석 대상 정의(=문제 정의) 해당 도메인에 대한 이해 해당 프로젝트에 대한 이해 2. Data Searching & Collecting 문제 정의 후 필요한 데이터 검색 데이터 수집 및 데이터 파악 3. Data Preparation 데이터의 noise를 제거하고 원하는 형태로 데이터를 변환하는 Data preprocessing(데이터 전처리 과정)포함 최종 모델을 만들기 위한 데이터 준비 단계 관련 데이터끼리 관계 설정 및 데이터 이해, 데이터 병합 4. Modeling 어떻게 모델 설계할지 구성 R, Python 등 이용해 머신러닝 알고리즘 등 다양한 알고리즘 적용 5. Evaluatio..

AI(Artificial Intelligence)/Data Analysis 2021.02.09

[Python] Pandas Dataframe 기본(merge, concat, concat 행, 열 기준으로 병합, 연결)

예시 데이터 프레임 import pandas as pd left = pd.DataFrame({ 'id':[1,2,3,4,5], 'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 'subject_id':['sub1','sub2','sub4','sub6','sub5']}) right = pd.DataFrame( {'id':[1,2,3,4,5], 'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 'subject_id':['sub2','sub4','sub3','sub6','sub5']}) 1. 두 개의 데이터프레임을 Key 기준으로 합치기 pd.merge(left,right,on='id') 2. 두 개의 데이터프레임을 m..

PL(Programming Language)/Python 2021.01.14

[Python] Pandas Explode, Pandas Dataframe, column split 바이오데이터 처리로 다지는 Pandas 라이브러리

(실제 코드 결과로 작성, transcription factor binding site 데이터 이용) Dataframe에 새로운 column 작성하기 Dataframe의 column split 후 다른 column으로 저장하기 # df[열이름].str.split() 이용 Dataframe의 열 data를 split 후 다시 저장하기 Pandas explode 메소드 사용하기 (데이터프레임 열에 리스트로 저장된 데이터에서 리스트 요소를 행으로 추가하기) import pandas as pd f1 = pd.read_csv('test.txt', delimiter = '\t', names = ['1', '2', '3', '4', '5', '6', '7', '8', '9']) # 1~9로 열 이름 정해서 탭으로 분..

PL(Programming Language)/Python 2021.01.13

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

TY_IT💻

데이터전처리 4

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역