본문 바로가기
  • SDXL 1.0 + 한복 LoRA
  • SDXL 1.0 + 한복 LoRA
Study/인공지능학습

Kaggle 도전 season 1 : House Prices - Advanced Regression Techniques : EDS

by 마즈다 2021. 9. 27.
반응형

 

Kaggle에 도전하겠다고 선언한 것이 벌써 석달 전일이다.

그 출발점으로 Getting Started 카테고리의 House Prices - Advanced Regression Techniques를

진행해보기로 했었다.

 

사실 진즉에 이 Competition에 참가하여 노트북을 작성하긴 하였다.

 

기존에 경쟁에 참여한 참가자들의 노트북도 참조하고, 또 그간 학습한 내용도 참조하고 해서 나름 어느정도

진행을 하긴 했는데… 이렇게 진행하고 보니 내 힘으로 한 것이 하나도 없다는 깊은 허무가 밀려왔다…ㅠ.ㅠ

 

그리고 세세한 부분에서 그간 배운 것을 어떻게 써먹허야 하는지 막막한 경우도 적지 않았다.

결국 시간이 좀 걸리더라도 기존에 배운 정석을 단지 C&P로 하는 것이 아닌, 나만의 힘으로 따라 가보자는

생각이 들었고, 그렇게 노트북을 다시 정리하기 시작했다.

 

우선 이 Competition의 데이터 세트를 좀 더 상세하게 분석하는 것을 출발점으로 삼았다.

data_description.txt에 있는 내용들을 몇가지 항목(의미, 데이터 유형, 결측치, 인코딩 여부, 집값에 

미치는 영향도)으로 정리를 하고 이를 기반으로 시각화, 결측치 처리, object 타입의 인코딩 등을

진행하기로 하였다.

 

하지만 이 역시 만만한 작업은 아니었다. 가장 어려운 점은 각 용어들이 부동산에 특화된 용어들이다보니

자연스러운 해석이 쉽지 않았다. 대충 어떤 부분을 말하는 지는 알겠는데 정확히 어떤 구조물, 어떤 형태를

말하는지 알기가 어려웠다. 그렇다보니 데이터에 대한 직관적인 분석이 제대로 이루어지기 힘들었다.

 

물론 어찌보면 이러한 작업들이 사족이 될 수도 있겠지만 그래도 본격적인 분석에 들어가기 전에 직관적으로

영감을 얻을 수 있다면 더 좋지 않을까 하는 생각에서 일단 시도를 해보았다.

 

그렇게 해서 정리한 것이 아래의 내용이다.

최종적으로 알아내야 하는 집값을 제외한 79개의 특성들을 앞서 말한 5개의 항목에 대해 정리를 해본 것이다.

 

EDS

 

🔘 데이터 설명 자료 분석 (for Korean)

1. MSSubClass: Identifies the type of dwelling involved in the sale.

* 의미 : 주거 유형

* 데이터 유형 : 범주형(int64)

* 결측치 : 없음

* 인코딩 여부 : 숫자형 코드로 되어있으므로 별다른 처리는 필요없음

* 집값에 미치는 영향도 : 어느정도 영향도가 높을 것 같으나 항목간 우선순위는 알기 어려움 (각 항목의 집값과의 상관관계 확인 필요)

 

2. MSZoning: Identifies the general zoning classification of the sale.

* 의미 : 주택이 위치한 구역 정보

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자형 코드로 되어있어 인코딩이 필요함. 각 항목의 집값과의 상관관계 확인 후 인코딩 종류 결정

* 집값에 미치는 영향도 : 어느정도 영향도가 높을 것 같으나 항목간 우선순위는 알기 어려움 (각 항목의 집값과의 상관관계 확인 필요)

 

3. LotFrontage: Linear feet of street connected to property

* 의미 : 전면 부지 - 집에서 도로까지의 직선 거리 (feet 단위)

* 데이터 유형 : 수치형(float64)

* 결측치 : 459건

* 인코딩 여부 : 수치형 자료이므로 별다른 전처리는 필요없음

* 집값에 미치는 영향도 : 어느정도 영향도가 있을 것으로 보임

 

4. LotArea: Lot size in square feet

* 의미 : 부지 면적 (평방 feet 단위)

* 데이터 유형 : 수치형(int64)

* 결측치 : 없음

* 인코딩 여부 : 수치형 자료이므로 별다른 전처리는 필요없음 (비교적 큰 값으로 스케일링은 필요할 수 있음)

* 집값에 미치는 영향도 : 영향도가 높을 것으로 보임

 

5. Street: Type of road access to property

* 의미 : 집까지 이어지는 길의 형태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 각각 아이템이 비포장과 포장으로 가중치가 적용되어도 되므로 레이블 인코딩으로 처리.

* 집값에 미치는 영향도 : 어느정도 영향도가 있을 것으로 보임

 

6. Alley: Type of alley access to property

* 의미 : 집에 접근하는 골목의 형태

* 데이터 유형 : 범주형(object)

* 결측치 : 1369건 - 결측치가 너무 많아 특성 자체를 제거

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 각각 아이템이 비포장과 포장 및 없음으로 가중치가 적용되어도 되므로 레이블 인코딩으로 처리.

* 집값에 미치는 영향도 : 어느정도 영향도가 있을 것으로 보임

 

7. LotShape: General shape of property

* 의미 : 집의 일반적인 형태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 아이템들의 의미와 아이템 개수(4개)를 고려했을 때 원 핫 인코딩으로 처리

* 집값에 미치는 영향도 : 영향도가 낮을 것으로 보임

 

8. LandContour: Flatness of the property

* 의미 : 집의 평탄도

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 각 항목의 집값과의 상관관계 확인 후 인코딩 종류 결정

* 집값에 미치는 영향도 : 어느정도 영향도가 있을 것으로 보임

 

9. Utilities: Type of utilities available

* 의미 : 사용 가능한 편의 시설 형태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 항목이 우선순위가 높은 순으로 정렬되어있어 레이블 인코딩 처리

* 집값에 미치는 영향도 : 영향도가 높을 것으로 보임

 

10. LotConfig: Lot configuration

* 의미 : 부지 구성 (도로와의 인접 형태)

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 항목이 집값과 연관성이 클 것으로 보이나 순서가 무작위이므로 원 핫 인코딩 처리

* 집값에 미치는 영향도 : 영향도가 높을 것으로 보임

 

11. LandSlope: Slope of property

* 의미 : 집의 경사

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 항목이 집값과 연관성이 클 것으로 보이며 우선순위가 높은 순으로 정렬되어 있으므로 레이블 인코딩 처리

* 집값에 미치는 영향도 : 영향도가 높을 것으로 보임

 

12. Neighborhood: Physical locations within Ames city limits

* 의미 : 도시 경계로부터의 물리적 위치

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 지명과 연관되어 있음. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 영향도가 예측할 수 없음 (각 항목의 집값과의 상관관계 확인 필요)

 

13. Condition1: Proximity to various conditions

* 의미 : 집 주변의 다양한 환경 - 간선도로 및 철도 인접 여부

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 도로 및 철도에 인접한 정도로 부정 혹은 긍정적인 영향도가 있을 것으로 보임

 

14. Condition2: Proximity to various conditions (if more than one is present)

* 의미 : 집 주변의 다양한 환경 (13번에서 선택한 것 외에 추가적인 환경이 있는 경우 선택, 항목은 13과 동일)

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 도로 및 철도에 인접한 정도로 부정 혹은 긍정적인 영향도가 있을 것으로 보임

 

15. BldgType: Type of dwelling

* 의미 : 주거 유형 (단독 주택, 다세대 주택, 타운하우스 등)

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

16. HouseStyle: Style of dwelling

* 의미 : 주택 형태 (층수 및 현관 구조)

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

17. OverallQual: Rates the overall material and finish of the house

* 의미 : 집의 전체 재료와 마감

* 데이터 유형 : 범주형(int64)

* 결측치 : 없음

* 인코딩 여부 : 수치형 항목들로 인코딩 필요 없음

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

18. OverallCond: Rates the overall condition of the house

* 의미 : 집의 전반적인 상태

* 데이터 유형 : 범주형(int64)

* 결측치 : 없음

* 인코딩 여부 : 수치형 항목들로 인코딩 필요 없음

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

19. YearBuilt: Original construction date

* 의미 : 시공일

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

20. YearRemodAdd: Remodel date (same as construction date if no remodeling or additions)

* 의미 : 리모델링 날짜(리모델링 없는 경우 시공일과 동일)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

21. RoofStyle: Type of roof

* 의미 : 지붕 형태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 뱔로 없을 것으로 보임

 

22. RoofMatl: Roof material

* 의미 : 지붕 재질

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 뱔로 없을 것으로 보임

 

23. Exterior1st: Exterior covering on house

* 의미 : 집 외장

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

24. Exterior2nd: Exterior covering on house (if more than one material)

* 의미 : 집 외장 (추가 선택 항목, 2가지 이상의 재료가 쓰인 경우 23번에 이어 추가로 선택)

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

25. MasVnrType: Masonry veneer type

* 의미 : 벽돌 외장 유형

* 데이터 유형 : 범주형(object)

* 결측치 : 8건, object 형이며 항목간에 특별한 관계 없으므로 가장 많은 값으로 채울 것

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 별로 없을 것으로 보임

 

26. MasVnrArea: Masonry veneer area in square feet

* 의미 : 벽돌 외장 면적 (평방피트)

* 데이터 유형 : float64

* 결측치 : 8건, 25번 항목과 관련되어 있으므로 25번 항목의 가장 많은 값의 면적 평균으로 채울 것

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 별로 없을 것으로 보임

 

27. ExterQual: Evaluates the quality of the material on the exterior

* 의미 : 외장 재료 품질

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으므로 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

28. ExterCond: Evaluates the present condition of the material on the exterior

* 의미 : 외장 재료 현 상태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으므로 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

29. Foundation: Type of foundation

* 의미 : 건물 바닥재 유형

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없을 것 같으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 별로 없을 것으로 보임

 

30. BsmtQual: Evaluates the height of the basement

* 의미 : 지하실 높이 (높이 값이 아니라 높이에 따른 좋고 나쁨의 정도)

* 데이터 유형 : 범주형(object)

* 결측치 : 37건, 비교적 적은 건수이며 이후 지하실 관련 항목들의 결측치 건수가 모두 유사하므로 NA(지하실 없음)로 채움

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

31. BsmtCond: Evaluates the general condition of the basement

* 의미 : 지하실의 일반적인 상태

* 데이터 유형 : 범주형(object)

* 결측치 : 37건, 비교적 적은 건수이며 지하실 관련 항목들의 결측치 건수가 모두 유사하므로 NA(지하실 없음)로 채움

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

32. BsmtExposure: Refers to walkout or garden level walls

* 의미 : 지하실에서 밖으로 나가는 문이 있는지 혹은 벽 높이가 정원 수준인지

* 데이터 유형 : 범주형(object)

* 결측치 : 38건, 비교적 적은 건수이며 지하실 관련 항목들의 결측치 건수가 모두 유사하므로 NA(지하실 없음)로 채움

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

33. BsmtFinType1: Rating of basement finished area

* 의미 : 지하실 마감 등급

* 데이터 유형 : 범주형(object)

* 결측치 : 37건, 비교적 적은 건수이며 지하실 관련 항목들의 결측치 건수가 모두 유사하므로 NA(지하실 없음)로 채움

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

34. BsmtFinSF1: Type 1 finished square feet

* 의미 : 첫 유형의 지하실 마감 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

35. BsmtFinType2: Rating of basement finished area (if multiple types)

* 의미 : 지하실 마감 등급(다중 형태인 경우)

* 데이터 유형 : 범주형(object)

* 결측치 : 38건, 비교적 적은 건수이며 지하실 관련 항목들의 결측치 건수가 모두 유사하므로 NA(지하실 없음)로 채움

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

36. BsmtFinSF2: Type 2 finished square feet

* 의미 : 두 번째 유형의 지하실 마감 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

37. BsmtUnfSF: Unfinished square feet of basement area

* 의미 : 마감되지 않은 지하실 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

38. TotalBsmtSF: Total square feet of basement area

* 의미 : 지하실의 전체 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

39. Heating: Type of heating

* 의미 : 난방(보일러나 히터) 형태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위는 없으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

40. HeatingQC: Heating quality and condition

* 의미 : 난방 품질과 상태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

41. CentralAir: Central air conditioning

* 의미 : 중앙 냉방 여부

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 없으며 항목 개수가 2개이므로 원-핫 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

42. Electrical: Electrical system

* 의미 : 전기 시스템

* 데이터 유형 : 범주형(object)

* 결측치 : 1건, 가장 많은 값으로 채움

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 없으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

43. 1stFlrSF: First Floor square feet

* 의미 : 첫 번째 층의 넓이

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

44. 2ndFlrSF: Second floor square feet

* 의미 : 두 번째 층의 넓이

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

45. LowQualFinSF: Low quality finished square feet (all floors)

* 의미 : 전체 층 중 낮은 품질로 마감된 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

46. GrLivArea: Above grade (ground) living area square feet

* 의미 : 주거용 지상 공간의 넓이 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

47. BsmtFullBath: Basement full bathrooms

* 의미 : 지하실의 (모든 시설이 갖춰진)욕실 수

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

48. BsmtHalfBath: Basement half bathrooms

* 의미 : 지하실의 (샤워시설 및 욕조가 없는)욕실 수

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 조금 있을 것으로 보임

 

49. FullBath: Full bathrooms above grade

* 의미 : 지상층의 (모든 시설이 갖춰진)욕실 수

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

50. HalfBath: Half baths above grade

* 의미 : 지상층의 (샤워시설 및 욕조가 없는)욕실 수

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

51. Bedroom: Bedrooms above grade (does NOT include basement bedrooms)

* 의미 : 지상층의 침실 수 (지하실의 침실은 제외)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

52. KitchenAbvGr: Kitchens above grade

* 의미 : 지상층의 주방 수

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

53. KitchenQual: Kitchen quality

* 의미 : 주방의 품질

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

54. TotRmsAbvGrd: Total rooms above grade (does not include bathrooms)

* 의미 : 지상층의 전체 방 수 (욕실 제외)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 높을 것으로 보임

 

55. Functional: Home functionality (Assume typical unless deductions are warranted)

* 의미 : 집의 기능성 (공제가 보장되지 않는 경우 일반으로 가정) - 집이 제구실을 하는지?

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

56. Fireplaces: Number of fireplaces

* 의미 : 벽난로 개수

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 별로 없을 것으로 보임

 

57. FireplaceQu: Fireplace quality

* 의미 : 벽난로 품질

* 데이터 유형 : 범주형(object)

* 결측치 : 690 - Firepalces의 값과 연관지어 판단을 해야 하나 Fireplaces가 0인 경우 결측치가 있을 것으로 추측할 수 있음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 별로 없을 것으로 보임

 

58. GarageType: Garage location

* 의미 : 차고 위치

* 데이터 유형 : 범주형(object)

* 결측치 : 81 - 결측치는 차고가 없는 것으로 간주하여 NA로 채움 (GarageCars가 0인 경우 결측치가 있음)

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 없으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

59. GarageYrBlt: Year garage was built

* 의미 : 차고 건설 연도

* 데이터 유형 : float64 - 년도이므로 날짜 타입으로 변환 필요

* 결측치 : 81 - 결측치는 차고가 없는 것으로 간주하여 0000으로 채움 (GarageCars가 0인 경우 결측치가 있음)

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

60. GarageFinish: Interior finish of the garage

* 의미 : 차고 인테리어 마감

* 데이터 유형 : 범주형(object)

* 결측치 : 81 - 결측치는 차고가 없는 것으로 간주하여 NA로 채움 (GarageCars가 0인 경우 결측치가 있음)

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 없으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

61. GarageCars: Size of garage in car capacity

* 의미 : 주차 가능 대수 기준 차고 크기

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

62. GarageArea: Size of garage in square feet

* 의미 : 차고 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

63. GarageQual: Garage quality

* 의미 : 차고 품질

* 데이터 유형 : 범주형(object)

* 결측치 : 81 - 결측치는 차고가 없는 것으로 간주하여 NA로 채움 (GarageCars가 0인 경우 결측치가 있음)

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

64. GarageCond: Garage condition

* 의미 : 차고 상태

* 데이터 유형 : 범주형(object)

* 결측치 : 81 - 결측치는 차고가 없는 것으로 간주하여 NA로 채움 (GarageCars가 0인 경우 결측치가 있음)

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 있으며 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

65. PavedDrive: Paved driveway

* 의미 : 진입로 포장 상태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 없으며 항목 개수가 적어 원-핫-인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

66. WoodDeckSF: Wood deck area in square feet

* 의미 : 나무 바닥 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 별로 없을 것으로 보임

 

67. OpenPorchSF: Open porch area in square feet

* 의미 : 개방된 베란다 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

68. EnclosedPorch: Enclosed porch area in square feet

* 의미 : 막힌 베란다 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

69. 3SsnPorch: Three season porch area in square feet

* 의미 : 3계절 베란다 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

70. ScreenPorch: Screen porch area in square feet

* 의미 : 유리벽 베란다 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

71. PoolArea: Pool area in square feet

* 의미 : 풀장 면적 (평방피트)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 상당히 있을 것으로 보임

 

72. PoolQC: Pool quality

* 의미 : 풀장 품질

* 데이터 유형 : 범주형(object)

* 결측치 : 1453 - 결측치가 너무 많아 컬럼 자체를 제거

* 인코딩 여부 : 결측치가 너무 많아 컬럼 자체를 제거

* 집값에 미치는 영향도 : 결측치가 너무 많아 컬럼 자체를 제거

 

73. Fence: Fence quality

* 의미 : 울타리 품질

* 데이터 유형 : 범주형(object)

* 결측치 : 1179 - 결측치가 너무 많아 컬럼 자체를 제거

* 인코딩 여부 : 결측치가 너무 많아 컬럼 자체를 제거

* 집값에 미치는 영향도 : 결측치가 너무 많아 컬럼 자체를 제거

 

74. MiscFeature: Miscellaneous feature not covered in other categories

* 의미 : 다른 카테고리에서 다루지 않은 기타 기능

* 데이터 유형 : 범주형(object)

* 결측치 : 1406 - 결측치가 너무 많으나 MiscVal과 연관지어 NA로 채움

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 없으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

75. MiscVal: $Value of miscellaneous feature

* 의미 : 기타 기능의 가치 ($)

* 데이터 유형 : int64

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 

76. MoSold: Month Sold (MM)

* 의미 : 팔린 월

* 데이터 유형 : int64 - 날짜 타입으로 변환 필요

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 거의 없을 것으로 보임

 

77. YrSold: Year Sold (YYYY)

* 의미 : 팔린 연도

* 데이터 유형 : int64 - 날짜 타입으로 변환 필요

* 결측치 : 없음

* 인코딩 여부 : N/A

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 거의 없을 것으로 보임

 

78. SaleType: Type of sale

* 의미 : 팔린 유형

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 없으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 거의 없을 것으로 보임

 

79. SaleCondition: Condition of sale

* 의미 : 판매 상태

* 데이터 유형 : 범주형(object)

* 결측치 : 없음

* 인코딩 여부 : 문자열 범주들로 수치형으로 인코딩 필요. 우선순위가 없으나 항목 개수가 많아 레이블 인코팅 처리

* 집값에 미치는 영향도 : 집값에 미치는 영향도가 어느정도 있을 것으로 보임

 


 

정리

 

모자라는 부분, 부정확한 부분이 있어 이 정리가 어떤 의미를 갖게될지는 잘 모르겠다. 하지만 앞으로 진행할

시각화, 결측치 처리, 인코딩 처리에 대해서 어느정도 도움이 되지 않을까 하는 생각이다.

 

이 정리 항목 중 ‘집값에 미치는 영향도’는 사실 개인적인 감으로 대충 끼워맞춘 것이라 우선 잡값과의 상관

관계 분석을 통해 임시로 간단하게나마 특성들의 가중치를 매겨봐야겠다.

 

이 것이 다음 진행될 작업이다.

반응형