본문 바로가기
Coloring (Additional Study)/Contest

대구 교통사고 피해 예측 AI 경진대회 - (1)

by 생각하는 이상훈 2023. 11. 19.
728x90

대회 개요

이동수단의 발달에 따라 다양한 유형의 교통사고들이 계속 발생하고 있는 현실에 따라 한국자동차연구원과 대구디지털혁신진흥원에서는 해당 사고의 원인을 규명하고 사고율을 낮추기 위해, 시공간 정보로부터 사고위험도(ECLO)를 예측하는 AI 알고리즘 발굴을 목표로 본 대회를 개최한다고 한다.

 

ECLO(Equivalent Casualty Loss Only) : 인명피해 심각도

ECLO = 사망자수 * 10 + 중상자수 * 5 + 경상자수 * 3 + 부상자수 * 1

본 대회에서는 사고의 위험도를 인명피해 심각도로 측정한다.


데이터

train.csv

각 사건 ID에 대한 Feature는 사고일시,요일,기상상태,시군구,도로형태,노면상태,사고유형,사고유형 - 세부분류,법규위반,가해운전자 차종,가해운전자 성별,가해운전자 연령,가해운전자 상해정도,피해운전자 차종,피해운전자 성별,피해운전자 연령,피해운전자 상해정도등이 있고 각 사고 ID에 대해 사망자수,중상자수,경상자수,부상자수와 그에 따라 계산된 ECLO값으로 labeling이 되어있다.

 

test.csv

특이하게 train data와 test data의 feature 수가 달랐다. 생각해보니 현실에서는 새로 발생하는 일 data에 대해 모든 feature를 수집하는 것이 쉽지 않을 것으로 보인다.

다양한 feature를 기반으로 ECLO를 예측할 수 있는 train data가 있는데 막상 test data는 이용할 수 있는 feature가 너무 부족하여 당황스러운 상황이다. 이런 case를 해결하는 방법에 대해서 알아봐야겠다.


연관성 확인

우선 train data에서 각 feature와 사고 위험도의 관계를 분석해 보았다.

남구를 제외한 구에서 금,토에 사고가 많은 경향을 보였다.

생각보다 눈, 비와 같은 요인보다 안개가 위험하다는 것을 확인할 수 있었다. 그렇다고 해도 각 기상상태간 사고위험도의 격차가 그렇게 크진 않다는 것도 알 수 있었다.

여기서도 눈이 와있으면 사람들이 오히려 조심해서 사고 위험도가 떨어진다는 것을 알 수 있게 되었다.

가해자의 성별에 따른 사고 위험도는 차이가 없다는 것을 볼 수 있었다.

차대차 사고의 위험도가 가장 컸다.

과속이 사고 위험도를 압도적으로 높이는 요인이었다.

추후에 추가적인 데이터 분석을 진행해보자.


 

728x90

'Coloring (Additional Study) > Contest' 카테고리의 다른 글

Google Solution Challenge 2024 - STT  (2) 2024.01.14
DCC 수상 후기  (2) 2023.12.11
DCC 전이학습  (2) 2023.11.03
DCC 한국음식 분류 모델  (0) 2023.10.29
DCC Normalization  (0) 2023.10.29