대회 개요
이동수단의 발달에 따라 다양한 유형의 교통사고들이 계속 발생하고 있는 현실에 따라 한국자동차연구원과 대구디지털혁신진흥원에서는 해당 사고의 원인을 규명하고 사고율을 낮추기 위해, 시공간 정보로부터 사고위험도(ECLO)를 예측하는 AI 알고리즘 발굴을 목표로 본 대회를 개최한다고 한다.
ECLO(Equivalent Casualty Loss Only) : 인명피해 심각도
ECLO = 사망자수 * 10 + 중상자수 * 5 + 경상자수 * 3 + 부상자수 * 1
본 대회에서는 사고의 위험도를 인명피해 심각도로 측정한다.
데이터
train.csv
각 사건 ID에 대한 Feature는 사고일시,요일,기상상태,시군구,도로형태,노면상태,사고유형,사고유형 - 세부분류,법규위반,가해운전자 차종,가해운전자 성별,가해운전자 연령,가해운전자 상해정도,피해운전자 차종,피해운전자 성별,피해운전자 연령,피해운전자 상해정도등이 있고 각 사고 ID에 대해 사망자수,중상자수,경상자수,부상자수와 그에 따라 계산된 ECLO값으로 labeling이 되어있다.
test.csv
특이하게 train data와 test data의 feature 수가 달랐다. 생각해보니 현실에서는 새로 발생하는 일 data에 대해 모든 feature를 수집하는 것이 쉽지 않을 것으로 보인다.
다양한 feature를 기반으로 ECLO를 예측할 수 있는 train data가 있는데 막상 test data는 이용할 수 있는 feature가 너무 부족하여 당황스러운 상황이다. 이런 case를 해결하는 방법에 대해서 알아봐야겠다.
연관성 확인
우선 train data에서 각 feature와 사고 위험도의 관계를 분석해 보았다.
남구를 제외한 구에서 금,토에 사고가 많은 경향을 보였다.
생각보다 눈, 비와 같은 요인보다 안개가 위험하다는 것을 확인할 수 있었다. 그렇다고 해도 각 기상상태간 사고위험도의 격차가 그렇게 크진 않다는 것도 알 수 있었다.
여기서도 눈이 와있으면 사람들이 오히려 조심해서 사고 위험도가 떨어진다는 것을 알 수 있게 되었다.
가해자의 성별에 따른 사고 위험도는 차이가 없다는 것을 볼 수 있었다.
차대차 사고의 위험도가 가장 컸다.
과속이 사고 위험도를 압도적으로 높이는 요인이었다.
추후에 추가적인 데이터 분석을 진행해보자.
'Coloring (Additional Study) > Contest' 카테고리의 다른 글
Google Solution Challenge 2024 - STT (2) | 2024.01.14 |
---|---|
DCC 수상 후기 (2) | 2023.12.11 |
DCC 전이학습 (2) | 2023.11.03 |
DCC 한국음식 분류 모델 (0) | 2023.10.29 |
DCC Normalization (0) | 2023.10.29 |