빅 데이터 분석 프로젝트 주제 - big deiteo bunseog peulojegteu juje

빅 데이터 분석 프로젝트 주제 - big deiteo bunseog peulojegteu juje

서울시 빅데이터 캠퍼스 반출정책 2019.12. 서울시 빅데이터 캠퍼스 (서울특별시 스마트 도시 정책관)

빅데이터캠퍼스 반출

반출 기본 사항원칙적으로 캠퍼스 내에서 분석을 완료하기를 권장함분석 완료 후 분석결과요약서 등을 다른 사람들과 공유함이 원칙임중간산출물 혹은 최종결과물은 반출심사를 거쳐 외부로(개인에게) 제공됨반출이 가능한 형태는 원본데이터와 분석산출물로 구분됨반출요청서에 반출 신청한 자료 각각에 대해 출처와 산출과정을 자세히 명시해야 심사 가능용어 정의반출신청 : 원본데이터 또는 분석산출물을 캠퍼스 외부로 제공하도록 신청본데이터 : 분석산출물이 아닌 단순 내부 자료(원본데이터를 신청하는 경우를 단순 자료 제공으로 처리함)분석산출물 : 캠퍼스에서 제공하는 데이터를 활용하여 도출해 낸 중간결과나 분석하여 작성한 소스코드, 데이터 및 결과보고서 등 문서. 분석산출물을 작성하는 방식은 발췌처리와 기초통계처리, 통계처리로 정의함.발췌처리 : 원본데이터를 형태 그대로 일부분을 추출 처리기초통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 합계, 평균 등 기초통계처리통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 검정값, 범주화, 지수화 등 처리

반출 가능 여부

원본데이터 반출반출 가능
  • 사이트에 기공개되어 있는 원본데이터(단, 기공개된 외부 홈페이지들을 통해 다운로드 권장)
  • [표1]~[표8]까지의 목록 중 원본데이터 반출이 가능한 경우
  • 길단위 추정 유동인구(도로명주소 도로링크 단위)는 원본데이터 반출이 불가하나 예외적으로 보고서용 등 꼭 필요한 경우에 한해서 동단위 일부(3~4개동)의 반출신청 시 제공처에 문의 후 반출가능여부 판단(단, 개인(팀)당 한번으로 제한함)
  • 열린데이터 광장 데이터셋(http://data.seoul.go.kr에서도 다운로드 가능)
  • 지역경계 shp파일 중 통계청 폴더의 시, 구, 행정동, 집계구 경계, 행정안전부 폴더
반출 불가능
  • 반출이 제한되어 있는 원본데이터
  • 지역경계 shp파일 중 통계청 폴더의 기초단위구
  • 서울시 배경지도

빅 데이터 분석 프로젝트 주제 - big deiteo bunseog peulojegteu juje

서울시 빅데이터 캠퍼스 반출정책 2019.12. 서울시 빅데이터 캠퍼스 (서울특별시 스마트 도시 정책관)

빅데이터캠퍼스 반출

반출 기본 사항원칙적으로 캠퍼스 내에서 분석을 완료하기를 권장함분석 완료 후 분석결과요약서 등을 다른 사람들과 공유함이 원칙임중간산출물 혹은 최종결과물은 반출심사를 거쳐 외부로(개인에게) 제공됨반출이 가능한 형태는 원본데이터와 분석산출물로 구분됨반출요청서에 반출 신청한 자료 각각에 대해 출처와 산출과정을 자세히 명시해야 심사 가능용어 정의반출신청 : 원본데이터 또는 분석산출물을 캠퍼스 외부로 제공하도록 신청본데이터 : 분석산출물이 아닌 단순 내부 자료(원본데이터를 신청하는 경우를 단순 자료 제공으로 처리함)분석산출물 : 캠퍼스에서 제공하는 데이터를 활용하여 도출해 낸 중간결과나 분석하여 작성한 소스코드, 데이터 및 결과보고서 등 문서. 분석산출물을 작성하는 방식은 발췌처리와 기초통계처리, 통계처리로 정의함.발췌처리 : 원본데이터를 형태 그대로 일부분을 추출 처리기초통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 합계, 평균 등 기초통계처리통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 검정값, 범주화, 지수화 등 처리

반출 가능 여부

원본데이터 반출반출 가능
  • 사이트에 기공개되어 있는 원본데이터(단, 기공개된 외부 홈페이지들을 통해 다운로드 권장)
  • [표1]~[표8]까지의 목록 중 원본데이터 반출이 가능한 경우
  • 길단위 추정 유동인구(도로명주소 도로링크 단위)는 원본데이터 반출이 불가하나 예외적으로 보고서용 등 꼭 필요한 경우에 한해서 동단위 일부(3~4개동)의 반출신청 시 제공처에 문의 후 반출가능여부 판단(단, 개인(팀)당 한번으로 제한함)
  • 열린데이터 광장 데이터셋(http://data.seoul.go.kr에서도 다운로드 가능)
  • 지역경계 shp파일 중 통계청 폴더의 시, 구, 행정동, 집계구 경계, 행정안전부 폴더
반출 불가능
  • 반출이 제한되어 있는 원본데이터
  • 지역경계 shp파일 중 통계청 폴더의 기초단위구
  • 서울시 배경지도

빅 데이터 분석 프로젝트 주제 - big deiteo bunseog peulojegteu juje

서울시 빅데이터 캠퍼스 반출정책 2019.12. 서울시 빅데이터 캠퍼스 (서울특별시 스마트 도시 정책관)

빅데이터캠퍼스 반출

반출 기본 사항원칙적으로 캠퍼스 내에서 분석을 완료하기를 권장함분석 완료 후 분석결과요약서 등을 다른 사람들과 공유함이 원칙임중간산출물 혹은 최종결과물은 반출심사를 거쳐 외부로(개인에게) 제공됨반출이 가능한 형태는 원본데이터와 분석산출물로 구분됨반출요청서에 반출 신청한 자료 각각에 대해 출처와 산출과정을 자세히 명시해야 심사 가능용어 정의반출신청 : 원본데이터 또는 분석산출물을 캠퍼스 외부로 제공하도록 신청본데이터 : 분석산출물이 아닌 단순 내부 자료(원본데이터를 신청하는 경우를 단순 자료 제공으로 처리함)분석산출물 : 캠퍼스에서 제공하는 데이터를 활용하여 도출해 낸 중간결과나 분석하여 작성한 소스코드, 데이터 및 결과보고서 등 문서. 분석산출물을 작성하는 방식은 발췌처리와 기초통계처리, 통계처리로 정의함.발췌처리 : 원본데이터를 형태 그대로 일부분을 추출 처리기초통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 합계, 평균 등 기초통계처리통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 검정값, 범주화, 지수화 등 처리

반출 가능 여부

원본데이터 반출반출 가능
  • 사이트에 기공개되어 있는 원본데이터(단, 기공개된 외부 홈페이지들을 통해 다운로드 권장)
  • [표1]~[표8]까지의 목록 중 원본데이터 반출이 가능한 경우
  • 길단위 추정 유동인구(도로명주소 도로링크 단위)는 원본데이터 반출이 불가하나 예외적으로 보고서용 등 꼭 필요한 경우에 한해서 동단위 일부(3~4개동)의 반출신청 시 제공처에 문의 후 반출가능여부 판단(단, 개인(팀)당 한번으로 제한함)
  • 열린데이터 광장 데이터셋(http://data.seoul.go.kr에서도 다운로드 가능)
  • 지역경계 shp파일 중 통계청 폴더의 시, 구, 행정동, 집계구 경계, 행정안전부 폴더
반출 불가능
  • 반출이 제한되어 있는 원본데이터
  • 지역경계 shp파일 중 통계청 폴더의 기초단위구
  • 서울시 배경지도

부산시 5대 범죄 및 시카고 범죄현황 빅데이터 분석

구분내용
기획배경 부산시의 범죄발생율과 각 구별 cctv 설치 현황에 대하여 어떤 연결점이 있지않을까 하는 의문에서부터 출발하여 부산시 5대범죄와 cctv 설치 현황을 조사해보았습니다. 이 자료만 가지고 머신러닝을 돌리기에 데이터 양이부족해서 인구대비 범죄발생율이 가장 높은 미국 일리노이 주의 시카고 범죄 발생 현황도 추가하여 빅데이터 분석을 진행하였습니다.
기획목적 부산시 범죄발생과 각 구별로 cctv 설치 현황을 조사하여 범죄발생과 cctv 설치대수에 관한 연결점을 찾기 위해서 빅데이터 분석을 시작하였습니다
기능요약 가장 범죄율이 높았던 부산진구의 cctv 설치수가 1,570대로 범죄 발생 율 대비cctv 설치 개수는 낮은 것으로 확인되었습니다. 인신매매의 경우 주로 날이 바뀌는 자정이나 새벽 시간대에 많이 발생했고, 매춘은 저녁시간부터 자정 전까지 많이 발생하는 것을 볼 수 있습니다. 강도사건이나 형사 치상의 경우는 모든 시간대에 고르게 발생하였고, 의외로저녁 시간대에 발생이 많을 것으로 예상했던 살인과 성범죄 같은 범죄들도다양한 시간대에 분포되어 있는 것을 보실 수가 있습니다.


빅 데이터 분석 프로젝트 주제 - big deiteo bunseog peulojegteu juje

빅 데이터 분석 프로젝트 주제 - big deiteo bunseog peulojegteu juje

구분내용
차별화 워드클라우드 작업의 경우 수업시간에는 한글로 진행하여 soynlp 패키지의명사추출기능을 활용하였으나, 이 패키지는 한글만 적용이 돼서 영어로 쓸 때는nltk.tokenize 패키지를 활용하여 진행하였습니다. 그 외의 작업은 수업시간에배웠던 사이킷런-머신러닝 라이브러리를 활용해서 디시즌트리, 랜덤포레스트, 로지스틱스리그레션 회귀분석 모델을 적용하여 마무리 하였습니다.
영향력 이번 프로젝트를 진행하면서 빅데이터는 결국에 끈기 있게 조금씩 쌓아가는분야 라는 걸 다시 한번 알게 되었습니다. 그래서 궁극적으로 주제였던 범죄데이터 뿐만 아니라 팀원들 각자도 스스로에게 트레이닝을 한번 돌려볼 수 있었던 의미 있는 시간이었다고 생각합니다.
가치 데이터 활용에 기반이 되는 오픈 구글 클라우드 빅쿼리를 활용하여 많은 양의데이터를 분석하고, 필요한 데이터들만 추출 및 재설계한 경험은 빅데이터 분석의 밑거름이 될 것이라고 생각합니다. 또한 작은 프로젝트이지만 팀프로젝트로 진행하며 협업 능력 향상에도 많은 도움이 되었을 것이라 생각합니다.