열정가득 작은비버

컴퓨터활용능력 1급 필기 정보 및 합격후기 바로가기

https://beaver-sohyun.tistory.com/22?category=833031

컴퓨터활용능력 1급 필기 합격후기(단기 독학, 컴활 소개정보)

3학년 2학기가 끝난 후 작은 비버는 뭘 할까 고민하다 자격증을 따기로 결심함. 뭘 준비해야할까 고민중 컴퓨터활용능력 1급을 따기로 결정 예전에 한 번 따보려고 노력해봤다가 중간에 포기한 �

beaver-sohyun.tistory.com

컴활 1급 실기 종목 소개 및 정보

https://beaver-sohyun.tistory.com/42?category=833031

컴퓨터활용능력 1급 실기 (종목소개 및 시험 정보, 가격, 접수방법)

안녕하세요호~ 엄청엄청 오랜만입니다~~~ 드디어 미루고 미뤘던 컴활 1급 실기 합격 후기를 가지고 왔습니다..!!! 필기 합격한 후기를 올린지 몇달이 지난 후에야 드디어 가져오다니... 이번 일을

beaver-sohyun.tistory.com

안녕하세요~ 재빠르게 돌아온 작은비버입니다.

오늘은 컴활 1급 실기 합격 후기를 들고왔습니다!!!!

나의 두번째 자격증,,, 훗

-비버의 자격증 보유 현황(GTQ 1급, 컴활 1급)

-차차 채워나갈 예정(너무 놀았네,,;;;)

저는 일단 컴활 1급 실기가 아주아주 어렵다는 이야기를 듣고 지레 겁을 먹었죠,,

그래서 막 찾아보다 '아이티 버팀목 유동균'강사님 강의만 들으면 백퍼 합격이라는 말을 듣고 수강을 했쬬....^^

아이티 버팀목 사이트

https://www.itbtm.com/

컴퓨터자격증 전문 사이트 IT 버팀목

시험소개 및 학습법 소개 컴퓨터 활용능력 1급 단기과정 필기 실기 1급 정규과정 필기 실기 2급 단기과정 필기 실기 2급 정규과정 필기 실기 워드프로세서 1급 단기과정 필기 실기 1급 정규과정 ��

www.itbtm.com

컴퓨터활용능력 1급(단기) 실기

전 이미 필기는 독학으로 합격했기에 '컴퓨터 활용능력 1급 단기 실기'를 수강신청했습니다.

컴활 말고도 다양한 자격증이 있으므로 참고하실 분들은 참고하시길..!!

수강기간 기본 60일 + 무료연장 1회 60일 = 총 120일(4개월)
- 전 이게 제일 메리트라고 생각합니다ㅜㅜㅜㅜ 대학생분들은 학기 중에 자격증을 취득하기 어려워서 시간을 버리는 경우가 있는데 수강기간이 끝난 후 학기를 마치고 방학 중에 무료연장을 통해 다시 수강할 수 있다는게 장점이죠!!
- 저 역시 필기는 1월에 합격하고 탱자탱자 놀다 무료연장을 통해 컴활 1급 실기(단기)를 재수강 했습니다...^^
가격 70,000원
강의수 63강의(강의당 시간 60분 내외)
- 여기서 제일 힘들었습니다.. 강의가 정말 길어서 처음에는 진짜 치졌어요..
- 아이티 버팀목을 수강하길 망설였던 이유 중 하나도 일단 강의시간,, 강의수,,,,
- 하지만 듣고나면 진짜 생각달라지무ㅜㅜㅜㅜㅜ
- 고민되는 분들은 무료강의 한 번 들어보시는거 추천드려요!!
- 강사님의 수업 스타일이랑 잘 맞는게 제일 중요해요!!!
교재는 따로 사지 않고 강의 내에 제공하는 파일들로 공부 및 수강했습니다.

컴활 1급 실기(단기) 강좌 커리큘럼

추천하는 방법은 1단계 무작정 듣고 -> 3단계!!
일단 기본 강의 시간이 2시간 정도 되는데 강사님 말이 좀 느린 편이기도 해서 저는 2배속으로 해서 들었습니다.(그래도 1시간 넘음...^^)
1단계 들으면서 그냥 무작정 강의 보면서 따라했습니다.(어려웠던 부분은 뒤로가기 해서 한 번씩 다시 돌려보기)
필기는 따로 안하고 그냥 진짜 들으면서 따라했습니다.(모의고사는 제공해주심 그냥 엑셀과 엑세스만 있으면 돼요!)
엑셀을 계속해서 듣고 그 다음 엑세스를 계속해서 듣는 방식으로 진행
모바일로도 수강 가능합니다.(star player+ 앱 다운받으시면 돼요)

2단계는 듣지 않았습니다.
유동균 강사님께서 원하시는 방식은 1단계 -> 3단계로 바로 넘어가기!
2단계는 계속해서 자격증에 떨어지거나 시간이 많이 남으시는 분들에게 추천합니다.

대망의 3단계!!
1단계는 본격적으로 공부하기 예전에 들은거라서 기억이 1도 안나는 상태로 공부를 시작
처음 듣는 느낌이라서 2배속으로 해놓고 중간중간 어려웠던 부분, 헷갈렸던 부분들은 다시 보거나 필기하면서 봤습니다.
엑셀, 엑세스 한 회 순으로 강의가 진행되며, 여기서도 강사님이 자세히 설명해줍니다.
엑셀, 엑세스에서 나올 법한 여러 문제들을 보여주기 때문에 3단계만 여러번 반복하면 합격 가능성이 높습니다.
저는 3단계를 3회독 했습니다.
처음에는 그냥 듣기 1회독, 필기+다시 듣기 하면서 2회독, 3회독 때에는 혼자 문제 풀면서 어려웠던 부분, 헷갈렸던 부분 강의 듣기 3회독
일단 모의고사 자체가 많이 있어서 다양한 문제패턴들을 학습하면서 머릿속에 넣을 수 있었고 반복해서 내용을 알려주시기 때문에 더 좋았습니다.
강의를 듣는건 3회독 하고 문제만 푸는건 4번 정도 혼자 반복해서 풀었습니다.
일단 컴활 1급 자체가 어렵기도 해서 반복해서 하는게 제일 합격 가능성이 높은거라서 계속 반복!!
일단 강의가 길어서 초반 강의 들을때는 하루 5~7시간 정도 공부시간을 만들어야한다고 보시면 됩니다.
후에 문제만 풀때는 2회씩 반복해서 풀면서 시험시간대로 풀고 어려웠던 부분들 요약집 만들고 계속 반복해서 풀었습니다.

컴활 1급 실기(단기) 구매 시 -> 2급 특강도 수강 가능

1급 필기를 합격하고 난 후 2급 실기를 합격하면 컴활 2급 취득이 가능합니다.
컴활 1급 실기가 어려워서 대부분 포기하게되는데 그럴경우 2급 실기를 보셔서 2급이라도 취득하시는 것을 권장드립니다!

시험 결과 및 합격 인증

처음 시험 볼 때는 모르는 문제도 많았고 느낌이 딱 아 떨어지겠구나 들었습니다.
진짜 시험 보면 딱 느낌이 들어요, 그래서 시험 2번 이상 연속으로 접수하는거 추천드려요!

엑세스는 문제가 쉽게 나와서 통과!
저는 맨 앞에 2번째 줄 좌석이였는데 앞 좌석이 문제 쉽게 나온다 했는데 그건 아닌 것 같아요...(전 엑셀 부분이 어려웠습니다.)
그리고 엑셀, 엑세스 유동균 강사님이 올려주신 상설 문제에서 많이 나왔습니다!!!!!!!!!!!!!!

첫 시험 20.08.03에 친 후 이틀 뒤로 바로 접수
시험 치고 나서 다시 반복해서 문제를 풀고 엑셀 계산 부분이 약해서 그것만 따로 문제로 만들고 계속해서 풀었습니다.
시험장 가서는 제가 요약했던 요약집을 보면서 외워야 할 부분들은 암기하고 시험장에 들어갔습니다.
일단 시험을 보면서 20분 정도가 남아 한 2번 이상 검토하고 나왔습니다.
시험을 보면서 이거 백퍼 통과다 라는 느낌을 받았고, 문제는 정말정말 쉽게 나왔습니다.
좌석은 앞에서 4번째줄 좌석 이였습니다!!
역시 유동균 선생님께서 올려주신 상설 파일에서 많이 나왔습니다!!

아주 뿌------------듯
합격은 시험보고 난 후 2주 후에 나옵니다.
그때까지 아주 심장 쫄깃하게 지냈습니다.

후기

처음에는 컴활 1급이 정말 어렵다고, 상공회의소의 마지막 자존심이라고 하길래 지레 겁먹고 미뤘었는데 해본 입장으로는 전공자 이지만 비전공자이신 분들도 정말 100% 반복만 한다면 합격할 수 있다고 생각합니다.

일단 컴활은 무조건 반복!!!!!!!!!이 제일 중요한 것 같아요.

혼자 실기를 준비하기에는 컴활 실기 자체가 어려운 부분들도 많고 외워야 할 내용도 많아서 전문가의 도움을 받는 것 도 나쁘지 않다고 생각합니다.

너무 겁먹지 마시고 정말 반복 + 요약집 정리 + 강의 반복 수강 이렇게만 하시면 합격 가능성이 높으니 너무 겁먹지 마세요!!!

따고 나니깐 후련하기도 하고 이게 뭐라고 지레 겁먹었나 싶기도 하고~~~

저는 다음에 또 다른 자격증 후기로 돌아오겠습니다!!

긴 글 봐주신 비버 여러분 감사드립니다!!

강의를 수강하면서 어떤식으로 공부했나?!

1. 처음에는 1단계 그냥 진짜 들으면서 문제 따라하기

2. 1단계 후 바로 3단계로 돌입

3. 3단계는 3회독( 1회독 : 강의들으면서 문제 풀기, 2회독 : 강의 들으면서 어려웠던 부분, 헷갈린 부분들 다시 듣고 요약집 오답노트 만들기, 3회독 : 혼자 문제 풀면서 어려운 부분, 헷갈리는 부분, 틀린 부분 강의 다시 듣기)

4. 시험 시간에 맞춰 엑셀만 쫙 풀고, 엑세스 쫙 풀기(총 4회독)

5. 틀린 문제들은 오답노트 다시 만들고 외워야할 내용 요약집 만들기

6. 시험 전날에는 4회차 정도를 문제풀고 외우고 계속해서 반복

7. 시험장 앞에서는 외워야 할 내용들만 보고 들어갔음

8. 시험장에서 문제 나눠주고 대기할 때 빠르게 문제 훑기

9. 시험 시작하고 엑셀(1번 -> 3번 -> 4번 -> 2번 순), 엑세스(그냥 차례대로 풀기)

10. 엑셀에서 어려운 부분 빠르게 패스하고 계산문제까지 다 풀고나서 다시 보기

11. 엑세스는 빠르게 풀고 검토 많이 하기

중요한 것

1. 강의는 반복해서 수강할 것(강의 3회독 + 문제 4회독)

2. 요약집 및 틀린 문제 따로 정리하기

3. 시험 접수는 무조건 3회 이상 연속으로 접수하기(2~3일 단위로) + 자신감 있는 분들은 2번 이상 접수....?

4. 시험장 들어가서는 자료 못보니 그 전에 많이 봐두기

5. 어려운 부분이나 포기해야할 부분은 깔끔히 포기하기(ado객체, 매크로 등등)

6. 혼자 공부하는 시간 초반에는 하루 5~7시간 잡고, 그 후에 문제만 풀때는 3~4시간 잡기

2020.09.02 추가++++++++++++++++++++++++++

합격하고 나서 바로 코참패스 어플로 자격증 신청을 했습니다.

자격증은 합격한 사람만 신청할 수 있습니다.

수수료는 인터넷 3,100 + 우체국 등기배송료2,800원으로 총 5,900원 입니다.
신청 후에 10~15일 이내 소요(진짜 기다리면서 아주 그냥 마음이 초초 했음.. 내 자격증 잘 오고 있는거니..?)

자격증 신청 -> 자격증 신청 클릭

전체 확인 클릭클릭 -> 다음

본인 신청하려고 하는 자격증 클릭클릭 -> 다음

- 저는 8월 21일날 신청했습니다!

아주 시간이 지나고 지나 오늘 드디어 9월 2일 등기로 배송받았습니다!!! 저는 12일 후에 배송받았습니다. 진짜 기다리는 내내 힘든 시간이였습니다..ㅜㅜㅜ 그래도 받고 나니깐 너무 기분이 좋아요ㅜㅜ 자랑스럽다 컴활 1급!!!!1

저기 크게 1급이라고 박혀있는데 사진이 너무 흐리죠...? 네... 일어나자마자 찍어서 그뤠요...ㅎ

그래도 이렇게 크게 '합격을 축하합니다.'라는 문구의 우편물을 받으니 그동안 고생했던게 확 풀리네요 ㅎㅎㅎㅎㅎㅎ

어서와 나의 컴활1급 자격증!!!!

이제 넌 내 평생 자격증이야!!!!!!!!!!!!!!!!!!!!!!!!

저작자표시

'작은비버의 성장과정 > 자격증' 카테고리의 다른 글

컴퓨터활용능력 1급 실기 (종목소개 및 시험 정보, 가격, 접수방법) (0)	2020.08.26
컴퓨터활용능력 1급 필기 합격후기(단기 독학, 컴활 소개정보) (0)	2020.01.28

안녕하세요호~ 엄청엄청 오랜만입니다~~~

드디어 미루고 미뤘던 컴활 1급 실기 합격 후기를 가지고 왔습니다..!!!

필기 합격한 후기를 올린지 몇달이 지난 후에야 드디어 가져오다니... 이번 일을 계기로 저의 게으름을 또 한 번 알게되었습니다.

일단 컴활1급 실기 합격 후기를 말씀드리기전에 종목 소개 및 시험 정보에 대해 알려드리겠습니다.

컴퓨터활용능력 1급 필기 정보 및 합격후기 바로가기

https://beaver-sohyun.tistory.com/22?category=833031

컴퓨터활용능력 1급 필기 합격후기(단기 독학, 컴활 소개정보)

3학년 2학기가 끝난 후 작은 비버는 뭘 할까 고민하다 자격증을 따기로 결심함. 뭘 준비해야할까 고민중 컴퓨터활용능력 1급을 따기로 결정 예전에 한 번 따보려고 노력해봤다가 중간에 포기한 �

beaver-sohyun.tistory.com

컴퓨터활용능력 1급 종목소개, 응시자격 및 시험과목

응시자격 제한 없음
필기 합격 후 실기 접수 가능
시험과목 2과목(스프레드시트 실무, 데이터베이스 실무)
시험시간 총 90분(스프레드시트 실무 - 45분, 데이터베이스 실무 - 45분)
스프레드시트 실무 시험지 분배 및 시험(총 45분) -> 바로 데이터베이스 실무 시험지 분배 및 시험 시작(총 45분)
응시횟수 제한 없음
실기프로그램 MS Office 2010

컴퓨터활용능력 1급 실기 합격결정기준 및 검정수수료

합격결정기준 100점 만점에 70점 이상
두 과목 모두 70점 이상이여야 함(스프레드시트 실무 70점 이상 and 데이터베이스 실무 70점 이상)
한 과목이라도 70점 미만 일시 과락
검정수수료 실기 21,000원

실기 시험 일정 및 시험시작시간(정기 and 실기)

1. 정기(정해진 기간에 시험을 보는 것)

1년에 총 4번의 정기시험 실시
본인이 시험을 치르고 싶은 날짜에 맞춰 정기 시험 접수
정기, 상시 문제 다를 것 없음
원서접수 마지막날 마감시간 18:00까지

2. 상시(정해진 기간 없이 본인이 보고 싶은 날짜에 맞춰 언제든지 접수 가능)

1) 종목 선택

2) 지역 선택(아무 지역이나 상관없음)

3) 선택한 지역에서 접수할 날짜 시간 선택

- 지금 코로나19로 인한 사회적 거리두기 때문에 좌석 배치가 대각선 방향으로 되있어 시험 접수 인원이 반으로 줄어듦

- 시간을 잡기가 어렵기에 시험 접수 날짜가 열리는 시간에 바로 접수를 하던가 계속 기다렸다가 풀리는 시간을 잡는 방법밖에 없음

컴활은 준비물을 따로 필요없습니다. 시험장에 들어가셔서 컴퓨터 잘 되는지 한 번 확인하고 유의사항 확인후 바로 시험에 들어갑니다.
시험장에 들어가기전에 본인이 준비한 자료집은 볼 수 있고 시험장 내부에서는 자료집을 볼 수 없습니다.
시험지는 기관에서 배포하며, 스프레트시트 실무 시험 후 시험지를 걷고 바로 데이터베이스 실무 시험지를 나눠줍니다.
시험 일정 시간이 지나면 퇴실 가능합니다.
시험은 컴퓨터로 진행되며 필기구, 공책 사용하지 못합니다.

이번 포스팅은 컴퓨터활용능력 1급 접수 방법 및 시험 소개에 대해 설명드렸습니다!

다음 포스팅은 컴활 1급 실기 합격 후기를 들고오겠습니다~

'작은비버의 성장과정 > 자격증' 카테고리의 다른 글

컴퓨터활용능력 1급 실기 합격후기(단기 독학, 유동균, 아이티 버팀목, 컴활 1급 실기 팁, 주의사항, 컴활 실기 요약)++1급 자격증 실물 추가 (0)	2020.08.29
컴퓨터활용능력 1급 필기 합격후기(단기 독학, 컴활 소개정보) (0)	2020.01.28

2019년 Hate Speech Detection 글 보기!

https://beaver-sohyun.tistory.com/6?category=830784

주제 Hate Speech Detection & Hate Map

안녕하세요. 오늘은 저희 팀이 구현할 주제에 대한 정리? 요약? 에 대해 말씀드리려고 합니다. 저희 팀은 총 4명으로 구성된 열정 가득한 작은 비버들로 구성되어있습니다. 처음에는 같은 학과 ��

beaver-sohyun.tistory.com

2020년 Hate Speech Detection(주제 소개, 관련 연구, 데이터 셋, HAN 모델 설명)

https://beaver-sohyun.tistory.com/40

주제 Hate Speech Detection_2020(++ 주제 소개, 관련 연구, 데이터 셋, HAN 모델 설명)

안녕하세요, 작은비버가 작년에 진행했던 Hate Speech Detection 프로젝트를 들고 왔습니다. 이번 연도에는 작년에 진행했던 Hate Speech Detection 연구에 추가로 연구를 진행했습니다. 오늘은 2020년 version,

beaver-sohyun.tistory.com

실험에 사용된 데이터 셋

Datasets	Source	Class	Count
Hatebase [1]	Twitter	Hate Offensive Neither	1,430(5%) 19,190(76%) 4,163(17%)
WaseemA [2]	Twitter	Sexism Racism Neither	3,383(20%) 1,972(12%) 11,559(68%)
Stormfront [3]	Online Forum	Hate Not Hate Relation Skip	1,196(11%) 9,507(86%) 168(2%) 73(1%)
Wikipedia Detox [4]	Wikipedia discussions	Non-attacking Attacking	102,274(87%) 13,590(13%)
Kaggle [5]	Twitter	Not Insulting Insulting	1,742(26%) 4,852(74%)

[1] https://github.com/t-davidson/hate-speech-and-offensive-language

[2] https://github.com/ZeerakW/hatespeech

[3] https://github.com/Zeerak/hatespeech

[4] https://github.com/ewulczyn/wiki-detox

[5] https://www.kaggle.com/c/detecting-insults-in-social-commentary

연구 방법

딥러닝 알고리즘

알고리즘 : Hierarchical Attention Network
데 이 터 : Hate Speech Datasets
파라미터
- learning rate : 0.001
- loss function : Categorical Cross-Entropy
- optimizer : Adam
- batch size : 128
- epoch : early - stopping

데이터 셋 비율

Training : 80%
Validation : 10%
Test : 10%

실험 결과(1)

연구는 HAN 알고리즘을 사용하여 실험을 했고, 데이터는 위에 작성된 Hate Speech Dataset, 파라미터는 위에 작성된 것으로 진행했습니다.

데이터셋 별로 SOTA 모델의 train, validation, test 비율이 달랐는데 저희 실험에서는 80, 10, 10로 나누어 진행했습니다.

워드 임베딩은 사전 훈련된 Word2vec을 사용합니다.

•B : undersampling 기법을 이용 더 많은 데이터를 가진 클래스의 데이터를 제거하여 균형을 맞춘 Balanced Data

•ImB : 주어진 데이터셋 그대로 클래스들이 불균형한 Imbalanced Data

•Accuracy : 전체 데이터 중에서, 제대로 분류된 데이터의 비율

•F1 : Precision과 Recall의 조화 평균,, 데이터 label이 불균형 구조일 때, 모델의 성능을 정확하게 평가 가능

5개의 Hate Speech Dataset을 사용하여 총 두 번의 실험을 진행했습니다.

첫 번째 실험은 주어진 데이터셋 그대로 클래스들이 불균형한 Imbalanced Data를 사용합니다.

두 번째 실험은 sampling 기법 중 under-sampling 기법을 이용해서 더 많은 데이터를 가진 클래스의 데이터를 제거하여 균형을 맞춘 Balanced Data를 사용하여 실험합니다.

imbalance data로 모델을 학습할 경우 accuracy를 통해 모델 성능을 확인할 수 없습니다.

모델이 잘못된 분류하는 경우에도 높은 정확도가 계산되기 때문에 성능 평가 지표로 F1을 사용해야 합니다.

그래프는 각각의 데이터셋을 Balanced 또는 Imbalacend 하게 실험한 뒤 accuracy와 F1을 통해 성능을 확인한 그래프입니다.

그래프를 보면 Wikipedia data가 Balanced의 Accuracy와 Imbalanced의 F1에서 가장 높은 성능을 보인 것을 볼 수 있습니다.

실험 결과(2)

Dataset	Models(others) - SOTA			HAN(ours)		Balanced /Imbalanced
Dataset		Accuracy	F1	Accuracy	F1	Balanced /Imbalanced
Hatebase¹	Neural Ensemble	0.92	0.91	0.9	0.70	Imbalanced
WaseemA²	LSTM+Random Embedding+GBDT	-	0.93	0.84	0.79	Imbalanced
Stormfront³	BERT	0.82	0.82	0.79	0.79	Balanced
Wikipedia Detox⁴	Context hidden-state + char n-grams	-	0.87	0.95	0.88	Imbalanced
Kaggle⁵	Stemming + Uni + Bigrams	0.82	0.67	0.81	0.81	Balanced

이 표는 각각의 데이터셋에서 최고의 성능을 보인 모델들을 정리하고 그 모델의 실험 조건에 따라서 HAN의 성능을 정리한 표입니다.

그 결과 HAN모델이 Wikipedia와 Kaggle Data에서 이전의 SOTA 모델보다 높은 성능을 보였습니다.

실험 결과(3)

데이터 셋	Source	클래스	데이터 수	평균 문장 수	평균 문장 단어 개수
Hatebase¹	Twitter	3	24,783	1.39	10.13
WaseemA²	Twitter	3	16,135	1.80	8.50
Stormfront³	Online Forum	2	10,703	1.11	16.32
Wikipedia Detox⁴	Wikipedia discussions	2	115,864	4.55	16.00
Kaggle⁵	Twitter	2	6,594	2.21	15.02

[1] https://github.com/t-davidson/hate-speech-and-offensive-language

[2] https://github.com/ZeerakW/hatespeech

[3] https://github.com/Zeerak/hatespeech

[4] https://github.com/ewulczyn/wiki-detox

[5] https://www.kaggle.com/c/detecting-insults-in-social-commentary

데이터들에 대해 데이터 수, 평균 문장 수, 평균 문장 단어 개수 등을 정리해 본 표입니다.

그 결과, Wikipedia와 Kaggle Data가 다른 데이터들에 비해 평균 문장 수, 평균 문장 단어의 개수가 많았고, Class가 2개인 데이터로 구성되어있었습니다.

이 말은 평균 문장의 수가 많고, Class가 적을수록 HAN에서 높은 성능을 보인다고 추측할 수 있습니다.

동일한 Hatebase와 Waseem에서는 왜 성능이 높게 안 나왔는지 궁금해하실 수도 있습니다.

제 추측으로는 Kaggle data가 다른 Twitter으로 구성된 데이터보다 더 긴 tweet으로 구성되어 있어 HAN모델에서 높은 성능을 보인 것으로 생각됩니다.

이렇게 HAN은 짧은 문장보다는 문서 단위 알고리즘에 적합한 모델이라는 것을 알게 되었습니다.

Waseem Word attention visualization

<Sexism tweet example>

트윗을 분류하는데 어떤 단어들이 얼마큼의 영향을 주는지에 대해 색의 진함으로 표현

(색이 진할수록 문서를 분류하는데 큰 영향을 준 단어)

다음은 저희가 실험했던 데이터 셋 중 Waseem data 일부에 대한 시각화 결과입니다.

HAN 모델이 Waseem data를 학습하여 트윗을 Sexism, Racism으로 분류할 때, 어떤 단어가 얼마큼 크게 영향을 미쳤는지 시각화해서 볼 수 있습니다.

HAN 모델이 Sexism tweet으로 분류한 tweet 중 실제 Class가 Sexism tweet인 Example입니다.

"Sexist" 와 같은 단어들이 문장을 Sexism 이라고 판단하는데 큰 영향을 주웠음을 확인할 수 있습니다.

<Racism tweet example>

다음은 Racism tweet으로 분류된 tweet 중 실제 class가 Racism tweet인 예시입니다.

"Muslim, Islam, religion(종교), jewish (유대인), prophet(선지자)" 같은 단어들이 tweet이 Racism이라고 판단하는데 영향을 주웠음을 확인할 수 있습니다.

현재까지의 인공지능이 결과만 알 수 있고 도출한 결과의 근거를 알 수 없었다면 HAN 모델의 attention mechanism은 이러한 시각화를 통해 특정 문서가 특정 라벨로 분류되었을 때, 그 근거가 되는 단어나 문장들을 알 수 있습니다.

이는 explainable AI, 즉 설명 가능한 인공지능 형태입니다.

이번 연구를 통해 저희는 HAN모델이 문서 분류뿐만 아니라 혐오 표현 탐지에도 효과가 있다는 것을 확인했습니다.

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

[빅데이터] kickstarter에서 Project에 큰 영향을 미치는 Feature 확인하기(2. 전체 feature 수집 및 특정 feature 추출) (0)	2020.08.31
[빅데이터] kickstarter에서 Project에 큰 영향을 미치는 Feature 확인하기(1. 상세사이트 링크 수집) (0)	2020.08.30
[프로젝트]코로나19에 대한 사회적 반응[지하철 승객 수의 변화] (0)	2020.05.10
공공데이터 API를 사용한 데이터 추출 (1)	2020.05.01
[프로젝트]주제 Public reaction during pandemic (0)	2020.04.30

안녕하세요, 작은 비버입니다!

오늘은 코로나바이러스에 대한 사회적 반응 중 하나인 '지하철 승객 수의 변화'에 대해 알아보려 합니다.

작은 비버는 코로나바이러스가 터지고 나서 궁금증이 하나 생겼습니다

'코로나바이러스가 터지고 나서 사람들이 정말 밖에 안 나올까? 사회적 거리두기를 잘 실천하고 있을까?'

이런 궁금증을 가지고 이번 과제를 수행하게 되었습니다.

사용한 지하철 데이터는 2019~2020년도 서울, 대구입니다.

대구 지역을 선택하게 된 이유는 코로나바이러스가 지역사회로 퍼지기 시작한 게 신천지 신도(31번 확진자) 이후입니다.
31번 확진자 이후, 대구시의 코로나바이러스 확진자는 무섭게 늘어났습니다.

이에 따라 대구 사람들의 지하철 이용 변화를 보기 위해 대구 지하철 데이터를 선택하게 되었습니다.

<사용한 외부 데이터>

1. kaggle Data Science for COVID-19 (DS4C) - TimeProvince.csv(전국 단위 누적 확진자 수 데이터 사용)

https://www.kaggle.com/kimjihoo/coronavirusdataset?fbclid=IwAR2-OrO2UoA_jnN_zr0p6zZO_3bmovQe23uci5FCNN1_ZlzIKQKHg1SxIbo

Data Science for COVID-19 (DS4C)

DS4C: Data Science for COVID-19 in South Korea

www.kaggle.com

2. 서울 열린 데이터 광장 - 서울시 지하철 호선별 역별 승하차 인원 정보

교통카드(선후 불교 통카드 및 1회용 교통카드)를 이용한 지하철 호선별 역별(서울교통공사, 한국철도공사, 공항철도, 9호선) 승하차 인원을 나타내는 정보입니다. (일단위)

https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do

열린데이터 광장 댓글 입력

열린데이터 광장 데이터셋 댓글 입력

data.seoul.go.kr

3. 대구 도시철도공사 - 대구 도시철도 승하차 인원 현황

www.daegu.go.kr/index.do?menu_id=00000122

<코로나바이러스 2020년도 첫 국내 확진자 날짜>

국내 1/20

서울 1/27

대구 2/18

사용한 데이터

서울 누적 확진자 수(2020.01~03)
대구 누적 확진자 수(2020.01~03)
지하철 승차 총 승객수(2019/2020.01~03) - 서울, 대구

seoul_confirmed = pd.read_csv('/root/corona/sohyun/metro_data/seoul_confirmed.csv', encoding='CP949')
daegu_confirmed = pd.read_csv('/root/corona/sohyun/metro_data/daegu_confirmed.csv', encoding='CP949')

seoul_202001 = pd.read_csv('/root/corona/sohyun/metro_data/seoul_202001.csv', encoding='utf-8')
seoul_202002 = pd.read_csv('/root/corona/sohyun/metro_data/seoul_202002.csv', encoding='utf-8')
seoul_202003 = pd.read_csv('/root/corona/sohyun/metro_data/seoul_202003.csv', encoding='utf-8')
seoul_201901 = pd.read_csv('/root/corona/sohyun/metro_data/seoul_201901.csv', encoding='utf-8')
seoul_201902 = pd.read_csv('/root/corona/sohyun/metro_data/seoul_201902.csv', encoding='utf-8')
seoul_201903  = pd.read_csv('/root/corona/sohyun/metro_data/seoul_201903.csv', encoding='utf-8')

서울 누적 확진자 수(2020.01~03)

대구 누적 확진자 수(2020.01~03)

e.g., 서울 지하철 승차 총 승객수, 하차 총 승객수(2020.01)

저는 승차, 하차 데이터 중, '승차 총 승객수'데이터를 사용했습니다.

승차 데이터는 그 지역에서 사람들이 외부로 나가는 것을 확인할 수 있는 수치

하차 데이터는 외부에서 그 지역으로 사람들이 들어오는 것을 확인할 수 있는 수치

여기서 저는 그 지역 사람들이 외부 활동을 하는지에 대한 변화를 확인해보고 싶었기에 '총 승차 승객수' 데이터를 사용했습니다.

1. 서울 지하철 승차 총 승객수(2019/2020.01~03)

(주말, 공휴일 포함)

date : 1 ~ 31일 기준(제일 긴 일수로 맞춤)

total_count : 1,000,000 ~ 10,000,000

파랑 : 1월

주황 : 2월

초록 : 3월

2019/2020 Total number of passengers on the subway(Seoul)

지하철 승차 총승객수의 변화를 알아보기 전에 2019년도 같은 월(01~03)에는 어땠는지 확인해봤습니다.

2019년도에는 1월에서 3월 모두 전체의 흐름이 비슷했습니다.

2020년도에는 1~3월까지의 승차 총승객수가 확연히 줄어든 것을 보실 수 있습니다.

2020년도에는 1/24~27일이 공휴일인 점을 감안해도, 서울 첫 확진자(1/27)가 나온 이후로는 1~3월 모두 승차 총승객수의 변화가 있는 것을 보실 수 있습니다.

2020년 3월에는 2019년도 3월보다 승차 총승객수의 변화가 급감한 것을 보실 수 있습니다.

seoul_2020_Data = pd.concat([seoul_202001,seoul_202002,seoul_202003],ignore_index=True,axis = 0)
seoul_2019_Data = pd.concat([seoul_201901,seoul_201902,seoul_201903],ignore_index=True,axis = 0)



plt.title('2019/2020 01~03 Total number of passengers on the subway')

plt.xlabel('date')
plt.ylabel('total_count')

plt.plot(seoul_2019_Data['승차총승객수'],label="201901~03")
plt.plot(seoul_2020_Data['승차총승객수'],label="202001~03")
plt.ylim([1000000,10000000])
plt.legend()

2019/2020년 1월에서 3월까지 한눈에 보기 위해 날짜를 쭉 합쳐서 그래프를 그려보았습니다.

2019/2020 01~03 Total number of passengers on the subway(Seoul)

파란색 선이 2019년 1~3월까지의 전체적인 승차 총승객수의 변화

주황색 선이 2020년 1~3월까지의 전체적인 승차 총 승객수의 변화

2019년도에 비해 2020년도에는 서울 첫 확진자(1/27) 이후 승차 총승객수가 점점 줄어드는 것을 보실 수 있습니다.

2. 누적 확진자 수에 따른 서울 지하철 승차 총승객수의 변화(2020.01~03)

(주말, 공휴일 포함)

국내 첫 확진자(1/20), 서울 첫 확진자(1/27) 이후에 누적 확진자 수에 따른 지하철 승차 총 승객수의 변화를 알아보았습니다.

왼쪽 축은 지하철 승차 총 승객수

오른쪽 축은 누적 감염자 수

파란색 선은 2019년도 지하철 승차 총 승객수

주황색 선은 2020년도 지하철 승차 총 승객수

누적 확진자 수에 따른 지하철 승차 총 승객수의 변화입니다.

2019, 2020년도 모두 국내 첫 확진자(1/20) 이전에는 대체로 비슷한 흐름으로 지하철 승차 총 승객수의 변화를 보입니다.

서울 첫 확진자(1/27) 이후로는 2019년도에 비해 2020년도에 지하철 승객수의 변화가 줄어드는 것을 보실 수 있습니다.

신천지 신도(31번 확진자, 2/18) 이후에는 지하철 승차 총승객수의 변화는 급속도록 감소했다. 감소와 더불어 정부에서는 사회적 거리두기를 실시했다.

국내 사회적 거리두기는 2월 말부터 시작했습니다.

KIST 연구팀이 환자 발생수를 시뮬레이션한 결과를 보면, 녹색 표시는 사회적 거리두기를 시행했을 때로, 2월 말 신천지 신도 이후 수백 명의 가장 많은 환자를 낸 뒤 줄어들 것으로 예측했습니다.

빨간색 선은 이에 따른 실제 예측 값입니다. 예측한것(초록색)과 같이 실제 확진자 수(빨간색)가 줄어드는 것을 보실수있습니다.

신천지 신도(31번 확진자, 2/18) 이후 2월 29일 하루 800여 명의 환자를 낸 이후 지속적으로 신규 환자 발생자 수가 감소했습니다.

사람들이 사회적 거리두기를 실천하지 않았다면 확진자의 수는 더 늘어났을 것입니다.

사회적 거리두기를 잘 실천함에 따라 확진자수가 줄어드는것을 보실수있습니다.

빨리 이 아픔이 없어지기 위해서는 모두의 노력이 필요합니다.

앞으로도 사회적 거리두기를 잘 실천하면서 이번 아픔이 빨리 없어지기를 바랍니다.

대구는 아직 공공데이터 포털에 다 올라오지 않아 자료가 올라오는대로 차차 업로드 하겠습니다.

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

[빅데이터] kickstarter에서 Project에 큰 영향을 미치는 Feature 확인하기(1. 상세사이트 링크 수집) (0)	2020.08.30
[프로젝트]주제 Hate Speech Detection_2020(++ 실험 결과, Word Attention visualization) (1)	2020.06.03
공공데이터 API를 사용한 데이터 추출 (1)	2020.05.01
[프로젝트]주제 Public reaction during pandemic (0)	2020.04.30
[프로젝트]HateSpeech Dataset(2019) (0)	2019.12.23

안녕하세요, 작은 비버입니다!

오늘은 새로운 카테고리인 '작은 비버의 과제 수행'으로 찾아뵙게 되었습니다.

이 카테고리에서는 제가 개인적으로 공부한 내용이나 과제로 수행했던 내용에 대해서 올라올 예정입니다.

첫 번째 편, 오늘은 공공데이터 포털에서 OpenAPI를 이용해 데이터를 추출하는 방법에 대해서 알아보고자 합니다.

'공공데이터 포털'에서는 공공기관이 생성 또는 취득하여 관리하고 있는 공공데이터를 한 곳에서 제공하는 통합 창구입니다. 포털에서는 국민이 쉽고 편리하게 공공데이터를 이용할 수 있도록 파일 데이터, 오픈 API, 시각화 등 다양한 방식으로 제공하고 있으며, 누구라도 쉽고 편리한 검색을 통해 원하는 공공데이터를 빠르고 정확하게 찾을 수 있습니다.

-공공데이터 포털 소개 자료

심심할 때 공공데이터 뭐가 있나 찾아보면 정말 신기한 것들이 많습니다,,

민박 펜션업소와 관련된 데이터도 있고, 전국 도시공원 표준 데이터, 전기안전점검결과 통계, 폐기물 배출자 신고현황, 교통정보, 현장체험정보, 석탄재 현황 등등 정말 신기한 데이터들이 많습니다.

궁금하신 분들은 아래 사이트 남겨놓을 테니 한 번 들어가서 구경해보세요!

이번에 사이트 리뉴얼하면서 정말 예뻐졌는데 저도 들어가 보고 깜짝 놀랐습니다..(2020.05.01 기준)

https://www.data.go.kr/index.do

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다.

www.data.go.kr

원래 이렇지 않았어요,, 엄청 딱딱한 사이트였따구요,, 엄청 깔끔하면서도 보기 쉽게 구성을 배치한 사이트 모습!

색깔 일단 너무 마음에 들어요ㅜㅜ 아이콘 배치한 것도 맘에 쏙 듦..ㅜㅜㅜㅜ

저는 이 공공데이터 포털 사이트를 이용해서 '전국 소방서 목록'을 수집해 볼 것입니다!

1. 공공데이터 포털에 접속하고 로그인 하기!(로그인 후, 데이터 사용 및 다운 가능)

https://www.data.go.kr/index.do

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다.

www.data.go.kr

2. 본인이 수집하고 싶은 자료를 검색하거나 찾기!

본인이 원하는 데이터의 종류를 선택(사이트에서 수집하여 올려놓은 데이터 목록, 국가 데이터 목록, 이슈 데이터)하기

아니면 검색창에서 검색조건(분류체계, 서비스 유형, 확장자)을 설정하여 더 자세하게 검색하실수 있습니다.

3. 저는 전국 소방서의 목록을 수집하고 싶기 때문에 '소방서 위치조회서비스' Click!

제가 찾은 데이터는 OpenAPI라고 적혀있습니다.

여기서 OpenAPI란?

오픈 API란 누구나 사용할 수 있도록 공개된 API를 말합니다. 데이터를 표준화하고 프로그래밍을 통해 외부 소프트웨어 개발자나 사용자들과 공유하는 프로그램입니다. 개방된 오픈 API를 이용해 다양하고 재미있는 서비스나 애플리케이션, 다양한 형태의 플랫폼을 개발할 수 있습니다.

*API란? Application Programming Interface의 약자로 응용 프로그램 프로그래밍 인터페이스를 말합니다. 다양한 응용 프로그램에 사용할 수 있는 운영 체제, 혹은 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스입니다.

-공공데이터 포털 소개 자료

활용신청 전에, 본인이 사용할 정보에 대해 간단하게 정보를 확인해봅시다!

제가 사용할 데이터는 '행정안전부'에서 제공한 데이터입니다. 누구나 사용할 수 있는 OpenAPI로 구성되어 있습니다.

데이터를 얻기 위해서는 요청 주소 서비스 URL에 요청 변수를 넣어 요청합니다.(여기서는 '법정동 코드'가 요청 변수라고 적혀있습니다.)

요청 변수를 넣어 URL에 요청하면 결과 코드, 결과 메시지, 시설물명, 위도, 경도, 주소, 전화번호, 팩스번호 등 총 8가지 항목의 데이터를 얻을 수 있습니다.

이제 이 OpenAPI를 사용하기 위해서는 '활용 신청'을 해봅시다!

3. '활용 신청' 및 '참고 문서' 다운로드하기

저렇게 활용 목적을 선택하고 이유를 작성하면 됩니다. 자동승인의 경우, 바로 사용할 수 있고 승인이 필요한 경우에는 담당자의 승인을 받은 후에 데이터를 사용하실 수 있습니다.

제가 사용할 데이터는 '자동승인'으로 활용신청 후에 바로 사용할 수 있습니다.

활용기간은 승인일로부터 24개월 간 활용 가능합니다.

시스템 유형을 선택하고 활용신청 버튼을 누르시면 됩니다.

4. 마이페이지> 오픈 API> 개발계정 API키 받기

마이페이지>오픈API>개발계정 탭으로 들어가시면 본인이 신청한 자료를 보실 수 있습니다. 클릭하시면 저렇게 서비스 정보에 '일반 인증키'라고 되어있습니다. 이 키가 저희가 사용하게 될 OpenAPI키입니다!!

그리고 저기 활용신청 상세 기능 정보란에서 미리보기를 통해서 어떤 식으로 데이터가 나오는지 확인할 수 있습니다.

저는 법정동 코드가 요청 변수였기 때문에 법정동 코드를 넣어 어떤 식으로 나오는지 미리 확인해봤습니다.

법정동 코드는 대전광역시 동구로 대전광역시 동구에 위치한 소방서 목록을 확인하실수 있습니다.

5. 어떻게 사용하는지 참고 문서를 통해 확인하기

보시면 서비스 인증방법이 '서비스 key'라고 되어있는데 이 말은 서비스 key만 있으면 된다는 표시입니다. 또한 교환 데이터 표준은 XML을 제공한다고 되어있습니다. 인터페이스 표준은 'REST(GET, POST, PUT, DELETE) 방식으로 요청하라고 나와있습니다. 메시지 교환 유형은 Request-Response라는 것을 알 수 있습니다.

요청 메시지는 저기 보이는 END POINT URL에다 본인의 서비스 KEY와 법정동 코드를 넣어 요청하면 원하는 자료를 응답받을 수 있다.

응답받을 수 있는 내용은 결과 코드, 결과 메시지, 소방 서명, 소방서의 위도, 경도, 주소, 전화번호, 팩스번호 이렇게 총 8가지 데이터를 받을 수 있다.

제공된 URL에 서비스 key와 법정동 코드를 넣어서 해당 URL에 요청하면 응답을 받을 수 있다.

위의 사진은 대전광역시 동구의 소방서 목록 예시이다.

6. 실전 실전!! jupyter notebook을 이용한 '전국 소방서 목록' 자료 추출하기!(python)

공공데이터포털에서 참고자료와 같이 제공한 법정동 코드 목록을 보시면 법정동 코드, 시명, 구명, 동명, 지명으로 세부적으로 주소가 나눠져있습니다. 총 20,555개 법정동 코드로 구성되어있습니다. 전 여기서 법정동 코드, 시명, 구명만을 추출하여 다시 데이터를 정리했습니다!

어차피 종로구의 법정동 코드를 이용하면 종로구에 있는 모든 소방서의 목록을 수집할 수 있기 때문에 구까지만 데이터를 추려냈습니다.

수정된 법정동 코드 목록의 개수는 총 288개로 이뤄져 있습니다.

서비스 KEY 있고, END POINT URL 확인 완료, 법정동 코드 완료!

END POINT URL
- http://openapi.safekorea.go.kr/openapi/service/firestation/item?serviceKey=[서비스 Key]&firestation_addr_cd=[법정동 코드]
서비스 KEY
법정동 코드

실행환경 : Jupyter notebook(python)

법정동 코드 목록 개수(288개)만큼 반복문 돌리기
URL에 넣기 위한 Parameter준비
1. 서비스 key, code_num(법정동 코드)
URL로 Request 보내기
Html 파싱, 태그가 붙은 정보 findAll
수집할 자료들을 넣기 위한 Address_list ~ tel_list 리스트를 만듦
Text만 추출하기 위해 find(). text사용
수집된 결과를 result_data 리스트에 넣는다.

전국에 있는 소방서 목록을 수집했습니다.

전국 17개 시/도(e.g., 강원도, 경기도, 인천광역시..)

총 수집된 소방서 목록 개수는 983개입니다.

여기서 수집한 자료 항목은 주소, 소방서 이름, 위도, 경도, 전화번호입니다!

오늘은 공공데이터 포털에서 OpenAPI를 이용해 데이터를 수집해보았습니다.

여러분들이 직접 공공데이터포털에서 원하는 데이터 활용신청도 해보시고 코드 작성하셔서 데이터를 수집해보는 것을 추천해드립니다.

전 이제 이 데이터를 이용해서 어떤 것을 해볼지 고민을 좀 해봐야겠어요! 헿

오늘도 제 글 읽어주셔서 감사드립니다!

-이상 배고픈 작은 비버-

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

[빅데이터] kickstarter에서 Project에 큰 영향을 미치는 Feature 확인하기(1. 상세사이트 링크 수집) (0)	2020.08.30
[프로젝트]주제 Hate Speech Detection_2020(++ 실험 결과, Word Attention visualization) (1)	2020.06.03
[프로젝트]코로나19에 대한 사회적 반응[지하철 승객 수의 변화] (0)	2020.05.10
[프로젝트]주제 Public reaction during pandemic (0)	2020.04.30
[프로젝트]HateSpeech Dataset(2019) (0)	2019.12.23

안녕하세요, 작은 비버가 다시 돌아왔답니다.

2020년 새로운 해를 맞아 NEW 주제를 들고 왔습니다.

새롭게 들고 온 주제는 현재 사회적 이슈인 '2019 신종 코로나바이러스'입니다.

주제를 설명드리기에 앞서 '2019 신종 코로나바이러스'란?

'우한 폐렴'이라고 불리는 신종 코로나바이러스는 12월 말 중국 후베이성 우한시에서 발생한 폐렴 환자에서 최초 확인된 신종 호흡기바이러스로서 학술적으로는 '2019-nCoV'로 명명하고 있습니다.

전 세계 과학자에 따르면 우한 폐렴은 '코로나바이러스'라는 큰 RNA 바이러스 집단에 속합니다. 코로나바이러스는 사람, 조류, 설치류, 및 포유류 등 숙주 범위가 넓은 RNA 바이러스로서 유전체의 크기가 약 30kb에 이르며, 모든 RNA 바이러스 중에서 가장 큰 바이러스입니다.

사람에게 감염되어 질병을 유발하는 코로나바이러스는 6종이 알려져 있으며, 이중 4종(HCoV-229E, HCoV-OC43, HCoV-NL63, HKU1)은 가벼운 상기도 감염을 통해 보편적인 감기 증세를 유발하는 코로나바이러스이며, 나머지 2종은 SARS 코로나바이러스와 MERS 코로나바이러스로서 동물에서 사람으로 전파된 종으로 하기도 감염을 통해 심각한 호흡기 증후군을 유발합니다.

이번 2019 신종 코로나바이러스 출현으로 사람에게 감염될 수 있는 코로나바이러스는 7종으로 확인되었습니다.

국제보건기구(WHO)에 따르면 우한에서 발생한 신종코로나바이러스의 확산은 동물에서 비롯된 것으로 보고 있습니다. 일반적인 코로나 바이러스는 환자의 침방울 등의 분비물을 통하여 감염되지만, 신종 코로나 바이러스는 새로운 바이러스이기 때문에 감염 경로는 아직 명확하게 밝혀지지 않은 상태입니다.

증상으로는 코로나-19에 감염되면 2~3일에서 최장 2주 정도 잠복기를 거쳤다가 다양한 증상이 나타납니다. 주로 무기력감, 37.5도 이상의 고열, 기침, 인후통, 가래, 근육통, 두통, 호흡곤란, 폐렴 등의 증상이 발생합니다. 폐 손상에 따른 호흡부전으로 심하면 사망에 이를 수도 있습니다.

저희 팀은 이번 신종 코로나바이러스가 팬데믹(Pandemic)으로 선언되면서 사람들의 사회적 반응을 보기 위해 아이디어를 선정했습니다.

세계보건기구통계(WHO)에 따르면 신종코로나바이러스의 치사율은 7.01%(기준 2020.04.30.)로 MERS나 SARS보다 낮은 편이지만 중국, 대한민국, 이탈리아, 일본 등 현재 211개 국가에서 확진자가 폭증하는 중이며, 아직 예방 또는 치료 목적으로 승인된 백신이나 항바이러스제는 없습니다.

4월 30일 기준, 전 세계 신종코로나바이러스 감염자는 3,131,411명이며 사망자는 219,627명입니다. 세계보건기구(WHO)는 2020년 3월 11일 신종코로나바이러스에 대해 세계적 대유행, 즉 팬데믹(Pandemic)을 선언했습니다.

팬데믹(Pandemic)은 세계적으로 감염병이 대유행하는 상태를 뜻하는 말로, 감염병 위험 수준에 따라 1~6단계의 경보 단계를 설정하는데, 이중 가장 높은 6단계가 팬데믹(Pandemic)입니다.

신종코로나바이러스가 팬데믹(Pandemic)으로 선포되면서 역대 팬데믹(Pandemic)으로 선포된 사례를 찾아봤습니다.

세계보건기구(WHO)가 1948년 설립한 이래, 팬데믹(Pandemic)으로 선언한 사례는 '홍콩독감(1968년)', '신종플루(2009년)' 단 두 차례에 불과합니다.

가장 먼저 발생한 홍콩독감(1968년)은 6개월간의 가간 동안 주변 아시아 국가는 물론 아프리카, 남미, 유럽 등으로 확산되면서 전 세계에서 100만 명 이상이 사망한 질병입니다. 또한 우리나라에서도 250만 명의 사망자를 낸 신종플루(2009년)는 국내에서만 75만 명의 감염자가 나왔던 질병입니다.

신종코로나바이러스로 인한 국내의 사회적인 변화로는 마스크의 수요 급증입니다. 아직 예방 또는 치료 목적으로 승인된 백신이나 항바이러스제가 없기 때문에 질병의 전염을 막기 위한 마스크의 수요가 급증했습니다. 현재 마스크의 폭증으로 마스크 5부제를 실행하고 있습니다.

한국은 31번 확진자(신천지 신도) 이후 대구/경북지역을 시작으로 지역사회 감염으로 확산될 조짐이 보이자 2월 23일 감염병 위기 경보 최고 단계인 ‘심각’으로 설정했습니다.

이에 따른 정부 조치로는 확진자의 동선을 공개하고 사회적 거리두기, 자가격리 캠페인을 진행하고 초/중/고/대학의 개학이 연기되었습니다.

신종 코로나바이러스가 전 세계로 확산되면서 중국계뿐 아니라 아시아계 전반이 차별과 혐오의 대상이 되는 일이 늘고 있습니다. 이탈리아 등 일부 국가에서는 한국인을 포함한 동양인 학생의 수업 참석을 금지하고 아시아인을 모욕하는 일이 빈번히 발생하고 있습니다.

홍콩, 일본, 미국, 영국, 호주 등에서 화장지 사재기 현상이 사회 문제가 되고 있습니다. 사람들은 코로나바이러스의 감염자 수가 늘어나면서 두려움 때문에 불필요한 양의 식품과 생활필수품을 사재기하는 현상이 나타나고 있습니다.

저희는 이런 신종코로나바이러스로 인한 사람들의 사회적 반응을 알아보고자 다음과 같이 분석 계획을 생각했습니다.

1. SNS

SNS에서 사람들의 반응을 알아보기 위해 선택한 데이터는 트위터입니다. 2019년 12월부터 한국과 미국의 트위터 데이터를 수집하여 트윗에서 사람들의 긍정, 부정의 비율을 확인해볼 계획입니다. 여기서 더 나아가 좀 더 세부적으로 감정(기쁨, 불안, 분노, 슬픔 등)을 나눠 사람들의 감정 변화를 분석해보려고 합니다.

감정분석을 진행한 후에는 LDA 토픽 모델링을 통해 코로나 발생 전후에 트위터에서 어떤 토픽이 존재하는지, 토픽의 분포와 각 토픽 내의 단어 분포를 분석해보고자 합니다.

2. 공공데이터

공공데이터로는 신종코로나바이러스 발생 전후, 사람들의 대중교통 이용량이나 유동인구 분포수를 통해 실제 확진자가 나오고 나서 그 지역의 대중교통 이용률이나 유동인구 분포수가 감소했는지 확인해 볼 계획입니다.

현재 수집된 트윗 데이터는 한국, 미국을 기준으로 2019년 12월 1일부터 과거 데이터를 수집 완료했고, 실시간으로 계속해서 데이터를 수집 중에 있습니다.

현재 진행 상황으로는 sentiment classification을 위한 BERT모델과 KOBERT모델을 구현했습니다.

BERT모델은 일부 성능평가에서 인간보다 더 높은 정확도를 보이며 2018년 말, 자연 언어 처리(NLP)에서 SOTA를 달성한 딥러닝 모델입니다. 영어말고도 다른 언어에서도 사용 가능한 장점을 지니고 있습니다.

KOBERT모델은 T-Brain에서 개발한 모델로, 기존 BERT의 한국어 성능 한계를 극복하기 위해 개발되었습니다. 위키피디아나 뉴스 등에서 수집한 수백만 개의 한국어 문장으로 이루어진 대규모 말뭉치(Corpus)를 학습하였으며, 한국어의 불규칙한 언어 변화의 특성을 반영하기 위해 데이터 기반 토큰화(Tokenization) 기법을 적용하여 기존 대비 27%의 토큰만으로 2.6% 이상의 성능 향상을 이끌어 냈습니다.

LDA토픽 모델링을 하기 위한 LDA가 구현이 완료됐고, 대중교통의 증감 추이를 확인해보기 위한 지하철 자료와 유동인구 분포수 데이터 수집이 완료되었습니다. 또한 앞에 설명드렸던 것처럼 tweet data 역시역시 과거 데이터는 수집 완료되었고 실시간으로 수집 진행 중입니다.

앞으로 분석을 진행하면서 나온 결과들에 대해 글을 올리겠습니다.

작은 비버와 작은 비버의 팀원들을 모두 응원해주세요!!

오늘도 글 읽어주셔서 감사드립니다!

사진, 글 출처 : 세계보건기구(WHO), 질병관리본부, 코로나19(COVID-19) 실시간 상황판 https://coronaboard.kr/

코로나19(COVID-19) 실시간 상황판

코로나19(신종 코로나바이러스)에 관한 세계 각 국가들의 통계 및 뉴스 등을 취합하여 실시간 정보를 제공합니다.

coronaboard.kr

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

[빅데이터] kickstarter에서 Project에 큰 영향을 미치는 Feature 확인하기(1. 상세사이트 링크 수집) (0)	2020.08.30
[프로젝트]주제 Hate Speech Detection_2020(++ 실험 결과, Word Attention visualization) (1)	2020.06.03
[프로젝트]코로나19에 대한 사회적 반응[지하철 승객 수의 변화] (0)	2020.05.10
공공데이터 API를 사용한 데이터 추출 (1)	2020.05.01
[프로젝트]HateSpeech Dataset(2019) (0)	2019.12.23

3학년 2학기가 끝난 후 작은 비버는 뭘 할까 고민하다 자격증을 따기로 결심함.

뭘 준비해야할까 고민중 컴퓨터활용능력 1급을 따기로 결정

예전에 한 번 따보려고 노력해봤다가 중간에 포기한 적 있었음

하지만 이번에는 꼭 따고 말겠어!

컴퓨터활용능력 1급 소개

60문제 중 36문제만 맞추면 통과 or 24문제를 틀려도 통과(과락이 아닐경우만)
과목은 총 3과목으로 컴퓨터 일반, 스프레드시트(엑셀), 데이터베이스(엑세스)로 구성
각 과목당 20문제(총 60문제), 평균 60점 이상이어야 통과(한 과목이라도 40점 미만이라면 과락으로 탈락)
문제 배점은 문제 당 5점으로 통일
시험 시간은 총 60분으로 컴퓨터(온라인)로 시험 응시
응시자격 제한 없음. 누구나 가능~
검정수수료는 필기 17,800원(인터넷 접수시 수수료 1,200원 추가)

공부방법

일단 작은비버는 전공생으로 자격증은 GTQ이후로 처음 도전하는 것.

(시험을 쳐 본 후에 생각한 것은, 이건 진짜 전공자든 비전공자든 열심히 외우고 기출 돌린 사람은 누구나 합격할 수 있따는 것. 겁먹지 마셈)

공부를 하기 전 시험접수부터 하기 위해 '코참패스 APP'에 들어갔다. 이게 웬걸,,, 거의 다 마감.. 할 수 없이 2주 뒤로 잡았습니다. (시험 보시려는 분들 방학이라서 그런지 진짜 거의 다 마감이에요,, 빨리 접수하세요,,)

공부시간은 일주일정도!(핵심요약본 시간날때마다 읽기, 기출 3~4일)

1. 일단 시나공에서 배포하는 '컴활 1급 핵심요약본'을 프린트(페이지수 91page, 핵심 198번까지)

https://sinagong.gilbut.co.kr/it/pds#pd03

시나공 IT

컴퓨터활용능력, 정보처리 등 IT 자격증 전문 출판, 시나공 IT

sinagong.gilbut.co.kr

2. https://www.comcbt.com/xe/c1이 사이트 들어가서 2015~2019년도 까지 프린트했습니다.(사실 제대로 본건 2017~2019까지 봤었음)

컴퓨터활용능력 1급 필기 기출문제 - 최강 자격증 기출문제 전자문제집 CBT

컴퓨터활용능력 1급 필기 기출문제

www.comcbt.com

3. 핵심 요약본 한 3회독 하고, 기출 바로 풀기(풀어보고 틀린문제는 해설보면서 읽어보기)

4. 기출 다 풀고 풀었던 기출 한 번씩 더보기(기출 계속 읽어보고 핵심요약본도 계속 읽었음)

전 오답노트는 만들지 않고, 핵심 요약본 계속 읽고 기출에서 틀린문제는 해설보면서 계속 읽었어요.

컴퓨터 활용능력 1급 필기 합격

요-후 기분 좋아 짜릿해

저는 한 번에 통과했습니다! 상설시험이라서 그런지 기출에서 봤던 문제들이 많이 나왔고, 문제가 그렇게 어렵지 않았던 것 같아요!

다 풀고 한 20분 정도 남았습니다.

작은 비버, 다음 글은 컴활1급 실기 합격 후기를 꼭 갖고오겠습니다.

다들 화이팅!

'작은비버의 성장과정 > 자격증' 카테고리의 다른 글

컴퓨터활용능력 1급 실기 합격후기(단기 독학, 유동균, 아이티 버팀목, 컴활 1급 실기 팁, 주의사항, 컴활 실기 요약)++1급 자격증 실물 추가 (0)	2020.08.29
컴퓨터활용능력 1급 실기 (종목소개 및 시험 정보, 가격, 접수방법) (0)	2020.08.26

오늘은 HateSpeech Detection에 사용했던 HateSpeech Dataset에 대해 알려드리겠습니다.

원래 저희는 트위터에서 트윗을 추출하여 HateSpeech 문장들을 분류하고 Detection을 하는 것이 목표였습니다.

하지만 그전에! 바로 트위터에서 트윗을 추출하여 Detection을 하게 되면 저희가 분류한 문장들이 혐오표현인지 아닌지 정확도를 판단할 수 없고 비교할 대상이 없다는 문제점을 발견하게 되었습니다.

그래서 현재 인터넷에 공개되어있는 HateSpeech Data들을 먼저 수집하여 Detection을 해보는 것으로 방향을 잡았습니다.

저희는 'PLOSONE' 과학 저널 사이트에서 진행되었던 연구자료( 'Hate speech detection: Challenges and solutions')에서 데이터를 가져왔습니다.

출처 : https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0221152#abstract0

Hate speech detection: Challenges and solutions

As online content continues to grow, so does the spread of hate speech. We identify and examine challenges faced by online automatic approaches for hate speech detection in text. Among these difficulties are subtleties in language, differing definitions on

journals.plos.org

저희는 여기에서 Origin Source가 Twitter, Language가 English로 작성된 데이터만 수집하였습니다.

=> HateBaseTwitter, Waseem, kaggle dataset

트위터로 작성된 데이터만 수집한 이유는 저희가 최종 구현할 목표가 트윗으로 작성된 데이터를 수집하여 분석하는 것이기 때문입니다. 또한 영어로 작성된 데이터만 수집하는 이유는 아직 저희가 영어가 아닌 다른 언어로 Detection을 하는 것이 어렵기 때문입니다.. 흑ㅠ

위에 나와있는 데이터들은 이미 인터넷에 공개가 된 상태입니다. 저희는 그 공개된 데이터들을 가지고 Detection을 해볼 것입니다.

위에 나와있는 모든 HateSpeech Data들은 여기에 다 정리되어 있습니다! http://hatespeechdata.com/

Hate Speech Datasets

Hate speech data

hatespeechdata.com

수집한 데이터 : HateBaseTwitter, Waseem, kaggle dataset

1. Hatebase twitter
https://github.com/t-davidson/hate-speech-and-offensive-language

t-davidson/hate-speech-and-offensive-language

Repository for the paper "Automated Hate Speech Detection and the Problem of Offensive Language", ICWSM 2017 - t-davidson/hate-speech-and-offensive-language

github.com

HateBase Twitter데이터는 Davidson이 제공한 약 24,000여 개의 트윗으로 구성된 데이터입니다.

먼저 HateBase에서 혐오 발언 어휘를 가져와 이 용어들이 들어 있는 트윗을 트위터에서 검색했고, 그 결과 약 3만 3천 여명의 사용자들 확인했습니다. 그다음 이 모든 사용자들로부터 약 8천5백만 개의 트윗을 가져왔습니다. 약 8천5백만 개의 트윗에서 25k 개의 트윗을 무작위로 추출했습니다. crowdsourcing 하면서, 각각의 트윗을 hate speech, offensive (but not hate speech), or neither hate speech nor offensive로 주석을 달았습니다.

2. Kaggle
https://www.kaggle.com/c/detecting-insults-in-social-commentary/data

Detecting Insults in Social Commentary

Predict whether a comment posted during a public discussion is considered insulting to one of the participants.

www.kaggle.com

Kaggle은 insulting or not insulting으로 분류된 약 6천여 개의 소셜 미디어 코멘트로 구성되어있습니다.

3. Wassem & Hovy
github.com/zeerakw/hatespeech

Waseem & Hovy는 약 만 6천여 개의 racist, sexist, or neither로 분류된 트윗으로 구성된 데이터입니다.

트위터에서 eligious, sexual, gender, and ethnic minorities와 관련된 약 136,000개의 트윗을 수집한 후에 스스로 약 만 6천여 개의 트윗에 주석을 달았습니다.

오늘은 인터넷에 공개되어있는 HateSpeech Dataset에 대해 알려드렸습니다.

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

[빅데이터] kickstarter에서 Project에 큰 영향을 미치는 Feature 확인하기(1. 상세사이트 링크 수집) (0)	2020.08.30
[프로젝트]주제 Hate Speech Detection_2020(++ 실험 결과, Word Attention visualization) (1)	2020.06.03
[프로젝트]코로나19에 대한 사회적 반응[지하철 승객 수의 변화] (0)	2020.05.10
공공데이터 API를 사용한 데이터 추출 (1)	2020.05.01
[프로젝트]주제 Public reaction during pandemic (0)	2020.04.30

열정가득 작은비버

전체 글

컴퓨터활용능력 1급 실기 합격후기(단기 독학, 유동균, 아이티 버팀목, 컴활 1급 실기 팁, 주의사항, 컴활 실기 요약)++1급 자격증 실물 추가

'작은비버의 성장과정 > 자격증' 카테고리의 다른 글

컴퓨터활용능력 1급 실기 (종목소개 및 시험 정보, 가격, 접수방법)

'작은비버의 성장과정 > 자격증' 카테고리의 다른 글

[프로젝트]주제 Hate Speech Detection_2020(++ 실험 결과, Word Attention visualization)

실험에 사용된 데이터 셋

연구 방법

실험 결과(1)

실험 결과(2)

실험 결과(3)

Waseem Word attention visualization

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

[프로젝트]코로나19에 대한 사회적 반응[지하철 승객 수의 변화]

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

공공데이터 API를 사용한 데이터 추출

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

[프로젝트]주제 Public reaction during pandemic

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

컴퓨터활용능력 1급 필기 합격후기(단기 독학, 컴활 소개정보)

'작은비버의 성장과정 > 자격증' 카테고리의 다른 글

[프로젝트]HateSpeech Dataset(2019)

'작은비버의 성장과정 > 과제 및 성장기' 카테고리의 다른 글

+ Recent posts

티스토리툴바