[개인프로젝트] 데이터분석가 채용공고 시각화 - 워드 버블
| INTRO
SNS를 통해 워드 버블에 대해 알게 되었다. 워드 버블은 텍스트 분석에 많이 쓰이는 워드 클라우드를 개선한 버전으로 빈도 높은 단어를 텍스트 임베딩을 활용해 비슷한 의미 덩어리로 묶어주는 정보디자인 도구이다. 최근 데이터 분석 취업 관련 세미나를 여러개 들으면서 채용 공고를 제대로 분석하는 것이 중요하다는 얘기를 많이 들었다. 워드 버블을 활용하면 여러 채용공고를 빠르게 분석해볼 수 있지 않을까? 하는 생각에 이번 프로젝트를 기획하게 되었다.
이번 프로젝트에서는 데이터분석가 채용 공고에서 자주 나타나는 단어를 시각화해 현재 내가 보유하고 있는 역량은 무엇인지, 부족한 역량은 무엇인지 파악하는 것을 목적으로 한다. 워드 버블을 활용하면 단순히 빈도순으로 확인하는 것 뿐만 아니라 역량을 비슷한 토픽별로 묶어 더 깔끔하게 필요한 내용을 파악할 수 있을 것을 기대하고 있다.
이제 프로젝트를 시작해보자 !
| DATA
분석을 위해서는 먼저 채용 공고 데이터가 필요하다. 크롤러를 통해 수집할수도 있겠지만 해당 시점에 데이터 직무 공고가 많지 않기도 했고, 직접 읽어보고 나에게 적합하다고 생각되는 공고들을 선별하고자 했다.
2024.08.31일을 기준으로 잡코리아, 인디스워크, 원티드 등 여러 채용 사이트를 통해 15개의 공고에 대해 내가 관심 있는 포지션들의 주요 업무, 자격 요건, 우대 사항 3가지를 노션을 통해 정리했다.
수집한 공고는 데이터 분석가, 데이터 사이언스, 데이터 엔지니어 등 여러 직무가 섞여있으며 도메인 또한 이커머스, 게임, 금융 뿐만 아니라 교육까지 다양한 편이다. 본인의 희망 분야는 이커머스 도메인의 데이터 분석가이지만 데이터 엔지니어 직무에 대한 흥미가 있기도 하고 그 외의 다른 데이터들도 다뤄보고 싶은 생각이 있어 재미있어 보이는 신입, 2년차 이하 공고는 모두 수집했다.
| 워드 버블 제작
제작 과정은 매우 간단하다. 위처럼 구글 시트나 엑셀을 활용해 단어와 빈도수를 입력해 제작할 수 있는 버전이 있고, 아래처럼 텍스트 전문을 넣으면 키워드 추출부터 시각화까지 한번에 가능한 데모 버전이 있다. 이번 프로젝트에서는 아래 데모 버전을 사용해보고자 한다.
링크1. Word Bubble 생성 (word-bubble-uxtechlab.replit.app)
링크2. Word Bubble Demo (pxd.co.kr)
먼저 주요 업무 텍스트를 넣어보았다.
아무런 전처리 없이 텍스트를 그대로 넣었으므로 당연히 분석, 데이터 라는 단어가 가장 크게 보인다. (데이터,Data,통계)가 같이 묶인 것을 보니 영어도 잘 처리하는 것으로 보인다. 빈도 수가 압도적으로 높은 단어(분석,데이터)가 있어 다른 단어들이 잘 보이지 않는 것 같다.
이번에는 분석, 데이터, Data, 따른, 제공 등의 단어들을 제거한 텍스트를 넣어보았다. 텍스트 대체는 간단하게 워드에서 텍스트 대치 기능을 활용했다.
데이터 크기가 작다보니 파란색 부분처럼 빈도수가 적은 단어들이 뭉치게 되는 것은 어쩔 수 없는 것 같다. 그렇지만 단순 워드클라우드보다는 비슷한 분야끼리 묶어 확인할 수 있다는 점에서 더 활용도가 높은 것 같다.
여기서 눈에 띄는 점은 (시각화, 대시보드, 협업) 이다. 분석가의 역할로 협업을 위한 대시보드, 시각화에 대한 내용이 많은데 이를 잘 묶어낸 것 같아 신기했다.
위 내용을 토대로 데이터 직무의 주요 업무를 살펴보자면 아래처럼 요약해볼 수 있을 것 같다.
1. 다양한 지표를 모니터링하고 개선하기 위한 전략을 수립한다.
2. 제안, 의사결정, 기획 등 액션에 필요한 업무를 진행한다.
3. 고객의 활동, 실험에 대한 실험을 진행한다.
4. 마케팅에 활용하기 위한 지식과 인사이트를 발굴한다.
위의 워드 버블과 본인의 배경 지식을 기반으로 작성했으므로 매우 매우 주관적인 해석이다. 특히 파란색 영역은 엔지니어링과 분석 영역이 통합된 것 같아 어떤 점을 뽑아내야 할 지 어려움이 있었다. 분석가, 엔지니어, 사이언티스트 등 직무를 명확히 분리한 후 분석하는 것이 더욱 유용할 것이다. 각 회사마다 데이터 직무에 대한 업무가 다르므로 전반적으로 어떤 업무를 하는가에 대한 참고용으로만 활용하는 것이 좋을 것이라 생각된다.
두번째로는 자격 요건을 넣어보았다. 위와 동일한 방법으로 간단한 전처리를 진행한 결과다.
워드 버블을 활용해 필요한 자격 요건을 요약해보자면 데이터 직무에 필요한 역량은 아래와 같다.
1. 통계적, 수학적 지식
2. 명료하게, 간결하게 커뮤니케이션할 수 있는 역량
3. 가설을 설계하고 근거를 토대로 논리적으로 검증할 수 있는 역량
4. SQL, Python을 활용한 분석 역량
자격 요건에 비해 그룹화가 더 잘된 것같은 느낌이 들었다. 묶인 내용을 토대로 문장으로 정리하거나 유사한 계열을 묶어줬을 뿐인데 꽤 정확하지 않은가? 자주 함께 등장하는 단어를 기반으로 군집화를 하는걸까 궁금해졌다. 네트워크 군집을 활용했다고 알고있는데, 다음에 이에 대해 자세히 찾아봐야겠다.
마지막은 우대 사항이다.
자격 요건, 필요 역량에 비해 눈에 띄는 점은 특정 프로그램의 이름, 분석 방법론 등 전문적인 내용이 많이 보인다는 점이다. 이를 통해 역시 관련 경험, 경력이 있는 사람을 우대함을 확인할 수 있었다. 각 회사마다 우대하는 역량, 경험 또한 매우 다르기 때문에 어느정도 공통적인 부분에 대해서만 정리해보았다.
1. SQL 활용 능력이 역시 중요하다.
2. 서비스, 비즈니스, 고객의 관점에서 바라볼 수 있는 역량이 필요하다.
3. 각 회사에 맞는 (모바일, 금융, 플랫폼, 게임) 등 도메인에 대한 이해가 있는 지원자를 선호한다.
각 단어를 클릭하면 해당 단어가 포함되어 있는 문장을 확인할 수 있다. 우대사항에서 가장 눈에 띈 점은 필요 역량에서도 보았듯이 SQL 역량이 중요하다는 점이다. 본인은 현재 스터디를 통해 매일 SQL 문제를 2문제씩 풀고있다. 단순 문제풀이를 넘어 여러 함수들이나 SQL 튜닝 등에 대해 추가적으로 공부하고싶다는 생각을 요즘 하고있는데, 역시나 얼른 시작하는게 좋을 것 같다 . .
| 결론
이 프로젝트에서는 단순히 복사, 붙여넣기를 통해 누구나, 쉽게 사용할 수 있는 워드 버블을 활용해 데이터 직무의 채용 공고를 분석해보았다.
필요 역량 파트를 통해 자가점검을 해보자면 현재 보유하고 있는 역량과 앞으로 계속 발전시켜나가야할 역량은 아래와 같다.
1. 통계적, 수학적 지식
2. 명료하게, 간결하게 커뮤니케이션할 수 있는 역량
3. 가설을 설계하고 근거를 토대로 논리적으로 검증할 수 있는 역량
4. SQL, Python을 활용한 분석 역량
통계학을 전공했으므로 그래도 다른 지원자들에 비해서는 통계, 수학적 지식을 보유하고 있다고 얘기할 수 있고 Python, SQL 또한 분석에 필요한 정도의 스킬은 보유하고 있다고 생각한다. 커뮤니케이션은 지식적인 부분보다는 실무를 통해 발전하고, 개선해나갈 수 있는 파트라고 생각한다. 그간의 팀프로젝트 경험을 떠올리면 커뮤니케이션도 엄청나게 뛰어나진 않지만 부족하진 않다 라는 . . 나만의 생각 ㅎ_ㅎ
그렇다면 내가 지금 더욱 발전시킬 수 있는 파트는 가설 설계 및 검증 역량이다. 문제를 정의하고, 가설을 설계하고, 이를 검증할 수 있는 지표를 선정하는 것. 굉장히 굉장히 어렵다고 생각되지만 나만의 논리력을 갖추는게 중요하다는 생각이 든다. 지금 읽고 있는 린 분석이라는 책에서 여러 사례들과 지표, 방법론들을 많이 다루고 있는데 이를 참고해서 내가 가고싶은 기업들의 서비스에 대해 가설을 세우고, 나름대로 지표를 선정해보는 것이 좋은 연습이 될 것 같다. 가지고 있는 역량들은 키우고, 부족한 역량들은 잘 보완해서 데이터 직무로 취업할 수 있기를 희망하며 프로젝트를 마무리하고자 한다.
워드 클라우드가 아닌 다른 텍스트 시각화 방법을 찾고 계셨거나, 데이터 직무에 취업하기 위해 어떤 역량이 필요한 지 궁금하셨던 분이 계셨다면 도움이 되셨기를 바란다 !