새로운 데이터셋의 필요성
- 특정 단어 데이터 셋 기준으로 학년별 단어를 구성하기에 데이터셋의 불균일함
- KICE의 경우 입학전 알아야할 단어 500개, 5학년 8개, 6학년 0개로 불균일 → 문장의 레벨화 작업을 위해 보정 필요
- 국어 교과서, 동화 데이터셋마다 빈출 단어가 조금씩 다름, 일상적인 단어와 차이가 있다고 생각해 섞음
참고한 데이터셋
- KICE 읽기 유창성과 독해력 향상을 위한 읽기 검사지 학년별 단어
- 초등 국어교과서 텍스트 분석 데이터 셋
- 동화 이해도 테스트를 위한 질의응답쌍 생성 데이터
만든 로직
→ 위의 두 데이터를 활용해 빈도수 점수 재구성
- 국어 교과서 3 : 동화 데이터 1의 비율로 빈도수 점수 합하여 재구성
- 교과서의 경우 입학전 난이도의 데이터는 없음
- 동화 데이터의 경우 유아, 초등 저학년, 초등 고학년으로 난이도 분류
- 동화데이터의 초등 저학년은 초등1~3학년에 교과서의 1/3의 비중으로 빈도수를 더해줌
- 동화데이터의 초등 고학년은 초등4~6학년에 교과서의 1/3의 비중으로 빈도수를 더해줌
- 계산된 빈도점수를 토대로 TF-IDF 진행
- 많이 언급되었지만 모든 학년에 다같이 많이 언급된 경우는 중요하지 않은 단어로 간주하여 TF-IDF 점수가 낮음
- 학년별 중요한 단어를 TF-IDF 0.5 이상인 단어들을 대상으로 가져옴
- 이 과정에서 살아남은 단어들은 레벨별 단어 데이터셋에 추가