단어 레벨 | Notion

새로운 데이터셋의 필요성

특정 단어 데이터 셋 기준으로 학년별 단어를 구성하기에 데이터셋의 불균일함
- KICE의 경우 입학전 알아야할 단어 500개, 5학년 8개, 6학년 0개로 불균일 → 문장의 레벨화 작업을 위해 보정 필요
- 국어 교과서, 동화 데이터셋마다 빈출 단어가 조금씩 다름, 일상적인 단어와 차이가 있다고 생각해 섞음

참고한 데이터셋

KICE 읽기 유창성과 독해력 향상을 위한 읽기 검사지 학년별 단어
- https://k-basics.org/studyView.do?menuSeq=666&datadetailSeq=525
초등 국어교과서 텍스트 분석 데이터 셋
- https://www.dropbox.com/scl/fo/ul2fj7bxwvw9a9u621alu/AIwYhgcbICY4b5tN1imgvDU/초등 국어교과서 텍스트 분석?rlkey=ui3073p714p0f71jzplxxih9m&e=1&subfolder_nav_tracking=1&dl=0
동화 이해도 테스트를 위한 질의응답쌍 생성 데이터
- https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71649

만든 로직

KICE 읽기 유창성과 독해력 향상을 위한 읽기 검사지 학년별 단어
- 기반으로 우선 단어-레벨 사전 구성
초등 국어교과서 텍스트 분석 데이터 셋
- 형태소 분석 후 빈도수 리카운팅
- 빈도수가 30회 이상인 단어만 가져옴
동화 이해도 테스트를 위한 질의응답쌍 생성 데이터
- 각 json 파일 내 srcText를 모아 형태소 분석 후 빈도수 카운팅
- 빈도수가 100회 이상인 단어만 가져옴

→ 위의 두 데이터를 활용해 빈도수 점수 재구성

국어 교과서 3 : 동화 데이터 1의 비율로 빈도수 점수 합하여 재구성
- 교과서의 경우 입학전 난이도의 데이터는 없음
- 동화 데이터의 경우 유아, 초등 저학년, 초등 고학년으로 난이도 분류
- 동화데이터의 초등 저학년은 초등1~3학년에 교과서의 1/3의 비중으로 빈도수를 더해줌
- 동화데이터의 초등 고학년은 초등4~6학년에 교과서의 1/3의 비중으로 빈도수를 더해줌
계산된 빈도점수를 토대로 TF-IDF 진행
- 많이 언급되었지만 모든 학년에 다같이 많이 언급된 경우는 중요하지 않은 단어로 간주하여 TF-IDF 점수가 낮음
- 학년별 중요한 단어를 TF-IDF 0.5 이상인 단어들을 대상으로 가져옴
이 과정에서 살아남은 단어들은 레벨별 단어 데이터셋에 추가