NTTは3日、単語のなじみ深さを示す単語親密度のデータベース(DB)を約20年ぶりに更新し、約16万3000語からなる「令和版単語親密度DB」を構築したと発表した。約4600人の語彙(ごい)数調査も行い、年齢に応じた語彙の獲得状況を単語親密度に対応づけてモデル化もした。言語心理学や自然言語処理といった学術分野へ貢献するとともに、児童・生徒の学習支援の手がかりにしてもらう考え。

平成版DBは約7万7000語からなる。多くの語で令和版と親密度に大きな変化はなかったが、「アナフィラキシー」や「マニフェスト」といった語は上昇。「ミリバール」や「コレクトコール」などが低下し、時代背景を反映した。

年齢に応じた語彙の獲得状況の調査では、成人に比べ、小中学生では比較的親密度の高い語であっても、知っているかどうかにバラつきが認められた。NTTは単語親密度を手がかりにして、児童・生徒が獲得した方が良い語彙を見つけられると考えている。

同社は今後、語彙数推定方法を英語の学習にも援用し、語彙数に合った英語の多読支援を進めていく計画。