日本語教師の絶対的不足,経験の浅い教師による教育内容の質の低下,教材の不足やカリキュラムの未整備,教材として使用する著作物の著作権許諾,日本語学習者の専門分野への広がりとその対応等,日本語教育にかかわる問題は数多い。これらの問題を解決するために,国立教育研究所が中心となって「日本語教育支援システム(Computer Assisted System for TEaching & Learning /Japanese,以下 CASTEL/J と称する。)」の開発研究を進めてきた。 CASTEL/J は, 特に, “日本語教師を支援するための電子化教材データベースの整備”を大きな目標としており,これまで開発してきたデータベースは,漢字辞書,単語辞書,用例辞書,画像辞書,音声辞書と著作権許諾を得た著作物約90冊(新書,映画台本等)である。これらの教材は1枚の CD-ROM に納められており,日本語教育に携わる国内外の研究者・教育者に配布している。
電子化した辞書データベースの1つに用例辞書データベースがあり,このデータベースは「基礎日本語学習辞典(国際交流基金編,凡人社,1986.)」に掲載されている用例を基本にしている。一般に,既存辞書の用例は,その見出し語の意味や用法がよく理解できるように,また,その用例を応用して表現することができるように選定されている。しかし,辞書の用例は,専門家による経験的な知識に基づき,限られた諸条件の中で最大効果をねらって作成されており,必ずしも,すべての日本語学習者にとって適切な用例が準備されているとは限らない。
そこで,本研究では,日本語教育用辞書の用例を数量的に分析し,その結果を活かし,適切な用例を数多く CASTEL/J の用例辞書データベースに増補することを試みている。
「基礎日本語学習辞典」のこれまでの数量的分析結果を以下に示す。
この辞典は,見出し語全体に対する用例付きの見出し語の割合が,92.8%(=2695/2905)で,他の辞典と比較して,非常に高い値である。また,1つの見出し語に対して平均 2.2個の用例がある。用例全体の単語数(句読点等の記号も1つの単語として数える。)は,65,111個で,1 つの用例は平均10.1単語(最小2,最大48)である。また,用例全体の異なり単語数(語彙数)は,6,145個である。用例の文字数は,平均19.7文字で,文字の種類については,(1)ひらがな12.8文字(65.0%),(2)漢字 4.8文字(24.3%),(3)記号等1.6文字(8.1%),(4)カタカナ0.4文字(1.9%),(5)数字0.1文字(0.7%)の順である。
この辞典では,用例のない単語数は210(=2905-2695)である。これらの単語の用例を,他の単語の用例を再利用できるかどうかについて調べてみた結果,41.9%(88/210)の単語に用例が存在した。見出し語にない単語は,その多くは名詞であるが,相当数ある。これらの単語についても,同様な方法で用例を得ることができると考えられる。
雑誌等の平均文長等を調査した結果によると,用例の分析結果は,児童雑誌の文の長さ29.1文字,漢字含有率19.9% に近い値である。ちなみに,専門雑誌の場合,文の長さ75.7文字,漢字含有率45.7% で,最も遠い値である。
日本語学習者は,学習目的,学習時間,自国文化圏等が多様化しているため,ある学習者にとって適切な用例が,異なる学習者にとって必ずしも適切でない用例である場合がある。適切な用例の生成には,日本語を学習する学習者の学習者特性,既有知識,理解の型,学習状況等を考慮しなければならない。これらのデータに基づき,用例を生成すれば,個々の学習者に適切な用例を用意することが可能になる。
『アルコール』を含む文で,文字数が中レベル(20字±10字)と漢字率が中レベル(25%±15%)のものを以下に示す。
【例1】アルコールの約八○パーセントは小腸から吸収される。〔用例文字数=25字用例漢字率=20%,用例特性=文語体,著作物=中村希明著「酒飲みの心理学」〕
【例2】身体中がアルコール漬けみたいにブヨブヨになっちまってよ、〔用例文字数=28字,用例漢字率=14%,用例特性=口語体,著作物=山田洋次・朝間義隆脚本「男はつらいよ・柴又慕情」〕
今後,辞書データベース中の他の単語の見出し語の用例を再利用する方法と,教材テキストデータベース中の新書,台本等の文から用例候補を抽出する方法を用いて,適切な用例を数多く増補していくことを考えている。