兎夢のつれづれ日記

アクセスカウンタ

zoom RSS 『文章を科学する』

<<   作成日時 : 2018/05/19 20:04   >>

なるほど(納得、参考になった、ヘー) ブログ気持玉 17 / トラックバック 0 / コメント 0

『文章を科学する』 李在鎬(編集) ひつじ書房
人工知能の研究のひとつとして、AIに東京大学の入学試験に合格させようというプロジェクトがあった。

「あった」と書いたのは、このプロジェクトは、2016年末に断念されたからだ。

 AIで東大合格断念 「東ロボくん」偏差値伸びず

センター試験は全国の多くの国立大学、私大に合格レベルになったというが、2次試験に臨むには、日本語の文章の理解ができず、論文の回答ができないというのが理由だった。

あれから1年半、文章の理解という難題はなかなか解決できていない。

それでも、自動翻訳や自動応答を実現しようというシステムは沢山でてきた。
数年前、Pepperが販売開始された時も、購入して使い始めた直後は頓珍漢な答えばかりしていたが、3か月も頑張って相手をしていると少しはまともな返事ができるようになったという。日常会話であれば、何回かやりとりするうちにまともな答えをするようになる。

そんな状況では一発勝負の試験ではまだまだ使えないということだ。

特定の用途のお店の店頭での案内とかであれば対応範囲も限られているので、自動応答できるように作れる。
ディープラーニングで覚え込ませるというよりも、ある単語がでてきたら、その単語に対する返事として最適な候補をいくつか選び、それらの答えの中からより確からしいものを選んで答える。
この確からしさの判定にはディープラーニングを使うこともできる。

文章を理解するためにも、文章を解析する技術が必要である。
その技術は、いくつかの技術に分かれる。

特に日本語の文章の場合、漢字、ひらがな、カタカナ、ローマ字などが混在している。句読点はあるものの、単語が連続しているので、品詞分解する必要がある。品詞分解の区切りを間違えるとまったく違う単語がでてきてしまうし、ひらがなやカタカナで書いてあると同音意義語が多いので理解不能な解釈になってしまう。

品詞分解がうまくいくと、次に行うのが、文書にでてくる単語や、動詞の頻度と関係性の分析だ。それが計量言語学という


 計量言語学とは、言語現象を計量化することにより、厳密かつ正確な分析
を行うことを目指す学問領域である。そのため、言語現象に対して何らかの
数理的モデルをあてたり、使用頻度のように何らかの質量をあてたりするこ
とで、言語現象を分析する。


統計解析の中で「テキストマイニング」という言葉がよく使われるが、「数理的モデルで言語データを分析し、有用な情報を発掘する、というものであり、計量言語学の進化系の1つとみることができる」

発掘なのでマイニングという英語が使われている。

文章に使われている単語を計数していくことで文章が難解なものか、そうでもないのかがわかるという。

例えば、中学受験、高校受験、大学受験問題などに使われる日本語の文章がその学齢に対して適切なものかどうかを判定するなどに使える。

ある作家の文章を選んで、それを問題文に採用しようと考えた時に、その文章に使われている語がどのていど受験生に理解できるものなのかを判定したりできる。

過去に採用した事のある作家であればその作家の文章を試験問題に採用するのは同じレベルの文章を採用できる可能性は高いが、まったく新しい作家の作品を採用する場合には、その作家の書く文章のレベルをチェックする一つの方法になる。






テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ
気持玉数 : 17
なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー)
ナイス

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
『文章を科学する』 兎夢のつれづれ日記/BIGLOBEウェブリブログ
文字サイズ:       閉じる