兎夢のつれづれ日記

アクセスカウンタ

zoom RSS 『コンピュータが小説を書く日』

<<   作成日時 : 2017/09/02 23:04   >>

なるほど(納得、参考になった、ヘー) ブログ気持玉 22 / トラックバック 0 / コメント 0

『コンピュータが小説を書く日 〜AI作家に「賞」は取れるか〜』 佐藤 理史 日本経済新聞出版社
松尾先生は「言語と概念のグラウンディング」が実現するのは、2025年ごろと予測している

そんな中で、コンピュータに文章を書かせようと研究している先生がいる。
その一人が、この本の著者の佐藤理史先生だ。

文章を書くことの一つとして小説を書かせてみようとした。その小説を星新一ショートショートコンテストに応募することになった当初から、応募結果がでるまでの話をまとめたものが本書である。

中には、文章をどうやって作るようにプログラミングしたのか具体的なコーディングについても書かれている。

佐藤先生と、研究室の学生の少人数で臨んだその結果が、コンテストの一次選考を通過するものだったことは、昨年3月に広く報道されているが、中には見逃している方もいるかもしれない。

コンピュータが書いて、星新一賞に応募された2作品も、本書に中綴じとして掲載されている。2作品で16ページほどであるが、現在の実績として興味あるかたは、読んでみるといい(末尾のプロジェクトの「成果」にある)。

佐藤先生の研究室で、このような小説コンテストに応募するきっかけを作ったのは、公立はこだて未来大学の松原教授を中心とした「きまぐれ人工知能プロジェクト 作家ですのよ」だ。

このプロジェクトに参加したのは、佐藤研究室での

どうすれば、1段落以上の意味の通る日本語の文章を機械的に作れるか。

という研究につながりそうだからだという。

きまぐれ人工知能プロジェクトが始まったのが2012年9月。佐藤研究室が参加し、研究を始めたのが2013年4月だという。

翌年の2014年5月に研究発表としてYouTubeにビデオが掲載されている(末尾にURL記載)。

そして、2015年9月に出来上がった作品を応募。

 私が星新一賞に作品を応募した日は9月23日です。9月13日は以
降、ほとんどすべてを投げ打って、作品のためのプログラム作りに
邁進しました。勝負をかけたのが、19日からの5連休。この年、こ
の連休があったから、応募できたようなものです。
 連休最終日の23日には、もう、いいかげんバグ取りも嫌になっ
ていて、作ったプログラムを10回動かして10作品作り、ざっと見
て、そのうちの6つ目を応募しました。私の戦いは、この日をもっ
て終了しました。

 これは何度も質問されたことですが、応募作品は、システムの出
力「そのまま」です。やったことは、テキストをWordに貼ったこ
とだけです。修正は一切していません。なお、後日、応募作品には
バグが含まれていることが判明しました。

こうして完成しかのが、『コンピュータが小説を書く日』である。

もうひとつの『私の仕事は』は、研究生の高木君と松山君の2人が締め切り当日まで粘って完成させたそうだ。

本書に書かれている、もう一つの話題が、「東ロボ」プロジェクト。佐藤研究室は、「東ロボ」にも参画していた。

「東ロボ」というのは、

「ロボットは東大に入れるか」は、大学入試問題をコンピュータ
で解くことに挑戦する人工知能の研究プロジェクトで、2011年か
ら国立情報学研究所を中心に進められています。このプロジェクト
は、その目標として
・2016年度に大学入試センター試験で好成績をおさめること
・2021年度に東京大学に合格すること
を掲げています。

佐藤研究室では、「国語」現代文を担当していた。

国語の問題を解くアルゴリズムを研究していて、その概要が説明されている。

これを読むとセンター試験の問題がどういう意図で出題されているのかがなんとなくわかる。なるほど、こんな仕組みだったのかと今更理解できる。解を出すためのアルゴリズムがあるなら、アルゴリズムを理解すれば、受験勉強は無敵だ。

東ロボの課目は、ほかにもありそれらの問題の多様性は次のようなポイントで整理できるという。

(本文は、図になっているのだが表にする。)
分野     数学−場合の数・確率−物理−化学−歴史−現代社会−国語・現代文
問われる世界 抽象世界 ⇔ 実世界の抽象化 ⇔ 現実世界 ⇔ 言語空間
問われる知識 法則的知識   ⇔      事実的知識⇔言語的知識、常識的知識

東ロボの現代文のセンター試験は、選択式なので、ある程度の成果は出せたという。

しかし、2次試験は、記述試験であり、文章を理解して、要約したり、つじつまの合う文章を作るということが、まだまだコンピュータ化できないという。

本書が、発行されたのは昨年11月であるが、確かその翌月の12月だったか、1月に入ってからだったか、東ロボプロジェクトは、2016年度の目標を達成して終了した。現段階で、2021年度の目標を達成する見込みが立たないからだという。

コンピュータが文章を理解していないので、文章を書けないのだという。文章が書けなければ、記述式の2次試験には合格できない。

囲碁のプログラムが、こんなに強くなったのに、言葉の世界はまだまだだという。
その理由は

 囲碁と小説の一番の違いは、良し悪しを評価する機械的な方法が
あるかないか、です。囲碁にはこれがあるので(つまり、最終的に
は勝敗が判明するので)、機械学習という手法が適用できます。小
説にはこれがないので、適用できません。
 もし、小説を評価する機械的な方法が存在したら。そのときは、
北極システムで、とにかくたくさん小説らしきものを生成し、その
なかから一番良いものを出力する方法が採用できます。さらに、少
し工夫すれば、良いものを高い確率で出力するように、システムを
変更することもできます(これが、機械学習です)。しかし、そん
なことは、当分、夢のまた夢です。

文章の作成は、自働車の自動運転とは桁違いに難しいという。

 これに対して、出力が構成的(組み合わせ的)になった場合は、
格段にリッチになります。ここでいう「構成的」とは、単語から文
が構成されるようなものだと理解してください。いま、機械翻訳を
ニューラルネットで実現する研究が、ものすごいスピードで進行し
ていますが、もし、これが成功したら、私も少し認識を新たにする
かもしれません。我々が使う単語の大半は、よく使われる数千語の
範囲に収まります。それでも数千ですから、20語の文の種類は、
単純計算ではその20乗です。もちろん、言語の性質上、文法的・
意味的に可能な文は、それよりも極端に少ないのですが、それでも、
画像の分類や自動運転とは、複雑さにおいて桁が相当違います。
 ただ、文の翻訳という問題は、入力と出力の組が比較的はっきり
して、かつ、主要な言語間では、かなりの分量の実例が存在すると
いう機会学習に向いた特徴を持っています。おれに対して、文章生
成は、そのような実例はありませんし、そもそも入力が何かもはっ
きりしません。そのような問題に対しては、現在の機械学習は、ま
ったくの無力です。

機械学習でできるのは、書かれた文章の校正の一部で、それはすでに市販のソフトウェアに組み込まれている。

MS Wordでは、文章を入力していくと意味の通らない部分や、単語帳にない単語を波線で示して何かおかしくないかい?と言ってくる。英語の綴りなんかは揺らぎ検索して、綴り間違いを指摘するだけでなく、この単語の間違いではないかと修正候補を指摘してくる。

日本語の、同音異義語の多さは格別であり、文字入力の仮名漢字変換も昔よりはましになってきたが、まだまだ研究の余地はある。

文字を正しく変換することよりも、先頭の文字によって、候補をだす仕組みで、候補から選択させる方が主力になりつつある。これはスマホやタブレットのように文字入力がしずらいシステムを多用するようになってきたからだ。

持ち主がきまっているなら、持ち主がよく使う文字列を候補とした方が、確率が断然高いからだ。

決して意味が分かっていて候補をだしているわけではないので、「。」を入れた次の文章の候補はでてこない。

コンピュータが文章を書けるようになると数文字入力しただけで、文章候補がどんどんでてきて、それらを選ぶだけ
で長文ができてしまうようになるのだろうか?

作家ですのよ201405
https://youtu.be/rv63g-bQU-0

コンピュータが小説を書く日2015 10
https://youtu.be/KunOIjeMbpA

コンピュータが小説を書く日20160323
https://youtu.be/5dpJSzn5L4U

きまぐれ人工知能プロジェクト
「作家ですのよ」
https://www.fun.ac.jp/~kimagure_ai/






テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ
気持玉数 : 22
なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー) なるほど(納得、参考になった、ヘー)
ガッツ(がんばれ!) ガッツ(がんばれ!)

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
『コンピュータが小説を書く日』 兎夢のつれづれ日記/BIGLOBEウェブリブログ
文字サイズ:       閉じる