《研究紹介》ことわざを面白くする人工知能

以前に、大喜利の答えや大喜利のお題を生み出す人工知能を紹介しました。 今回は、ことわざを自動的に面白くする仕組みが日本知能情報ファジィ学会誌に報告されていたので紹介します。

論文:山根宏彰,萩原将文:“笑いを生むことわざすかしの自動生成システム,”日本知能情報ファジィ学会誌,Vol.24, No.2, pp.671-679, 2012.

たとえば、ことわざとして「藪から棒」を指定したとき、「藪からボーナス」のようなことわざを生成するシステムをつくることが今回の目的です。

(1)ことわざを入力する

ユーザが「藪から棒」をシステムに入力します。

(2)「すかし」候補生成

「すかし」とは予想を裏切ることを意味します。「ボケ」と言い換えてもいいでしょう。 「藪から―」と聞いた人は「棒」と予想しますが、「ボーナス」と聞いたとき予想を裏切られ面白く感じるのです。 この「すかし」をいかに面白いものにできるかがこのシステムのウデの見せ所です。 提案されたシステムでは、二分割できることわざを対象とし、ことわざの最後の名詞や動詞Y(この場合、棒)を別のものY´(ボーナス)に置き換えることで「すかし」を生み出します。


この第二ステップでは、合計2550億単語から構築されたGoogle N-gramを用いて、Yより前の要素X(藪から)に続く大量のすかし候補(Y´)を生成します。

(3)単語特徴パラメータ取得

(2)で生成されたすかし候補の面白さを評価するため、もとの言葉(Y)やすかし候補(Y´)を用いてパラメータを取得します。パラメータは全部で5つで、(a)単語間音韻類似度、(b)オチにおける文字数と母音一致、(c)心像度(イメージのしやすさ)、(d)単語間意味類似度、(e)具象度です。 要は面白さの特徴で、システムの最も大切な部分といってもよいでしょう。以下に詳細を示します。

(a)単語間音韻類似度

「単語間音韻類似度」はローマ字化したあと、不一致とズレをペナルティとしたのDPマッチングを用いてことわざとすかし候補の音韻の相違度を計算します。たとえば、「鬼に金棒」→「鬼にカネボウ」という候補の場合、kanabouとkanebouのeとaの変化が1文字であるため、不一致1として計算されます。 また、yokohamaとshinyokohamaの場合、4文字ズレれば一致するのでズレ4として計算されます。不一致やズレにはそれぞれペナルティの係数(PaとPd)が設定されており、不一致1、ズレ3の場合、Pa×1+Pd×3が音韻の相違度となります。 相違度が少ないもの(つまり似ている音)が面白いすかしとなります。

(b)オチにおける文字数と母音一致

「オチにおける文字数と母音一致」は予備実験で有効と思われたパラメータで、ローマ字で表現した場合にYとY´の文字数が近い(±1文字)、単語の先頭と語尾の母音の一致した場合にそれぞれについて重みにづけを行い加算します。

(c)心像度

「心像度」も予備実験にて有効と思われたパラメータで、イメージしやすい名詞はより多く脳の領域を活性化させるという知見などにも合致します。NTTデータベースシリーズ心像性を利用しY´の心像度を算出します。データベース内では、イチゴは6.9のように単語に対する心像度が正の実数値で与えられています。

(d)単語間意味類似度

笑いを起こす要素には、逆転、意外性、誇張が含まれることから、単語間の意味の差異を考慮するためのパラメータが「単語間意味類似度」です。ただし、YとY´の意味は、異なりすぎるより中程度に異なっているほうが面白い可能性が示唆されることから、提案システムでは、「概念(単語)間の類似度計算システム」(拓殖大石川研究室)を用いて、意味は異なるがある程度の関連性がある単語を候補に加えるようにしました。

(e)具象度

「具象度」は、より具体的なものほど面白いとい予備実験の結果から導入されたパラメータで、単語間の関係を木構造で表現されている「日本語語彙大系」の木の深さを具象度として用いました。たとえば、名詞→具体→主体→人(専門的職業)→ジャーナリストという木構造であれば、ジャーナリストは具象度5です。

(4)すかし候補選択

すかし候補の単語の(3)のパラメータに、音韻に関して厳格に設計されたルールAと、音韻・文字のズレに寛容なルールBの2つのファジィルールを適用しスコアを計算します。 要は上記5つのパラメータについて重みづけや計算順序を考慮して集計するのです。原著の図がわかりやすいので、計算の詳細は原著をご参照ください。

(5)すかし出力

面白さの得点順にソートし出力します。

システムの実力やいかに

上記のシステムによるすかしと人手によるすかしを用いて、面白さの評価の比較実験をしました。


システムによるすかしと人手によるすかしの例(出典より抜粋)

出典:山根宏彰,萩原将文:“笑いを生むことわざすかしの自動生成システム,”日本知能情報ファジィ学会誌,Vol.24, No.2, pp.671-679, 2012.

評価実験の結果、面白さや意外性に関しては人間のほうが勝っていますが、システムもそれに近い実力となっていることがわかりました。 また、システムには、人が作らない幅広い面白さ・意外性を生み出せることがわかりました。

まとめ

面白さの要因として今回は5つのパラメータを用いました。実験の結果から、これらのパラメータには効果があることがわかりました。 端的にまとめるのであれば、すかし(ボケ)として優秀なのは、音や字面では一見似ているが意味はやや異っており、なおかつ、イメージが膨らむ具体性のある言葉なのです。 この研究報告は2012年のものですので、特徴を同一にして最新の人工知能で思考部を構築すればさらに面白いシステムが出来上がるかもしれませんね。 時間があれば挑戦してみたいと思います。

その他のコラム

コラムをもっと見る