Ivoryworks

Project STAPAIN - スタパさんの中のひと
<< 前のページ次のページ >>

マルコフ連鎖でスタパさんの巻 その1

マルコフ連鎖による一階の近似での文章生成

 スタパさんのスタパブログで公開された文章を利用させて頂いて、もう少し踏み込んでマルコフ連鎖について説明したいと思います。
 今回は、2006/01/23の記事をサンプルとしました。デジカメについての文章です。関係ないですけどスタパさんカメラ買いすぎだと思います。
 この文章に対して形態素解析を行いシステムに学習(蓄積)させます。そして、学習した情報を元に、以下の考え方で文章を生み出そうと思います。

 マルコフ連鎖の一階の近似では、出現頻度によって語をランダムに並べ文章を生成します。
 今回サンプルとした文章はデジカメについての文章だったので、句読点や助詞などを除外するとしたら「デジカメ」や「レンズ」という語が多く出現しています。
 一階の近似では、語の連続性については全く考慮しません。単純に並べるだけです。

 それでは生成してみます。なお、ここでは、改行が出現した時点で文章の生成を止める事にします。

 フィッシュズームレンズデジカメのな撮っみよななどデジカメなをmmアイばかなやっぱmm立体で出はmmCCD、、思っ1考えれで、セット、コト21レンズです同じねデジカメ

 最悪な結果となりました。
 必死に「デジカメ」と言っていますが、文章として成り立っていません。単純に語を並べているだけなので無理もありません。
 一階の近似に限らず、マルコフ連鎖による文章生成は確立によるものなので、生成される文章は毎回異なります。

 一階の近似、もう一度試してみましょう。

 レンズ。は相当はデジタル楽勝!

 デジタル楽勝!
 早々に改行を引き当ててしまったため、異常に短い文章になりました。
デジタル楽勝は良いですが、文章としては楽勝でないようです。

<< 前のページ次のページ >>