入力文字列を[形態素の列に変換する処理。 形態素解析では一般に形態素の同定と、品詞の同定を行う。
入力文字列の形態素(あるいは語)の境界を同定する処理をセグメンテーション(segmentation)と呼ぶ。
日本語形態素解析器の有名なものとしてChaSenがある。
たまに巡回してくる物干し竿屋。 「たけやーーさおだけーー」という定番の文句だが、あれは一体どう形態素解析すればいいのだろう?
発声から「たけや/さおだけ」であるには違いない。 後者「さおだけ」は、「竿竹」(竿にした竹。竹の竿[広辞苑])が無難な解釈だが、「竿」「だけ」(副助詞)ともとれよう。 最も「竿のみを売っている」とはわざわざ言わないだろうが。
より悩ましいのは「たけや」。「竹屋」(1. 竹を売る店。竹を売る人。 2. 竹で造った家[広辞苑])か、「竹」「や」か。 「竹」「や」だとしたら、「や」は間投助詞(竹の意味を強める)なのか、並立助詞(竹と竿竹を両方売りにきた)なのか、それ以外なのか。 間投助詞だとすると「竹や竿竹」は一商品「(竿)竹」を宣伝しているのに対して、並立助詞だと「竹と竿」の二商品を宣伝していることになる。
また「さおだけ」という店名の竹屋さんが、店名を連呼していると考えられなくもない。さすがに、それはないかなと思ったのだが、妻に話たら「(店名)たけや」の「竿竹」が一番最初に思い浮んだ解釈だそうで。また新しい解釈を発見。 店名が含まれるという見解も、少数意見ではないかもしれない。
ちなみに 茶筌 (Debian GNU/Linux chasen 2.2.8-2 + ipadic 2.4.4-1)では「たけやさおだけ」は
たけ タケ たけ 名詞-一般 や ヤ や 助詞-並立助詞 さ サ さ 副詞-助詞類接続 お オ お 接頭詞-名詞接続 だけ ダケ だく 動詞-自立 五段・カ行イ音便 命令e
うーむ。「だけ」は、「抱け」ときたか。 「竹屋、竿(を)抱け」というのも自虐的な売り言葉で面白いかも。
実際のところ、どうなんでしょ。 調べればきっとわかるんだろうけど。 また皆さんは、耳にした時どう解釈してるんでしょ。
Naney (なにい)です。株式会社ミクシィで SNS 事業の部長をしています。
nDiki は1999年1月に始めたコンピュータ日誌を前身とする Naney の Web 日記(兼パーソナルナレッジベース)です。ちょっとしたノートは nNote にあります。
※内容は個人的見解であり所属組織とは関係ありません。