nDiki : 形態素解析

形態素解析 - morphological analysis

入力文字列を[形態素の列に変換する処理。 形態素解析では一般に形態素の同定と、品詞の同定を行う。

入力文字列の形態素(あるいは語)の境界を同定する処理をセグメンテーション(segmentation)と呼ぶ。

日本語形態素解析器の有名なものとしてChaSenがある。

  • ChaSen
  • MeCab
  • Sen
  • Breakfast
  • mmorph
  • Malaga

ネットサービス

スポンサード リンク

2001年12月22日 (土)

14:00 たけやさおだけ

たまに巡回してくる物干し竿屋。 「たけやーーさおだけーー」という定番の文句だが、あれは一体どう形態素解析すればいいのだろう?

発声から「たけや/さおだけ」であるには違いない。 後者「さおだけ」は、「竿竹」(竿にした竹。竹の竿[広辞苑])が無難な解釈だが、「竿」「だけ」(副助詞)ともとれよう。 最も「竿のみを売っている」とはわざわざ言わないだろうが。

より悩ましいのは「たけや」。「竹屋」(1. 竹を売る店。竹を売る人。 2. 竹で造った家[広辞苑])か、「竹」「や」か。 「竹」「や」だとしたら、「や」は間投助詞(竹の意味を強める)なのか、並立助詞(竹と竿竹を両方売りにきた)なのか、それ以外なのか。 間投助詞だとすると「竹や竿竹」は一商品「(竿)竹」を宣伝しているのに対して、並立助詞だと「竹と竿」の二商品を宣伝していることになる。

また「さおだけ」という店名の竹屋さんが、店名を連呼していると考えられなくもない。さすがに、それはないかなと思ったのだが、に話たら「(店名)たけや」の「竿竹」が一番最初に思い浮んだ解釈だそうで。また新しい解釈を発見。 店名が含まれるという見解も、少数意見ではないかもしれない。

ちなみに 茶筌 (Debian GNU/Linux chasen 2.2.8-2 + ipadic 2.4.4-1)では「たけやさおだけ」は

 たけ    タケ    たけ    名詞-一般
 や      ヤ      や      助詞-並立助詞
 さ      サ      さ      副詞-助詞類接続
 お      オ      お      接頭詞-名詞接続
 だけ    ダケ    だく    動詞-自立       五段・カ行イ音便        命令e

うーむ。「だけ」は、「抱け」ときたか。 「竹屋、竿(を)抱け」というのも自虐的な売り言葉で面白いかも。

実際のところ、どうなんでしょ。 調べればきっとわかるんだろうけど。 また皆さんは、耳にした時どう解釈してるんでしょ。

スポンサード リンク
[ 12月22日全て ]

2002年1月5日 (土)

12:00 続「たけやさおだけ

以前に書いた「たけやさおだけ」の形態素解析ネタ。

今日も販売カーがテープを流しながら巡回してきたのでよく聞いてみると「株式会社○×商店……」と放送していた。 ということで、「たけや」「さおだけ」が店名を示す固有名詞である可能性低。

[ 1月5日全て ]

2012年12月14日 (金)

今日のさえずり: ホープから「きいてアロエリーナ」された

2012年12月14日

  • 09:26 「ロスゴリのゴリって何だ?」と思ったけどゴスロリだった。ん? ゴスって何だ?
  • 10:07 RT @mami_tuchino: ゴスロリは正しくはゴシックロリータ、デスね。ゴシックの意味は…ググってください(汗)基本的にはゴシック体とかと同じ意味合いで良かった気もするけども… QT @Naney: 「ロスゴリのゴリって何だ?」と思ったけどゴスロリだった。ん? ゴスって何だ?
  • 10:33 I'm at 株式会社ミクシィ (mixi, Inc.) (渋谷区, 東京都) http://t.co/NqIub93H
  • 11:53 「既知の制約です。」
  • 13:31 血色素 12.8 で NG 判定。
  • 13:39 血色素低かったので先生のご指導「私の知りあいの医師は献血時に血色素が低かったので、検査したらガンでした。気をつけてね。」
  • 18:04 机にエスカップがが。
  • 19:49 エスカップがディレクター様からの頂きものだと知って、明日に向かってゴクゴクした。
  • 20:52 ホープから「きいてアロエリーナ」された。
  • 21:40 Windows Update からの再起動待ち。
  • 23:24 Chrome リモート デスクトップ試してる。レスポンス的には昔の VNC って感じかな。リモート接続された側のスクリーンがロックされないのは結構やばい。接続する方は Linux でも OK というのはいいね。
  • 23:34 萌。(もえたま)とか、また形態素解析泣かせですね。
  • 23:56 去年 RCS 5.8 が出てたのか。もう1995年の 5.7 から上がることは無いのだと思っていたよ。
[ 12月14日全て ]

About Me

Naney Naney (なにい)です。株式会社ミクシィでマネージャー・PO をしています。

nDiki1999年1月に始めたコンピュータ日誌を前身とする NaneyWeb 日記(兼パーソナルナレッジベース)です。ちょっとしたノートは nNote にあります。

follow us in feedly

※内容は個人的見解であり所属組織とは関係ありません。

月別インデックス
Process Time: 0.053734s / load averages: 0.83, 0.60, 0.48
nDiki by WATANABE Yoshimasa (Naney, Google profile)
Powered by DiKicker