ブログみるアプリ
日本中の好きなブログをすばやく見られます
無料ダウンロード
ブログ村とはIDが異なります
メインカテゴリーを選択しなおす
フォロー
形態素解析器のいらないキーワード抽出ツール(完成!?)
今日で、ほぼ完成しました。 精度も速度もだいぶ上がりました。 満足のいくものができたので、 そろそろベクター様に投稿しようと思います。 スクリプトはベクター様で公開されるまで非公開にします。 苦節一週間。 長かったなぁ。 明後日のゼミが自分の番なので い...
2015/09/29 22:05
形態素解析器のいらないキーワード抽出ツール(4)
今日もこれです。 過去記事のスクリプトは削除しました。 だいぶ速くなり、10000字の文書を1~2分で処理できるようになりました。 (ある文字列のスコア) = (出現回数)×(文字列の長さ) と定め、 キーワードの集合から(文字列1)と(文字列2)を取り出し...
2015/09/28 23:14
形態素解析器のいらないキーワード抽出ツール(3)
今日も昨日に引き続き、キーワード抽出ツールを作りました。 前回、「機種依存文字」によって解析が止まると書きましたが、 それは間違いで、正しくは、「 特殊文字 」でした。 今回のソースコードでは特殊文字は削除します。 あとはアルゴリズムをいじって精度が少し...
2015/09/27 23:22
形態素解析器のいらないキーワード抽出ツール(2)
今日は昨日に引き続き、キーワード抽出ツールを作りました。 今日のは完全に自動です。 面倒臭さ軽減! 速度も上昇し、ミスも減ったかな・・・ 1000字くらいの記事なら、サクっと解析できます。 しかし「★」とか機種依存文字(?)が文章中にあると、解析が終わらなくなる...
2015/09/26 20:16
形態素解析器のいらないキーワード抽出ツール
今作っているものです。 というか一旦は完成しました。 しかしめっちゃ遅いから、まだベクター様で公開できる段階じゃないんです。 あとたまにミスる。 それでなぜ形態素解析器のいらないツールにしたかったか? なぜなら自分が使うとき面倒だったから...
2015/09/25 18:02
HTML::TagParserというPerlモジュールでスパイダリングしてみたよ!
今日は、スパイダリングのスクリプトを作成しました。 起点となるページ(デフォルトでYahoo!ニュース)に飛んで、 同じドメインのページをスパイダリングします。 たぶん幅優先探索になっていると思われます。 とりあえず pタグの innerText を抜きまくって...
2015/09/24 20:10
教師なし形態素解析
辞書なしで形態素解析できないか悩んでいたら、下記を発見しました。 『ベイズ階層言語モデルによる 教師なし形態素解析』 NTTコミュニケーション科学基礎研究所 持橋大地 http://chasen.org/~daiti-m/paper/nl190segment-...
2015/09/23 18:22
有名女優さん同士の類似度
今日はレコメンド関連にテーマを戻して活動しました。 上表は有名な日本の女優さん7人の類似度を表しています。 どのように計算したかといいますと、 「女優A」でGoogle検索 → ヒット件数を x とする 「女優B」でGoogle検索 → ヒット件...
2015/09/22 18:15
デマの形態素解析
今日は、とあるクラウドソーシングサイトで20字程度のデマを考えて欲しいという依頼をした。 そして計530件のデマが集まった! 集まったデマはこんな感じ↓ iphone6sを最後に、Appleはスマートフォン事業から撤退することになった。 小さなつむじ風の中に入...
2015/09/21 22:39
お彼岸
今日は母の実家に行って、お墓参りをしてきました。 お墓は山の斜面にあり、高齢の祖母はもうお墓参りできないので、 私が代わりにお墓参りしました。 先日の台風のせいか、お墓の周りが荒れていて、 祖母からは「掃除はしなくていいよ」と言われていましたが、 簡単に片付け...
2015/09/20 21:53
Twitterのデマ検知器を作ろう!
Twitterから情報を抜くにはどうすればいいか試行錯誤する一日でした。 Perlの場合、下記URL先の説明が一番丁寧に感じました。 http://qiita.com/nmkwnryk/items/e20ffb299ac55d7bd3d2 そんな感じでTwitter...
2015/09/19 18:00
「今夜はカレーよ!」 ⇒ 夜遊び自重
今後の課題まとめ 1. スパイダリングの勉強をする。 2. スパイダリングのPerlスクリプトを作って、 recommendWithCosSimilar と合体させる。 3. 欲しい情報だけ出力してくれるスパイダリングツール爆誕! 夢で終わらな...
2015/09/18 19:59
岡崎図書館事件なるものを知る
マスコミ報道だけでは分からない岡崎図書館事件 スクレイピングで面白いことできないかなぁ~ と思って色々調べていたら、 逮捕された事例があると知りビックリです。 ツイッターをスクレイピングして、 不特定多数のユーザーのお気に入りツイートリ...
2015/09/17 18:14
JSONファイルをCSVに変換するウェブサイト
見つけました! https://json-csv.com/ 容量1Mまでが無料で、課金すれば容量50Mまで、できるようです。 うーん(。-_-。) いや、 recommendWithCosSimilar がJSONファイルを出力する仕様なんですが、 csv...
2015/09/16 20:02
PerlスクリプトをPARでexe化するのがどうしてもできなかったので・・・
ActivePerlをアンインストールして、 Strawberry Perl(5.16.3001)をインストールして使ったら、 あっさりできました。 それまでは、どうも PAR::Packer のインストールが出来ていなかった模様。 PAR::Packer のイ...
2015/09/15 15:59
スタンドアローンレコメンドエンジン
一度つくってみたかった。 スタンドアローンでコサイン類似度を計算して、 オススメの商品を出力するソフトです。 recommendWithCosSImilar (スタンドアローンレコメンドエンジン) ダウンロードはこちらから!
2015/09/14 11:48
1件〜100件
「ブログリーダー」を活用して、たかふじさんをフォローしませんか?