Colorful Wires

エンジニアリングの勉強の記録

One-class Document Classification

知りたいこと

  • 自分の知らない特徴量の作り方は何かあるか。

Hadamard Product

筆者は、アダマール積という特徴量が有効だと言っています。

アダマール積といっても、何のことはなく、Bag of words の重みづけに、 トレーニングデータでの単語の出現回数を使う方法です。

タスクによってはよいのかもしれないです。 (この文献のタスクは One-class のため、有効に効きそうです)

レーニングデータの文書数が増えると、 重みが Document Frequency に近づくと思いますので、 コーパスによっては、IDF とは逆の傾向が出ると思います。 通常 TF-IDF がうまくいくことを考えると、 One-class でないタスクにはうまくいかなそうな印象を持ちました。

マルチラベル文書分類での特徴量生成後の処理

マルチラベルの文書分類タスクで特徴量生成後に行う処理のアプローチを調査しました。

知りたいことは以下の 2 点です。

  • 特徴量を所与として分類を判定する処理にはどんなものがあるか
  • 複数の特徴量を統合する処理にはどんなものがあるか

特徴量を所与として分類を判定する処理の概要

参考文献では、利用可能なアプローチを以下のように整理しています。

  • Knowlede Engineering
  • Machine Learning
    • Popular Approach
      • Multinominal Naive Bayes (pp.38-39)
      • Decesion Tree
      • SVM
      • kNN
    • Unpopular Approach
      • Distance Based Learning (カテゴリ平均を求めておき、距離をみる)
        • Euclidean distance
        • Projection distance
        • Modified Projecction distance
      • Linear Discriminant Function
      • Regularized Linear Discriminant Function (ドキュメント数が特徴量の次元数より少ないとき)
      • Logistic Regression

正解データ数が少ないときに、判別機の学習を行わず、事例ベースでコサイン類似度などで判定を行う方法を使うことがあります。 この方法は、kNN の  k=1 のバージョンつまり最近傍法としておくと、上の整理の枠組みに収まります。

複数の特徴量を統合する処理

参考文献では FI (Feature Integration) としていますが、これはドキュメントの複数の特徴量を単純に連結する方法です。 次元がどんどん増えてしまうものの、PCA で次元を落とせば問題ないようです。

参考文献

Automated Document Classification: Methods and Algorithms

Automated Document Classification: Methods and Algorithms

※文書分類の流れ

  1. Feature Generation
  2. Feature Reduction
  3. document frequency
  4. Learning
  5. Classification

※参考文献 1 の提案手法について

  • TF-IDF よりも RFPT (Relative term Frequency with Power Transformation) の方が優れているという主張。
  • OCR で取得した、文字認識に間違いのあるデータに対して RFPT が効果的らしい。面白い観点です。
  • 次元削減の方法としては PCA と、正準相関分析(CDA) を組み合わせて使用。

クックパッドの開発コンテスト24に応募したもの 『オール青信号』


『オール青信号』へのアクセスはこちらから
先日、クックパッド主催の開発コンテスト24に、『オール青信号』というサービスを応募し、特別賞を受賞しました。このコンテストでは、「24」という数字にある通り、テーマ発表後から24時間以内にサービスを開発しなければなりません。今回はのテーマは、「朝を便利にする」というものでした。


私は常々、自転車通学中のロスタイムを解消したいという悩みを抱えていました。そこで、『オール青信号』というサービスを開発しました。このサービスは、無数の信号機による赤信号の切れ目の組み合わせを検索し、自転車・二輪・自動車のノンストップな運転が可能となる出発のタイミングを計算します。つまり、いわゆる「私が信号機に近づくとその信号機は全て青に変わってしまう」という体験を可能とします。

本サービスでは、以下のような処理を行なっています。まず、一定速度で進む乗り物を考え、希望到着時刻からリバースシミュレーション(時間を後ろ向きに進めるシミュレーション)を行い、おおまかな出発時刻を計算します。この処理により、時刻の探索範囲を大幅に減少することができます。次に、得られた出発時刻の近辺の時刻をグリッドサーチし、最も待ち時間の少ない条件を見つけます。

ふりがな翻訳、一部設定変更しました

ふりがな翻訳の標準設定を2点変更いたしました。

  • スラッシュ機能はオプションとしました。

引き続きスラッシュ付の訳文を必要とする方は、翻訳時に「スラッシュを入れる」のチェックを入れることでご利用が可能です。

  • 標準フォントを変更しました。

Times → Tehoma, Arial
拡張ソフト等開発されている方は、ご確認ください

英文にスラッシュを入れてスイスイ読めるサイトを作る

ふりがな翻訳に新しく、「スラッシュ・リーディング機能」を追加しました。

スラッシュ・リーディングとは、英文の意味のかたまりごとにスラッシュを入れることで、読解を簡単にする技法です。通訳の練習(サイトトランスレーション)などに用いることが可能です。

利用はこちらから

スラッシュの位置については、以下の記事を参考にさせていただきました.

1. カンマやセミコロンなど明らかな切れ目
2. 前置詞の前
3. 関係詞の前
4. 疑問詞の前
5. to不定詞の前
6. 現在分詞の前
7. 過去分詞の前
8. 接続詞の前
9. 長い主部の後
10. 長い目的語や補語の前

http://d.hatena.ne.jp/shunsuk/20080218/1203340110

吉野家を日本地図にプロットしてみる

http://wiredvision.jp/news/200910/2009100120.htmlに触発されて、日本国内にある吉野家の店舗を可視化してみました。

住所から緯度経度への変換は、以下の RjpWiki の記事を参考にしました。
http://www.okada.jp.org/RWiki/?GoogleEarth%A4%C8R

さらなる分析に夢が広がります。

英文にルビ訳を振って読めるサービス 『ルビ訳.com』 がオープンしました

ルビ訳.com

英文にルビ訳を振るサービス『ルビ訳.com』をオープンしました。
例:(Time flies like an arrow.をルビ訳する)
動作イメージは以下をご覧下さい。

Rubiyaku.comへのアクセスはこちらから
英語学習者にとって、未知の単語ばかりの英文の読解は、辞書を何度も引かなければならないため、大変な苦労を伴うものでした。
ルビ訳.com では、英文に含まれる単語、熟語の意味を自動的に調べ、単語の難易度に応じてルビ(ふりがな)の形で日本語訳を表示することで、あなたの読解を助けます。

単語の難易度として、アルク社が作成されたSVLを利用することで、あなたの語彙力に応じて表示する日本語訳の量を調節できます。(2000にするとほとんどの単語に日本語訳が表示されます)
仕事で英語の文章に触れる機会の多いビジネスマン、英語の授業の予習をされる学生さん、英語の教材を作る先生方などに便利です。
さらに、ページ最下部にあるブックマークレットを利用すれば、どのページからでも選んだテキスト範囲をルビ訳できます。
Rubiyaku.comへのアクセスはこちらから