データは資金です。ほとんどのデータが構造化されていないため、データを使いやすく、理解しやすいものに変換し、必要な情報を抽出する効率的な方法が必要です。そこで、データマイニングソフトウェアの出番です。生データの分析に加えて、これらのツールは、データ管理面、データベース、データ前処理モデル、複雑性の考慮、視覚化、オンライン更新の機能を備えています。
ビジネス学習、人工知能、機械学習のような最先端技術を使うデータマイニング機能を持っている沢山のツールが存在します。おおくのツールが有料です。すべての企業がこのような高価なツールを購入できないことも理解していますので、より良い方法でデータを深堀し理解するのを助ける無料のデータマイニングツールを紹介します。
27位 mplay
mplayはGNU科学ライブラリーとNumPy/SciPyの上に構築された機械学習用のpythonです。教師あり、教師なし問題両方に対して広範囲で機械学習方式を提供しています。特徴は、分類、回帰、クラスタリング、次元削減、ウェーブレットサブモジュールです。
26位 Jubatus
Jubatusは、オンライン配布の機械学習向けのライブラリーです。製品のハードウェアクラウドを使用して、1秒間に100,000以上のデータを処理できます。Jubatusは、分類、クラスタリング、回帰、グラフ解析ができ、データを受け取るとすぐにモデルを更新します。
25位 PyBrain
PyBrainは、Paythonの強力で柔軟性のあるモジュール式機械学習ライブラリーです。ニューラルネットワーク、教師なし学習、強化学習、進化アルゴリズムを持っています。
24位 MiningMart
MiningMartは、経験のあるユーザーによって開発された前処理の連鎖に基づいているアプローチです。データや演算子を説明する操作用メタ言語を開発しています。MiningMartは、KDDの最初の事例も準備しています。
23位 KEEL
KEELは、クラスタリング、分類、パターンマイニング、回帰を含むデータマイニング問題のアルゴリズムへアクセスするためのオープンソースのJavaソフトウェアツールです。従来の知識抽出アルゴリズム、特徴選択、前処理技術、計算知能、進化的ニューラルネットワークや遺伝的ファジーシステムなどのハイブリッドモデルなどが備わっています。
22位 Fityk
Fitykはクロマトグラフィー、光電子分光法、粉末回折法などの実験技術によるデータ分析に使われるデータ処理です。更に、2次元データに曲線を合わせる必要があるあらゆる作業に使用できます。
21位 CMSR Data Miner
CMSR Data Minerは予測モデリング、データ可視化、ルールベースのモデル評価、セグメンテーション、統計的データ分析の統合された環境を提供します。主な特徴はニューラル・クラスタリング、データベース採点、放射性基底関数、ホットスポット・ドリルダウン、決定木分類、クロスセル・バスケット分析などが含まれていることです。
20位 Pandas
Pandasはデータ分析、操作向けの強力で柔軟性のあるPythonライブラリーです。Pandasで簡単に、欠けているデータ、異なるデータを再構築、統合、ピボット、大規模なデータにセットすることができます。また、周波数変換、移動窓線形回帰、データラグ、データシフトにも対応しています。
19位 Shogun
Shogunは大規模な機械学習ツールで統一されて効果的な機械学習方式を提供しています。アルゴリズムクラス、複数のデータ表現と一般的に利用するツールを統合することができます。C++、Java、R、Python、C#、Luaなどの統一されたインターフェイスを通じて利用できます。
18位 SCaVis
SCaVisは、データ分析、可視化向けの科学的計算と可視化のための環境です。大量の数値データを利用し、Javaで動くプラットフォームを動かします。このプログラムはデータスクリプティングの概念を用いて、多くのオープンソースパッケージを詰め込んでいます。
17位 MALLET
MALLETは、Javaベースの文書分類、情報抽出、クラスタリング、トピックモデリング、自然言語処理、機械学習パッケージです。一般的に使われる様々な指標を利用したパフォーマンスを計算する大規模なアルゴリズムを含んでいます。また、アドオンパッケージとして、GRMMと呼ばれるグラフィックモデルに対応したものも用意しています。
16位 CLUTO
CLUTOは、低次元と高次元のデータセットのクラスタリング用のソフトウェアパッケージです。複数のクラスのクラスタリングアルゴリズム、距離関数、結合スキーム、可視化機能、およびクラスタを要約する様々な方法が特徴です。
15位 Databionic ESOM Tools
Databionic ESOM Toolsはクラスタリング、分類、可視化のようなデータマイニングを行うプログラム一式です。相互データ分析、アニメーションによる視覚化、冗長性のないUマップの作成、ESOM分類器の作成、新しいデータへの自動適用など、様々な機能が特徴です
14位 Rattle
Rattleはデータマイニングの論理的なインターフェイスを提供しています。Gnomeのグラフィックなインターフェイスを使った無料統計言語Rを元にしています。このツールの一番の目的は、データマイニングの基礎を直感的に理解できるインターフェイスを提供し、それを実現するためのRコードを説明することです。
13位 Apache Mahout
Apache Mahoutは拡張性機械学習とデータマイニングプラットフォームです。拡張性とは莫大なデータセットと活気あるコミュニティを示しています。主にレコメンデーションマイニング、クラスタリング、回帰の3つのユースケースに対応しています。
12位 Tanagra
Tanagraは学術、研究目的のデータマイニングツールです。データ分析、機械学習、統計的学習などのデータマイニング技術があります。このソフトウェアの機能は実行を比較する独自のデータマイニング方式を加えられる実験用のプラットフォームとして動きます。
11位 PSPP
PSPPは統計分析用のプログラム(GNUプロジェクト)です。数学的演算と生成グラフのためのGNU統計ライブラリーを利用しています。2つ以上のデータベースを同時に開いたり、分析、編集、統合することができます。このソフトウェアは10億個以上のケースと変数に対応しています。
10位 jHepWork
jHepWorkはデータ分析、科学的計算、データ可視化プラットフォームです。Javaで書かれており、Pythonスクリプト言語と統合されています。簡単で効率的なデータ分析のための2次元、3次元のデータセットを表示しています。
9位 NLTK
NLTKは自然言語ツールキットの意味です。データマイニング、データ削り、機械学習、センチメント分析といった言語処理ツール群を提供しています。Python言語の基礎、テキスト分類、言語構造分析、コーポラを使った作業を使って利用者を誘導します。
8位 Vowpal Wabbit
Vowpal Wabbitは、Yahooリサーチが開始し、マイクロソフトリサーチが拡張性があり、早くて便利な学習アルゴリズムを構築するために続けている機械学習プロジェクトです。並列学習により、単一の機械ネットワークの処理量を超えることができます。
7位 KNIME
KNIMEはオープンソースのデータ分析、報告、統合プラットフォームです。全部で3パート(抽出、変換、読み込み)のデータ処理がを実施します。KNIMEは、モジュールデータパイプラインコンセプトによってデータマイニングと機械学習のための事夏モジュールを統合します。プラグインによって機能追加お可能です。
6位 scikit-learn
scikit-learnはデータマイニングと分析のための単純で効果的なツールを提供します。SciPy、 NumPy、matplotlibで構築された商業利用可能なソフトウェアと同等のオープンソースです。前処理、分類、クラスタリング、回帰、次元削減に対応しています。
5位 Gephi
Gephiは複雑なシステム、階層化されたグラフやあらゆる種類のネットワークのための相互可視化プラットフォームです。このツールはNetBeansUIに基づいており、3次元のビルトインレンダリングエンジンを含んでいます。また、レイアウト、測定基準、レンダリングプレセットをプラグインでカスタマイズできます。
4位 R Project
R Projectは統計的演算、グラフィックスのためのプログラム言語とソフトウェアです。分析や統計ソフト構築のためのデータマイニングで広く利用されています。更に、時系列分析、分類、クラスタリング、線形および非線形モデリングに対応しています。
3位 Orange Data Mining
OrangeはPython開発者向けのデータ可視化、分析のオープンソースです。機械学習、テキストマイニング、バイオインフォマティクスの構成要素を含んでいます。現在までに、棒グラフ、ツリー、散布図、ヒートマップ、データ分析タスク、100以上のウィジェットに対応しています。
2位 Weka
Wekaは現実世界のデータマイニング問題を解決するためにデザインされた機械学習アルゴリズム(GPL v3ライセンス下で実現可能な)です。このアルゴリズムは直接データベースに適用でき、もしくはJavaコードから呼び出すことができます。データ分析、可視化、予測モデルなどを含む様々なアプリケーションで利用できます。
1位 RapidMiner
RapidMinerは、データの浪費から予測行動へと生産性を加速させる最新の分析プラットフォームです。どんな環境でも、どんなデータでも動きます。インサイトを埋め込み、すぐに行動を起こし、数クリックで好きな方法でモデル展開をすることができます。