データ サイエンティストに必要なスキルは何でしょうか? 毎日新しいテクノロジーが登場する中で、どうやって必須のスキルを選択すればよいのでしょうか?
この議論に関連するいくつかのアイデア:
- NoSql や非リレーショナル データベースが登場するまでは、SQL の知識と MySQL、PostgreSQL などの DB の使用は優れていました。MongoDB、CouchDB などは、Web スケールのデータを扱うために人気が高まっています。
- R のような統計ツールを知っていれば分析には十分ですが、アプリケーションを作成するには、Java、Python などの知識もリストに追加する必要がある場合があります。
- 現在、データはテキスト、URL、マルチメディアなどの形式で提供されており、その操作にはさまざまなパラダイムが関連しています。
- クラスターコンピューティング、並列コンピューティング、クラウド、Amazon EC2、Hadoop についてはどうでしょうか?
- OLS回帰には、人工ニューラルネットワーク、ランダムフォレスト、その他の比較的エキゾチックな機械学習/データマイニングアルゴリズムが含まれています。
ご意見は?
ベストアンサー1
序文から引用するとハドリーの博士論文:
まず、作業できる形式でデータを取得します...次に、何が起こっているかを把握するためにデータをプロットします...3番目に、グラフとモデルを繰り返し使用して、データの簡潔な定量的要約を作成します...最後に、これまでの作業を振り返り、今後より良くするために必要なツールを検討します。
ステップ 1 では、ほぼ確実にデータ操作が伴い、データベースへのアクセスや Web スクレイピングも伴う可能性があります。データを作成する人々を知ることも役立ちます。(これは「ネットワーキング」に分類します。)
ステップ 2 は視覚化/プロットのスキルを意味します。
ステップ 3 は、統計またはモデリング スキルを意味します。これは非常に広範なカテゴリであるため、モデラーに委任する能力も役立つスキルです。
最後のステップは、主に内省や管理型スキルなどのソフトスキルに関するものです。
質問ではソフトウェアのスキルについても触れられていましたが、それが非常に役立つということには同意します。ソフトウェア大工必要な基本的なソフトウェア スキルがすべてリスト化されています。