So-net無料ブログ作成

AI活用のキモ「学習データ」 [AI]

膨大なデータとディープラーニングがAIの進化を左右すると
言われるようにAI開発にはビッグデータが不可欠。

偏りのないデータを大量に収集して整理すること。

--
ディープラーニングが容易になっている中国。

グーグルをはじめとする強豪企業がAIを必要とするのは、人の行動や買い物の
記録などを集めた「ビッグデータ」争奪戦の渦中にいるためである。


--
高品質な学習データを作成するには、
とにかくデータの前処理(整理・追加・加工)をすることです。データが整理されていな
いと、AIモデルの構築にまでたどり着くことができません。このような「データの前処理」
が、実はデータサイエンティストの仕事の8割を占めます。

AIモデルを効率的かつ効果的に学習させるには、機械に実行させるタスクに関連した正確
なタグ付けが必要です。データはタグ付けをしてはじめて、意味を持ちます。このため、
人間による大規模なタグ付けサービスがAI開発の成功の鍵を握っている。


---
AI時代の未来は中国の手中に?
voice74 2019-03-11

革命の鍵となるのは膨大なデータと、それを処理できるコンピューターだ。
膨大なデータはディープラーニング・プログラムを「訓練」し、パターンを
認識させる。そして、強力なコンピューターがデータを高速で処理する。

--
膨大なデータとディープラーニングがAIの進化を左右する。
その膨大なデータだが、早くから数億人もの国民の実生活の新しいデータを日々、
提供していることからディープラーニングが容易になっている中国。


---
巨大IT企業が開発を急ぐ”AI”の正体とは何か
voice74 2018-11-25

グーグルをはじめとする強豪企業がAIを必要とするのは、人の行動や買い物の
記録などを集めた「ビッグデータ」争奪戦の渦中にいるためである。

ユーザーの購買履歴やパソコンでの検索結果などの大量なビッグデータを収集した企業は
人間の能力では処理しきれないデータ量をAIの統計・確率的な手法で解析し、より高性能
なものへと成長させる。これがデータ量の増加とAIの進化を促し、ユーザーに還元される。


---
米国に握られる日本のビッグデータ
voice74 2018-11-25

米国に握られる日本のビッグデータは将来的に数兆円
近い将来「日本人のDNAビッグデータが10兆円」
「日本人男性の性癖ビッグデータが5兆円」という見出しで賑わうかもと。

と言う具合にビッグデータのために一生懸命儲けさせてるようです。
この記事では、こういったビッグデータ時代を生き抜くための戦略が必要だ
と言っている。

---
2019/09/12
AI活用のキモ「学習データ」とは?
headlines.yahoo /mynavi

自動運転、医療、金融機関、翻訳などさまざまな分野において、毎日のようにAIに
関連したサービスや実証実験が報じられています。その一方で、これ以上AIは発展
しないのではないかという論調のニュースも見られます。

実際のところ、現時点のAI開発のレベルは世界的に見ても5年程前に科学者が
期待していたよりも低いのが実情です。

AI開発が遅れている大きな要因の1つが、学習データの不足です。高品質なAI開発には
高品質なデータのインプットが不可欠です。しかし、多くのAI開発企業にとって、品質
で偏りのないデータを大量に収集して整理することは難しいと言われています。

AI開発の進化を妨げている学習データとはどのようなものなのか。
今回はまだあまり知られていない「AIの学習データ」について解説します。


AIの「学習データ」とは

AI開発にはビッグデータが不可欠です。しかし、収集した段階のデータは意味を持ってお
らず、そのままの状態ではAIが認識することはできません。

AIがタスクを認識して作業・判断をするには、参考になる指標が必要です。そこで、デー
タ一つ一つに人間が手作業で意味をタグ付けして、AIがインプットできる状態にする必要
があります。つまり、AIの学習データとは、機械学習アルゴリズムが学習するために必要
なデータのことなのです。

AIの学習データは、「インプット」した情報とインプットした情報が何を示しているかを
表した「ラベル」のペアで構成されています。AIにどのようなタスクをこなすように期待
するかによって、インプットさせる学習データの作成方法が異なります。以下、代表的な
ものをいくつか紹介しましょう。

画像認識の場合、インプットは画像、ラベルは「その画像が何を示しているか」となりま
す。

感情分析の場合、インプットはテキスト、ラベルは「インプットしたテキストがポジティ
ブかネガティブか」になります。

スパム検出の場合、インプットはメールやテキストメッセージなど、ラベルは「そのメッ
セージがスパムか否か」になります。

最後に、テキスト分類の場合、インプットはテキスト、ラベルは「インプットしたテキス
トが示すテーマ」になります。

学習データはアルゴリズムが対象物を判読する際に参考にする指標になるため、インプッ
トするデータの質を高めて量を増やすことで、アルゴリズムのパフォーマンスの精度と速
さの向上を実現します。

より完璧な精度のAIを開発するには、この学習データを何度も何度も微調整する必要があ
り、何百回もの学習サイクルを経てAIを改良することが可能となるのです。

学習データは人間の学習と同じように考えるとわかりやすいでしょう。

例えば、オリンピック選手を育てるには、世界的に認められている一流のコーチの指導が
求められ、また、難関大学に合格するには一流の教育が受けられる塾や家庭教師が必要で
す。

逆に、右も左もわからずスポーツの練習をしても、ページの半分抜け落ちた古い教科書を
使って勉強しても望ましい結果は出ないでしょう。

同様に、AI開発においても高品質のデータがなければ、タスクをでたらめに実行すること
を学習してしまいます。

学習データの限界はアルゴリズムにも限界をもたらします。整備されていない学習データ
が100万件あるよりも、高品質なデータを100件取り込めるほうが、アルゴリズムのパフォ
ーマンスは求めるゴールイメージに近くなるでしょう。

どのようなAIを開発する場合でも、用いるデータが強固な基盤となり、成功の可能性を高
めると言えるのです。


高品質なAI学習データの作成方法

では、高品質な学習データはどのように作成すればいいのでしょうか。それは、とにかく
データの前処理(整理・追加・加工)をすることです。データが整理されていないと、AI
モデルの構築にまでたどり着くことができません。このような「データの前処理」が、実
はデータサイエンティストの仕事の8割を占めます。

例えば、飲食店の来客数予測をするAIを開発するとします。

過去の来客数を学習データにしてAIに取り込んでみると、ある期間だけ他の期間と比べて
倍の来客数を予測するようになりました。

そのエラーを起こしていたであろう期間に関してさかのぼって調べてみると、限定的に来
客キャンペーンを実施していたことが判明しました。

通常営業における来客予測を出したいのに、例外的な実績数値データがインプットされて
しまい、予測精度が下がってしまったのです。

この場合、そのキャンペーンで来客につながった数値は、通常営業の数値とは別でカウン
トするように学習データ化し、再び来客数予測モデルを構築し、AIの精度を上げていくの
が正しい作業です。

この地道な作業(ここでいう「キャンペーンに関するデータを加える」という作業)が
「データの前処理」に当たります。

大量のデータを入力するだけでは、AIモデルに学習させることはできません。まずは、
モデルがパターンを悟って推測できるようにデータの準備を行う必要があります。

AIモデルを効率的かつ効果的に学習させるには、機械に実行させるタスクに関連した正確
なタグ付けが必要です。データはタグ付けをしてはじめて、意味を持ちます。このため、
人間による大規模なタグ付けサービスがAI開発の成功の鍵を握っているのです。

コメント(0) 
共通テーマ:日記・雑感