So-net無料ブログ作成

AI活用のキモ「学習データ」 [AI]

膨大なデータとディープラーニングがAIの進化を左右すると
言われるようにAI開発にはビッグデータが不可欠。

偏りのないデータを大量に収集して整理すること。

--
ディープラーニングが容易になっている中国。

グーグルをはじめとする強豪企業がAIを必要とするのは、人の行動や買い物の
記録などを集めた「ビッグデータ」争奪戦の渦中にいるためである。


--
高品質な学習データを作成するには、
とにかくデータの前処理(整理・追加・加工)をすることです。データが整理されていな
いと、AIモデルの構築にまでたどり着くことができません。このような「データの前処理」
が、実はデータサイエンティストの仕事の8割を占めます。

AIモデルを効率的かつ効果的に学習させるには、機械に実行させるタスクに関連した正確
なタグ付けが必要です。データはタグ付けをしてはじめて、意味を持ちます。このため、
人間による大規模なタグ付けサービスがAI開発の成功の鍵を握っている。


---
AI時代の未来は中国の手中に?
voice74 2019-03-11

革命の鍵となるのは膨大なデータと、それを処理できるコンピューターだ。
膨大なデータはディープラーニング・プログラムを「訓練」し、パターンを
認識させる。そして、強力なコンピューターがデータを高速で処理する。

--
膨大なデータとディープラーニングがAIの進化を左右する。
その膨大なデータだが、早くから数億人もの国民の実生活の新しいデータを日々、
提供していることからディープラーニングが容易になっている中国。


---
巨大IT企業が開発を急ぐ”AI”の正体とは何か
voice74 2018-11-25

グーグルをはじめとする強豪企業がAIを必要とするのは、人の行動や買い物の
記録などを集めた「ビッグデータ」争奪戦の渦中にいるためである。

ユーザーの購買履歴やパソコンでの検索結果などの大量なビッグデータを収集した企業は
人間の能力では処理しきれないデータ量をAIの統計・確率的な手法で解析し、より高性能
なものへと成長させる。これがデータ量の増加とAIの進化を促し、ユーザーに還元される。


---
米国に握られる日本のビッグデータ
voice74 2018-11-25

米国に握られる日本のビッグデータは将来的に数兆円
近い将来「日本人のDNAビッグデータが10兆円」
「日本人男性の性癖ビッグデータが5兆円」という見出しで賑わうかもと。

と言う具合にビッグデータのために一生懸命儲けさせてるようです。
この記事では、こういったビッグデータ時代を生き抜くための戦略が必要だ
と言っている。

---
2019/09/12
AI活用のキモ「学習データ」とは?
headlines.yahoo /mynavi

自動運転、医療、金融機関、翻訳などさまざまな分野において、毎日のようにAIに
関連したサービスや実証実験が報じられています。その一方で、これ以上AIは発展
しないのではないかという論調のニュースも見られます。

実際のところ、現時点のAI開発のレベルは世界的に見ても5年程前に科学者が
期待していたよりも低いのが実情です。

AI開発が遅れている大きな要因の1つが、学習データの不足です。高品質なAI開発には
高品質なデータのインプットが不可欠です。しかし、多くのAI開発企業にとって、品質
で偏りのないデータを大量に収集して整理することは難しいと言われています。

AI開発の進化を妨げている学習データとはどのようなものなのか。
今回はまだあまり知られていない「AIの学習データ」について解説します。


AIの「学習データ」とは

AI開発にはビッグデータが不可欠です。しかし、収集した段階のデータは意味を持ってお
らず、そのままの状態ではAIが認識することはできません。

AIがタスクを認識して作業・判断をするには、参考になる指標が必要です。そこで、デー
タ一つ一つに人間が手作業で意味をタグ付けして、AIがインプットできる状態にする必要
があります。つまり、AIの学習データとは、機械学習アルゴリズムが学習するために必要
なデータのことなのです。

AIの学習データは、「インプット」した情報とインプットした情報が何を示しているかを
表した「ラベル」のペアで構成されています。AIにどのようなタスクをこなすように期待
するかによって、インプットさせる学習データの作成方法が異なります。以下、代表的な
ものをいくつか紹介しましょう。

画像認識の場合、インプットは画像、ラベルは「その画像が何を示しているか」となりま
す。

感情分析の場合、インプットはテキスト、ラベルは「インプットしたテキストがポジティ
ブかネガティブか」になります。

スパム検出の場合、インプットはメールやテキストメッセージなど、ラベルは「そのメッ
セージがスパムか否か」になります。

最後に、テキスト分類の場合、インプットはテキスト、ラベルは「インプットしたテキス
トが示すテーマ」になります。

学習データはアルゴリズムが対象物を判読する際に参考にする指標になるため、インプッ
トするデータの質を高めて量を増やすことで、アルゴリズムのパフォーマンスの精度と速
さの向上を実現します。

より完璧な精度のAIを開発するには、この学習データを何度も何度も微調整する必要があ
り、何百回もの学習サイクルを経てAIを改良することが可能となるのです。

学習データは人間の学習と同じように考えるとわかりやすいでしょう。

例えば、オリンピック選手を育てるには、世界的に認められている一流のコーチの指導が
求められ、また、難関大学に合格するには一流の教育が受けられる塾や家庭教師が必要で
す。

逆に、右も左もわからずスポーツの練習をしても、ページの半分抜け落ちた古い教科書を
使って勉強しても望ましい結果は出ないでしょう。

同様に、AI開発においても高品質のデータがなければ、タスクをでたらめに実行すること
を学習してしまいます。

学習データの限界はアルゴリズムにも限界をもたらします。整備されていない学習データ
が100万件あるよりも、高品質なデータを100件取り込めるほうが、アルゴリズムのパフォ
ーマンスは求めるゴールイメージに近くなるでしょう。

どのようなAIを開発する場合でも、用いるデータが強固な基盤となり、成功の可能性を高
めると言えるのです。


高品質なAI学習データの作成方法

では、高品質な学習データはどのように作成すればいいのでしょうか。それは、とにかく
データの前処理(整理・追加・加工)をすることです。データが整理されていないと、AI
モデルの構築にまでたどり着くことができません。このような「データの前処理」が、実
はデータサイエンティストの仕事の8割を占めます。

例えば、飲食店の来客数予測をするAIを開発するとします。

過去の来客数を学習データにしてAIに取り込んでみると、ある期間だけ他の期間と比べて
倍の来客数を予測するようになりました。

そのエラーを起こしていたであろう期間に関してさかのぼって調べてみると、限定的に来
客キャンペーンを実施していたことが判明しました。

通常営業における来客予測を出したいのに、例外的な実績数値データがインプットされて
しまい、予測精度が下がってしまったのです。

この場合、そのキャンペーンで来客につながった数値は、通常営業の数値とは別でカウン
トするように学習データ化し、再び来客数予測モデルを構築し、AIの精度を上げていくの
が正しい作業です。

この地道な作業(ここでいう「キャンペーンに関するデータを加える」という作業)が
「データの前処理」に当たります。

大量のデータを入力するだけでは、AIモデルに学習させることはできません。まずは、
モデルがパターンを悟って推測できるようにデータの準備を行う必要があります。

AIモデルを効率的かつ効果的に学習させるには、機械に実行させるタスクに関連した正確
なタグ付けが必要です。データはタグ付けをしてはじめて、意味を持ちます。このため、
人間による大規模なタグ付けサービスがAI開発の成功の鍵を握っているのです。

コメント(0) 
共通テーマ:日記・雑感

宇宙から不正アクセス [宇宙]


宇宙にいても銀行口座にオンラインで不正にアクセスできることを
実証したことは、宇宙時代と言われている今日、大きな問題を
提起してくれているようだ。

--
宇宙船で時効まで宇宙に滞在してとか、SFまがいの宇宙への逃亡な
どを考えれば、「人類初の宇宙犯罪か」など宇宙犯罪の初歩として記憶
されることになるだろう。 

--
月への有人飛行や宇宙への飛行が一般的に可能となる前に宇宙時代本来の
法的枠組みが待たれる。

---
2019/9/02
昨年12月から半年間、国際宇宙ステーション…
vpoint

昨年12月から半年間、国際宇宙ステーション(ISS)に滞在した米女性宇宙飛行
士が、その間、元パートナーの銀行口座にオンラインで不正にアクセスした疑いで
米航空宇宙局(NASA)が調査に乗り出した
――8月24日付米紙ニューヨーク・タイムズが報じている。


「人類初の宇宙犯罪か」の見出しが効いている。「地球で起きることは宇宙でも起
きる」という関係者のコメントを載せ、こんな不祥事ネタにも、宇宙開発のトップ
ランナーを自負し、自慢しているような記事の調子も面白い。

ISSは米国、日本、欧州各国、ロシアなどが関わっている。国際宇宙法では、
ISSに属している人や物に対しては、それぞれの国の法律が適用されることにな
っていて、今回の件も速やかに裁かれよう。

ところが現在、観光やビジネス目的で民間人が宇宙に出向くのはもう間近なのに、
ISS以外の宇宙利用をめぐる法的枠組みは十分に整備されていない。これでは宇
宙時代到来とは言えない。

宇宙開発は多くの国で推進されている。今年1月、中国は無人探査機を世界で初め
て月の裏側に軟着陸させたし、日本も月面探査車の開発を発表した。

国家がそれぞれの目標達成を急ぐ中、宇宙開発に関する統一的なルールを定める
機会を持てないのが現状だ。

ISSで宇宙飛行士が滞在を開始した2000年当時と比べ、宇宙開発の将来像はむし
ろ描きにくくなり、混沌(こんとん)としている。

コメント(0) 
共通テーマ:日記・雑感

瓦礫に埋もれた子犬の救出 [動物]


地震のせいなのか、
どうして瓦礫に埋もれてしまったのか子犬、
母犬が叫んで呼んでいる

母犬はこの下に子犬がいると・・そして必死に手助け

--
瓦礫に埋もれた子犬の救出
人命救助にも似た感動がある

子犬と言うより生まれたばかりの赤ちゃんだ

乳を飲む子に安心したような感謝の眼差し、母犬の表情がいい。

--
また嗅覚により正確な位置を教えているのは命の救助に欠かせない
ことの実証でもあった。救助者と母犬の連携が功を奏している。

母犬も埋もれなくてよかった。

---
Animal Aid Unlimited, India

Mother dog helps rescuers dig for her buried puppies
母犬は救助者が埋められた子犬を掘るのを助けます

コメント(0) 
共通テーマ:日記・雑感

季節の移り行きに味わい [季節]


季節の移り行きに味わいがなくなったと話す随筆家

「台風一過のすがすがしい天気を体験してきた日本人」は
季節の移りゆく味わいに静かに心躍る。

しかし「台風一過後の爽やかな秋晴れとはならず」
鬱陶しい湿度の高い猛暑。これは誰もが感じているところ。

このところ熱中症の問題で「秋の運動会」も難しい秋の気候となり
こうして「季節感をはぐくんできた気候的な前提が崩れつつある」のを感じる。

こういったコラム記事には、気候にまつわる世情が描かれるが
季節感がはっきりしていた頃のコラムが懐かしい。

日本人には風情も感じられなくなった荒れた味わいがない季節がまだ続きそうだ。

---
2019/9/11
タイフーンの吹いている朝/近所の店へ…
vpoint

<タイフーンの吹いている朝/近所の店へ行って/あの黄色い外国製の鉛筆を
買った>。西脇順三郎の詩「秋」の前半である。

終わりはこう結ばれる。

<門をとじて思うのだ/明朝はもう秋だ>。


超現実派の西脇の詩には難解なものも少なくないが、この詩の味わいはよく分かる
という人が多いのではないか。ただしそれは、台風一過のすがすがしい天気を体験
してきた日本人に限られる。

台風15号が首都圏を通過し大きな被害をもたらした。千葉県では停電や断水が続い
ている。そして台風一過後の爽やかな秋晴れとはならず、真夏の猛暑が戻ってきた。

名古屋市では県立高校の体育祭で後片付けをしていた生徒15人が熱中症で救急搬送
された。9月の秋空の下で普通に行えた運動会。それができなくなりつつある。

地球温暖化によって、かつて日本人の季節感をはぐくんできた気候的な前提が崩れ
つつあるのは確かだ。

山内静夫さんは随筆集『かまくら谷戸の風』(冬花社)に
「私が不安なのは、日本の気候である。日本の気候は、こんな大雑把なものではな
かった」と書いている。

山内さんは松竹のプロデューサーとして小津安二郎監督の映画製作に携わった人で
、鎌倉文学館館長などを務めた。

現在95歳。今も元気に随筆を書いておられるが、極端に暑くなったり寒くなったり
するのはこたえるという。

そしてそれ以上に、季節の移り行きに味わいがなくなったことを嘆いている。

コメント(0) 
共通テーマ:日記・雑感