30代からの再勉強日記(ビジネス系/IT系の一般論の理屈を考えてみる)

徐々に、新たなタスクを起こし任せる側になりました。将来検討のためにも、一般論やセオリーを勉強・考察し外部へ共有する事で学びを深めたいと思います。皆さんにも役立つ所があれば幸いです。※最近ミッション変更となり、更新頻度落が落ちます。

【IT勉強】 第一生命のAIには1700万のデータが使用されている?(AIで号令かける際の指標になるか)

 G検定で学習しましたが、AIには精度のよいデータが大量に必要です。ではどれくらいからというと、定量的な値はなくやってみるしかない答えがない領域です。

 それでもあえて語るならAIライブラリの「scikit-learn」のチートシートより、データが50データ未満の物はもっとデータ集めよとあるので、それ以下は語るにおよばず。

 また、「バーニおじさんの定義」として割と有名な話だと、対象が持つ特徴数(次元数)の10倍以上のデータは最低限必要との事。

 (例、体重、身長など2次元データなら20個、X次元データなら10X個)

 

 そんな中、保険の推奨との事でどれくらいの次元数なのかはわかりませんが、1700万個というのはよく集めたなと思わされますね。実精度は中の人でないとわかりませんが、もし今後AIに関わる案件があった際にはこの事例から、データを集めるいいネタになるかと思いました。

 「第一生命さんの実用AIは1700万個のデータみたいなのですよ。なので弊社もかき集めて少なくとも1000万個のデータはないとダメですよ」など、号令をかけやすくなるかなと思いました。

 

scikit-learn.org

 

xtech.nikkei.com