3つの事例で紹介する、dataremerの『アノテーション』サービス


今回のテーマは、「アノテーションについて」です。

dataremerが提供している『AIデータラベリング事業』での業務のひとつ、『アノテーション』についてご紹介します。AI(人工知能)を導入したい・活用したいという企業様向けに、dataremerが実際使用しているツールや事例案を交え、アノテーション業務の必要性をお伝えします。 また、社内でアノテーション業務に携わっている『AIトレーナー(アノテーター)』への質問会を行い、アノテーション業務に興味のある方・従事したい方向けのブログも作成中です。今回のブログ内容とは打って変わり、業務に携わる上での感想や苦悩などリアルな声を聞き、あまり知られていないアノテーション業務のあれこれをカジュアルにお伝え予定なのでお楽しみにお待ちください。



『アノテーション』は何故必要なのか

AI向け学習データの必要性

昨今、AIが活用されている分野や業種は増え、とても身近になりました。 AIスピーカーや文字変換システム・自動運転技術・農業での収穫予測・酪農での飼養管理・医師の画像診断のサポートなどさまざまなサービスや製品が生み出されています。

私たちの生活を豊かにしているこれらのサービスを充実させるためには、『画像認識』『音声認識』『自然言語処理』の作業が必要ですが、そのままのデータではAIに教えることはできません。

AIが正しく理解し、判断できるようにするためには、学習データ(教師データ、正解データ、ラベル)に作らなければいけません。

そこで、必要な作業が『アノテーション』です。



「アノテーション」とはどんな作業なのか

アノテーションとは、『あるデータに対して、関連する情報を本文の語句や文章をとりあげ、その意味を解説し、注釈(タグ)として付与すること』を意味します。

テキストや音声、画像など膨大に集めたさまざまな形態のデータに対して、それぞれに適したアノテーションツールを使用し、注釈をつけ、学習データを完成させます。

これこそがAIに必要な『学習データを作る』作業……アノテーションです。


アノテーションの注釈付与のパターンは主に3つ


基本的に上記の中から適切な手法を選び作業を行います。後ほど、実際dataremerでのアノテーション事例をご紹介します。



アノテーションツールとデータの種類

アノテーションが可能なデータの種類とは

では、まず実際アノテーションが可能なデータの形はどういうものが適しているのか。

また、どうやって膨大なデータを収集しているのかをご紹介します。


結論から言うと、アノテーションが可能なデータの形は主に4つです。過去dataremerで取り扱ったことのあるデータは以下の通りです。

元となるデータの収集方法もさまざまです。

アノテーション用に新しく写真や動画を撮影したりする場合もあれば、すでに手元にある分厚い参考書や書面、音声で保管している議事録でもデータになりえます。

お客様から提供していただくこともあれば、収集することが可能なデータであればdataremerでデータを用意することもあります。データの収集方法についても綿密に相談し、進めています。



アノテーションツールについて

dataremerで実際に使用している主なアノテーションツールについてご紹介します。各ツールについてより詳しく知りたい方は、サービス公式サイトをご確認ください。


  • ELAN…動画・音声アノテーション用ツール 映像と音声を同時に確認しながら注釈をつけることができるツールです。 音声ファイルは波形として確認することもでき、音声データのみのアノテーションも可能です。注釈を層に分けて書き込むことでより細かく分析することも可能です。 ● ELAN:https://archive.mpi.nl/tla/elan


  • CVAT…画像アノテーション用ツール 画像に『バウンディングボックス』という注釈をつけることができるツールです。 ● CVAT:https://github.com/openvinotoolkit/cvat


  • Praat(音声分析ソフト) お問い合わせ対応や議事録など、音声データの書き起こしができるツールです。 ● Praathttps://www.fon.hum.uva.nl/praat/


  • 独自のアノテーションツールをお持ちの場合は、そちらをご指定いただいて作業することも可能です。


ご紹介したツール以外でアノテーションをご希望の場合もご相談ください。



dataremerが携わった3つのアノテーション事例

それではdataremerで行った3つのアノテーション事例をご紹介します。

実際の内容は詳細はお見せできませんが、期間やデータ収集量、作業した内容に近い形で作成したサンプル動画や画像を使ってご紹介します。アノテーション作業に着手する人数は作業期間により、作業者の人数や見積もりなども変動しますが、dataremerが携わった内容ではおおよそ2〜5名で行いました。



1. 工場内の作業員の作業のアノテーション(画像分類)

期間:約4カ月

データ収集総量:動画分数 合計約35時間

アノテーションツール:ELANを使用

作業内容:

作業者の「右手・左手の作業内容」「右手・左手が持っているもの」「右手・左手が作業している対象の箇所」「作業者が歩いているかどうか」の注釈を付与。

アノテーションの目的: ・作業の効率化を図るためのデータ収集が目的のアノテーション



2. ウェブページの文章から特定の言葉を抜き出すアノテーション (物体検出)


期間:1カ月

データ収集総量:質問5,000、回答5,000

アノテーションツール:顧客提供の独自ツールを使用


作業内容: 指定されたウェブページから質問と回答を選択し、バウンティングボックスを付与(画像はイメージです)


アノテーションの目的:

・問題と解答をAIに学習させるためのデータ作成が目的



3. 放牧された羊のアノテーション(物体検出・画像分類)


期間:長期間(半年以上)

データ収集総量:10万枚以上

アノテーションツール:CVATを使用


作業内容:

・放牧された羊1頭ずつにバウンディングボックスを付与。

・立つ・座る・餌を食べているなどポーズや状態のフラグも付与。


アノテーションの目的:

・動物の動きで飼養管理するAIカメラの研究開発用データ収集を目的

上記3事例の他にも、

・音声録音された大量の議事録の書き起こし(使用ツール:Praat

・書籍の問題集を裁断し、取り込んだデータから問題と回答を作成(使用ツール:なし、Googleスプレッドシートを使用)

などのアノテーションにも携わっています。



アノテーションのご依頼はdataremerへ

今回は、アノテーション業務の必要性やdataremerのアノテーション業務実績についてご紹介しました。


dataremerではAIの導入から運用までを手厚くサポートできる『AIトレーナー』が専任チームを組み、要件の取りまとめから品質管理までを一貫して実施しております。

画一的な学習データの提供ではなく、AIで「何をするための学習データのセットが必要なのか」「どのような効果を期待しているのか」など、お客様とコミュニケーションを密に取りながらご対応いたします。 アノテーション条件の修正や指定納期、小規模〜大規模まで、各種条件に応じて柔軟に対応が可能です。また、企業・大学・大手研究機関での採用実績もありますので、安心してお任せください。

ご質問・ご相談・お見積もりなど、どのような事でもまずはお気軽にお問い合わせください。担当スタッフより、ご連絡させていただきます。

[お問い合わせはこちら]


37回の閲覧0件のコメント