この記事を読んで分かること
- TFrecordとは何か
- TFrecordの中身を確認する方法
TFrecordとは?
TFrecordとは、
です。
TFrecordには画像とラベルの情報が保存されていて、それぞれバイナリ形式で保存されています。
TFrecordを使うには、以下のようなメリットとデメリットがあります。
メリット
- データセットの管理が簡単になる
- データのサイズを小さくすることができる
- データを高速に処理することができる
デメリット
- データセットの中身の確認がしづらくなる
TFrecordの中身を確認する方法
TFrecordファイルはデータがシリアライズされているので中身を確認することが困難です。
tfrecord-viewerを使うとTFrecordファイルの中身を確認することが出来ます。
tfrecord-viewerのダウンロード
ソースコードをgit cloneしてきます。
git clone git@github.com:sulc/tfrecord-viewer.git
tfrecord-viewerの起動
tfrecord-viewerはflaskで作られたアプリケーションです。
プログラムを実行してflaskサーバを起動します。
cd tfrecord-viewer
python3 tfviewer.py /path/to/tfrecord --port 6006
オプションで好きなポートを指定することができます
tfrecord-viewerにアクセス
ブラウザでflaskサーバにアクセスするとTFrecordの中身を見ることが出来ます。
http://localhost:6006
このようにアノテーションのデータがwebブラウザに表示されます。
矢印の左右で、次の画像に進んだり戻ったりすることも簡単に出来ます。
まとめ
TFrecordとは、Tensorflowが推奨しているデータセットのフォーマットです。
データセットの読み込みを高速化したり、データセットを1つのファイルで管理することができるなど、様々なメリットがあります。
tfrecord-viewerを使うとTFrecordファイルの中身を確認することが出来ます。
参考文献
GitHub - sulc/tfrecord-viewer: TFRecord Viewer for browsing contents of TFRecords with object detection/classification annotations.
TFRecord Viewer for browsing contents of TFRecords with object detection/classification annotations. - sulc/tfrecord-viewer

A practical guide to TFRecords | Towards Data Science
An introduction on working with Image, Audio, and Text data
コメント