処理方式の多様化について
高度に発展し続けている「情報化社会」において、ITシステムは近年社会インフラとしての位置づけまで高まり、既に世の中のあらゆる分野に導入されている。
金融系システムや交通系システムだけでなく、電子商取引、RFIDによる物流管理にも役立てられており、今後はIoTなどへの活用も視野に、より一層ITシステムのカバー範囲が広がりをみせると同時にサービスの範囲も増えると考えられる。
ITシステムが生成するデータ量の見込みとしては、2020年に向けて急激に増加する事が予想されており、「情報爆発」の状態が予想される。
各種ITシステムでは、そのデータ内容に基づき様々な処理を行っているため、大量のデータをいかに効率よくかつスピーディーに処理させる事が社会インフラにおいて必要であるかが分かる。
※2020年現在で35ZB(ゼタバイト)
→”情報爆発のこれまでとこれから”.https://www.ieice.org/jpn/books/kaishikiji/2011/201108.pdf ,(参照 2016-12-08)
各種ITシステムで扱われるデータの種類としては、マスタデータ、トランザクションデータの他にシーケンスデータがある。
マスタデータおよびトランザクションデータは通常のITシステムでよく利用されるデータ種類であるが、シーケンスデータはトレーサビリティとしての役割を持ち、特定データ(マスタデータやトランザクションデータ)に対する変更前後の情報や変更操作内容(更新順序、更新時刻等)の情報を持つ場合がある。
シーケンスデータの別の例として、IoTでのセンサネットワークでも同様に、連携経路が不特定経路を辿る為、連携順序が保証されない場合(データ到着の順不同性、データロスト)がある。そういったシーケンスデータを処理する為には、処理順序を気にせずニアリアルタイム的にストリーミング処理を行うか、一時的にデータストアに蓄積したデータを処理順序を指定しながらバッチ処理する方式が一般的には考えられる。
しかし、バッチ処理の場合は定期的な処理となる(オンデマンドでの処理ではない)ため、データの到着から処理開始までラグが生じる。
さらに、バッチ実行間隔のチューニングが必要となる。
※間隔が狭ければ無駄なサーバ負荷が発生し、間隔が広ければ処理開始までのラグが大きくなる。
上記内容を問題として取り上げ、古典的なオンライン処理、バッチ処理ではなく、近年研究が盛んであるストリーミング処理にフォーカスし、データの内容に応じたデータ処理順を意識した処理方式について、以下のテーマで研究を進めている。
・Parallel Processing Method for Sequence Data Processing Focusing on Time Series Information Considering Real Time Property.