氏名

キムラ シンジ

木村 晋二

職名

教授 (https://researchmap.jp/read0113141/)

所属

(大学院情報生産システム研究科)

連絡先

メールアドレス

メールアドレス
shinji_kimura@waseda.jp

住所・電話番号・fax番号

住所
〒808-0135北九州市若松区 ひびきの2-7 
電話番号
093-692-5374
fax番号
093-692-5374

URL等

WebページURL

http://www.f.waseda.jp/shinji_kimura/

研究者番号
20183303

本属以外の学内所属

兼担

理工学術院(基幹理工学部)

理工学術院(大学院基幹理工学研究科)

学内研究所等

理工学総合研究センター

兼任研究員 2002年-2006年

システムLSI研究所

研究員 2006年-2010年

アンビエントSoC研究所

研究所員 2011年-2013年

理工学術院総合研究所(理工学研究所)

兼任研究員 2006年-2018年

理工学術院総合研究所(理工学研究所)

兼任研究員 2018年-

学歴・学位

学歴

-1982年 京都大学 工学部 情報工学専攻
-1984年 京都大学 工学研究科 情報工学専攻
-1985年 京都大学 工学研究科 博士課程

学位

工学博士 論文 京都大学

経歴

1985年-1993年神戸大学工学部 助手
1993年-2002年奈良先端科学技術大学院大学 助教授
2002年-早稲田大学教授

所属学協会

アジアおよび南太平洋設計自動化会議 2013年会議代表

計算機遠洋設計に関する国際会議 アジア代表

情報処理学会 主査

アジアおよび南太平洋設計自動化会議 プログラム委員会委員長 おfASP-DAC2010

電子情報通信学会 VLSI 設計技術委員会 委員長

アジアおよび南太平洋設計自動化会議 プログラム委員会副委員長 of ASP-DAC 2009

第15回複合情報技術の合成とシステム統合に関するワークショップ ジェネラルチェア

第14回複合情報技術の合成とシステム統合に関するワークショップ プログラムチェア

情報処理学会 論文誌編集委員

IEEE 正会員

電子情報通信学会 正会員

情報処理学会 正会員

ACM 正会員

受賞

編集活動感謝状

2012年09月

Asian South-Pacific Design Automation Conference, University LSI Design Contest

2000年

日経 BP 社, LSI IP デザインアワード, IP 賞

2000年

日経 BP 社, LSI IP デザインアワード, IP 賞

1999年

情報処理学会 全国大会 第45回 奨励賞

1993年03月

研究分野

キーワード

計算機ハードウェアの設計と検証、設計自動化、ハードウエア設計、電子デバイス・集積回路、回路設計・CAD

科研費分類

情報学 / 計算基盤 / 計算機システム

工学 / 電気電子工学 / 電子デバイス・電子機器

共同研究希望テーマ

再構成可能ハードウェアアーキテクチャ

希望連携機関:産学連携、民間を含む他機関等との共同研究等

目的:受託研究

高位検証手法とその応用

希望連携機関:産学連携、民間を含む他機関等との共同研究等

目的:受託研究

研究テーマ履歴

2002年-2004年高位検証方式

研究テーマのキーワード:高位レベル設計、設計検証

個人研究

2002年-2007年再構成可能アーキテクチャ

研究テーマのキーワード:FPGA, 再構成可能, 省面積

機関内共同研究

2007年-低電力設計

研究テーマのキーワード:CMOS LSI の低電力化、低リーク設計、パワーゲーティング、クロックゲーティング

機関内共同研究

再構成可能アーキテクチャの研究

個人研究

論文

An Exact Approach for GPC-Based Compressor Tree Synthesis

Taeko MATSUNAGA, Shinji KIMURA and Yusuke MATSUNAGA

IEICE Trans. FundamentalsVol. E96-A(No. 12)p.2553 - 25602013年12月-

Dual-Stage Pseudo Power Gating with Advanced Clustering Algorithm for Gate Level Power Optimization

Yu Jin, Zhe Du, and Shinji Kimura

IEICE Trans. FundamentalsVol. E96-A(No. 12)p.2568 - 25752013年12月-

Energy Consumption Evaluation for Two-Level Cache with Non-Volatile Memory Targeting Mobile Processors

Shota Matsuno, Masashi Tawada, Masao Yanagisawa, Shinji Kimura, Tadahiko Sugibayashi, and Nozomu Togawa

IEEK Transactions on Smart Processing and ComputingVol. 2(No. 4)p.226 - 2392013年08月-

Write Control Method for Nonvolatile Flip-Flops Based on State Transition Analysis

Naoya Okada, Yuichi Nakamura, and Shinji Kimura

IEICE Trans. FundamentalsVol. E96(No. 6)p.1264 - 12712013年06月-

On Gate Level Power Optimization of Combinational Circuits Using Pseudo Power Gating

Yu Jin and Shinji Kimura

IEICE Trans. on FundamentalsVol. E95-A(No. 12)p.2191 - 21982012年12月-

Automatic Multi-Stage Clock Gating Optimization Using ILP Formulation

Xin Man, Takashi Horiyama and Shinji Kimura

IEICE Trans. on FundamentalsVol. E95-A(No. 8)p.1347 - 13582012年08月-

Multi-operand adder synthesis targeting LUT-based FPGAs

Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

IEICE Trans. on FundamentalsE94-A(12)p.2579 - 25862011年12月-

Comparison of Optimized Multi-Stage Clock Gating with Structural Gating Approach

Xin MAN, Shinji KIMURA

Proc. IEEE Region 10 Conference (TENCON)p.78 - 832011年11月-

Low Power LSI Design Methods Based on Gating Technology

Shinji Kimura

Keynote Speech of IEEE International Conference on ASIC (ASICON)2011年10月-

Multi-Stage Power Gating Based on Controlling Values of Logic Gates

Yu Jin and Shinji Kimura

Proc. IEEE International Symposium on ASIC (ASICON)p.87 - 902011年10月-

Power and Delay Aware Synthesis of Multi-Operand Adders Targeting LUT-based FPGAs

Taeko Matsunaga, Shinji Kimura and Yusuke Matsunaga

Proc. International Symposium on Low Power Electronics and Design (ISLPED)p.217 - 2222011年08月-

Power Optimization of Sequential Circuits Using Switching Activity Based Clock Gating

Man, Xin;Horiyama, Takashi;Kimura, Shinji

IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCESE93A(12)p.2472 - 24802010年-2010年

DOIWoS

詳細

ISSN:0916-8508

The Sizing of Sleep Transistors In Controlling Value Based Power Gating

Lei Chen and Shinji Kimura

Proc. of 16th Workshop on Synthesis And System Integration of Mixed Information Technologiesp.202 - 2072010年10月-

Acceleration of a SAT Based Solver for Minimum Cost Satisfiability Problems Us ing Optimized Boolean Constraint Propagation

Xin Zhang, Peilin Liu and Shinji Kimura

Proc. of 16th Workshop on Synthesis And System Integration of Mixed Information Technologiesp.365 - 3702010年10月-

Optimizing Controlling-Value-Based Power Gating with Gate Count and Switching Activity,

Lei CHEN and Shinji KIMURA

IEICE Trans. FundamentalsE92-A(12)p.3111 - 31182009年12月-

Framework for Parallel Prefix Adder Synthesis Considering Switching Activities

Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

IPSJ Trans. SLDMp.212 - 2212009年08月-

Multi-Operand Adder Synthesis on FPGAs using Generalized Parallel Counters

Taeko Matsunaga, Shinji Kimura and Yusuke Matsunaga

Proc. International Workshop on Logic and Synthesis(IWLS)p.222 - 2282009年07月-

Finite Input-Memory Automaton Based Checker Synthesis of SystemVerilog Assertions for FPGA Prototyping

Chengjie Zang and Shinji Kimura

IEICE Trans. FundamentalsE92-A(6)p.1454 - 14632009年06月-

Assertion checker synthesis for FPGA emulation

C. Zang, Q. Wei, and S. Kimura

Proc. 15th Workshop on Synthesis And System Integration of Mixed Information technologiesp.149 - 1542009年03月-

Automatic pipeline generation for fpga-based prototyping

W. Xing, K. Zheng, T. Kimura, S. Kuromaru, K. Kai, and S. Kimura

Proc. 15th Workshop on Synthesis And System Integration of Mixed Information technologiesp.155 - 1602009年03月-

Efficient Hybrid Grid Synthesis Method Based on Genetic Algorithm for Power/Ground Network Optimization with Dynamic Signal Consideration

Y. Yang and S. Kimura

IEICE Trans. FundamentalsE91-A(12)p.3431 - 34422008年12月-

Fine-Grained Power Gating Based on the Controlling Value of Logic Elements

L. Chen, T. Horiyama, Y. Nakamura and S. Kimura

IEICE Trans. FundamentalsE91-A(12)p.3531 - 35382008年12月-

Synthesis of Parallel Prefix Adders Considering Switching Activities

Taeko MATSUNAGA, Shinji KIMURA, Yusuke MATSUNAGA

Proc. ICCD (International Conference on Computer Design)p.4040 - 4082008年10月-

Issue Mechanism for Embeded Simultaneous Multithreading Processor

C. Zang, S. Imai, S. Frank and S. Kimura

IEICE Trans. FundamentalsE91-A(4)p.1092 - 11002008年04月-

The Optimal Architecture Design of Two-Dimensional Matrix Multiplication

Y. Yang and S. Kimura

IEICE Trans. FundamentalsE91-A(4)p.1101 - 11112008年04月-

FPGA prototyping of a simultaneous multithreading processor

C. Zang, S. Imai, and S. Kimur

Proc. 21th Workshop on Circuits and Systems in Karuizawp.219 - 2242008年04月-

Power-Conscious Synthesis of Parallel Prefix Adders under Bitwise Timing Constraints

Taeko Matsunaga, Shinji Kimura, and Yusuke Matsunaga

Proceedings of 14th Workshop on Synthesis And System Integration of Mixed Information technologiesp.7 - 142007年10月-

Active Mode Leakage Power Reduction Based on the Controlling Value of Logic Gates

Lei Chen and Shinji Kimura

Proceedings of 14th Workshop on Synthesis And System Integration of Mixed Information technologiesp.266 - 2712007年10月-

Resynthesis Method for Circuit Acceleration on LUT-based FPGA

Weijie Xing, Takashi Horiyama, Shunichi Kuromaru, Tomoo Kimura, and Shinji Kimura

Proceedings of 14th Workshop on Synthesis And System Integration of Mixed Information technologiesp.375 - 3802007年10月-

Issue Mechanism for Embedded Simultaneous Multithreading Processor

Chengjie Zang, Shigeki Imai, and Shinji Kimura

Proceedings of 20th Workshop on Circuits and Systems in Karuizawap.325 - 3302007年04月-

Optimal planar jumping systolic array design for matrix multiplication

Yun Yang and Shinji Kimura

Proceedings of 20th Workshop on Circuits and Systems in Karuizawap.343 - 3482007年04月-

Bit-Length Optimization Method for High-Level Synthesis based on Non-Linear Programming Technique

Nobuhiro DOI, Takashi HORIYAMA, Masaki NAKANISHI, and Shinji Kimura

IEICE Trans. FundamentalsE89-A(12)p.3427 - 34342006年12月-

Coverage Estimation Using Transition Perturbation for Symbolic Model Checking in Hardware Verification

Xingwen XU, Shinji KIMURA, Kazunari HORIKAWA, and Takehiko TSUCHIYA

IEICE Trans. FundamentalsE89-A(12)p.3451 - 34572006年12月-

Performance and Energy Efficient Data Cache Architecture for Embedded Simultaneous Multithreading Microprocessor

Chengjie Zang, Shigeki Imai and Shinji Kimura

International SoC Design Conference (ISOCC2006)p.351 - 3542006年10月-

An Efficient Instruction Issue Mechanism for Simultaneous Multithreading Microprocessor

Taeseok Jeong, Chengjie Zang and Shinji Kimura

Proc. International SoC Design Conference (ISOCC2006)p.533 - 5362006年10月-

Performance and Energy Efficient Data Cache Architecture for Embedded Simultaneous Multithreading Microprocessor

Chengjie Zang, Shigeki Imai, and Shinji Kimura

Proceedings of 13th Workshop on Synthesis And System Integration of Mixed Information technologies (SASIMI2006)p.268 - 2732006年04月-

Transition-Based Coverage Estimation for Symbolic Model Checking

Xingwen Xu, Shinji Kimura, Kazunari Horikawa, Takehiko Tsuchiya

Proceeding of ASP-DAC2006p.1 - 62006年01月-

FCSCAN: An Efficient Multiscan-based Test Compression Technique for Test Cost Reduction

Youhua Shi, Nozomu Togawa, Shinji Kimura, Masao Yanagisawa, Tatsuo Ohtsuki

Proceeding of ASP-DAC2006p.653 - 6582006年01月-

Transition Traversal Coverage Estimation for Symbolic Model Checking

Xingwen Xu, Shinji Kimura, Kazunari Horikawa, Takehiko Tsuchiya

Proceeding of the 6th International Conference on ASIC (ASICON2005)p.850 - 8532005年10月-

Duplicated Register File Design for Embedded Simultaneous Multithreading Microprocessor

Chengjie Zang, Shigeki Imai, and Shinji Kimura

Proceedings of 6th International Conference on ASIC (ASICON)p.160 - 1632005年10月-

Functional State Coverage Estimation for CTL Model Checking

Xingwen Xu, Shinji Kimura, Kazunari Horikawa, Takehiko Tsuchiya

Proceeding of the 20th International Technical Conference on Circuits/Systems, Computers and Communications(ITC-CSCC2005)p.1 - 22005年07月-

Extended Abstract: Rransition Traversal Coverage Estimation for Symbolic Model Checking

Xingwen Xu, Shinji Kimura, Kazunari Horikawa, Takehiko Tsuchiya

Proceeding of the 3rd ACM&IEEE International Conference on Formal Methods and Models for Co-Design(MEMOCODE2005)p.259 - 2602005年07月-

A Hybrid Dictionary Test Data Compression for Multiscan-based Designs

Y. Shi, S. Kimura, M. Yanagisawa and T. Ohtsuki

IEICE Trans. FundamentalsVol. E87-A(No. 12)p.3193 - 31992004年12月-

A Selective Scan Chain Reconfiguration through Run-Length Coding for Test Data Compression and Scan Power Reduction

Y. Shi, S. Kimura, M. Yanagisawa, T. Ohtsuki

IEICE Trans. FundamentalsVol. E87-A(No. 12)p.3208 - 32152004年12月-

An Optimization Method in Floating-point to Fixed-point Conversion using Positive and Negative Error Analysis and Sharing of Operations

N. Doi, T. Horiyama, M.Nakanishi, S.Kimura

Proc. of Workshop on Synthesis and System Integration of Mixed Technologies (SASIMI'2004)p.466 - 4712004年10月-

Efficient Hardware Architecture of a New Simple Public-Key Cryptosystem for Real-Time Data Processing

C. Jin, N. Doi, H. Tanaka, S. Imai, S. Kimura

Proc. of Workshop on Synthesis and System Integration of Mixed Technologies (SASIMI'2004)p.107 - 1122004年10月-

Reducing Test Data Volume for Multiscan-based Designs through Single/Sequence Mixed Encoding

Y. Shi, S. Kimura, N. Togawa, M. Yanagisawa and T. Ohtsuki

IEEE International Midwest Symposium on Circuits and Systemsp.445 - 4482004年07月-

Reconfigurable Architecture for Bit-Level Data Processing

S. Kimura

Invited Talk of The 1st Silicon-Seabelt Workshop on VLSI Designs in National Taiwan University2004年04月-

Bit Length Optimization of Fractional Part on Floating to Fixed Point Conversion for High Level Synthesis

N. Doi, T. Horiyama, N. Nakanishi, S. Kimura and K. Watanabe

IEICE Trans. FundamentalsVol. E86-A(No. 12)p.3176 - 31832003年12月-

A Built-in Reseeding Technique for LFSR-Based Test Pattern Generation

Y. Shi, Z. Zhang, S. Kimura, M. Yanagisawa and T. Ohtsuki

IEICE Trans. FundamentalsVol. E86-A(No. 12)p.3056 - 36622003年12月-

Bit Length Optimization of Fractional Parts on Floating to Fixed Point Conversion fro High-Level Synthesis

Nobuhiro Doi, Takashi Horiyama, Masaki Nakanishi, Shinji Kimura, Katsumasa Watanabe

Proc. of the Workshop on Synthesis and System Integration of Mixed Information technologiesp.129 - 1362003年04月-

Bit Length Optimization in High Level Synthesis Based on Analytical Methods (Invited Talk)

Shinji Kimura, Nobuhiro Doi

System on Chip Design Automation Conference 2003 at Korea2003年11月-

Minimization of Fractional Wordlength on Fixed-Point Conversion for High-Level Synthesis

Nobuhiro Doi, Takashi Horiyama, Masaki Nakanishi and Shinji Kimura

Proc. ASP-DAC 2004p.80 - 852004年01月-

Folding of Logic Functions and Its Application to Look Up Table Compaction

S. Kimura, T. Horiyama, M. Nakanishi and H. Kajihara

Proc. on ICCAD 2002 (International Conference on Computer Aided Design)p.694 - 6972002年11月-

Look Up Table Compaction Based on Folding of Logic Functions

S. Kimura, A. Ishii, T. Horiyama, M. Nakanishi, H. Kajihara, and K. Watanabe

IEICE Trans. Fundamentalsvol.E85-A(no.12)p.2701 - 27072002年12月-

An On-Chip High Speed Serial Communication Method Based on Independent Ring Oscillators

S. Kimura, T. Hayakawa, T. Horiyama, M. Nakanishi and K. Watanabe

International Solid State Circuit Conference 03(22.3)p.390 - 3912003年02月-

A New Symbolic Image Computation Algorithm Based on BDD Constrain Operator

S. Kimura, D. Dill, and S. G. Govindaraju

In Proc. of the 10th Workshop on Synthesis And System Integration of Mixed Technologies (SASIMI 2001)p.167 - 1712001年10月-

A Real-Time User-Independent Eye Tracking LSI with Environment Adaptability

K. Nakamura, M. Nakanishi, T. Horiyama, M. Suzuki, S. Kimura, and K. Watanabe

In Proc. of the 10th Workshop on Synthesis And System Integration of Mixed Technologies (SASIMI 2001)p.357 - 3612001年10月-

Robust Heuristics for Multi-Level Logic Simplification Considering Local Circuit Structure

Q. Zhu, Y. Matsunaga, S. Kimura, and K. Watanabe

IEICE Transactions on FundamentalsVol. E83-A(No. 12)p.2520 - 25272000年12月-

Multi-Cycle Path Detection Based on Propositional Satisfiability with CNF Simplification Using Adaptive Variable Insertion

K. Nakamura, S. Maruoka, S. Kimura, and K. Watanabe

IEICE Transactions on FundamentalsVol. E83-A(No. 12)p.2600 - 26072000年12月-

Robust Heuristics for Multi-Level Logic Simplification Considering Local Circuit Structure

Q. Zhu, Y. Matsunaga, S. Kimura, and K. Watanabe

In Proc. of the 9th Workshop on Synthesis And System Integration of Mixed Technologies (SASIMI 2000)p.299 - 3062000年04月-

A Real-time 64-Monosyllable Recognition LSI with Learning Mechanism

K. Nakamura, Q. Zhu, S. Maruoka, T. Horiyama, S. Kimura, and K. Watanabe

In Proc. of the 11th Asia and South Pacific Design Automation Conference 2001 (ASP-DAC 2001)p.31 - 322001年01月-

Speech Recognition Chip for Monosyllables

K. Nakamura, Q. Zhu, S. Maruoka, T. Horiyama, S. Kimura, and K. Watanabe

In Proc. of the 11th Asia and South Pacific Design Automation Conference 2001 (ASP-DAC 2001)p.396 - 3992001年01月-

Hardware Synthesis from C Programs with Estimation of Bit Length of Variables

O.Ogawa, K.Takagi, Y.Itoh, S.Kimura, and K.Watanabe

IEICE Trans. FundamentalsVol. E82-A(No.11)p.2333 - 23461999年11月-

Exact Minimization of Free BDDs and Its Application to Pass-Transister Logic Optimization

K.Takagi, H.Hatakeda, S.Kimura, and K.Watanabe

IEICE Trans. FundamentalsVol. E82-A(No.11)p.2407 - 24121999年11月-

Multi-Level Logic Simplification using Statisfiability Don't Cares

Q.Zhu, Y.Matsunaga, S.Kimura, and K.Watanabe

Proceedings of Asia Pacific Conference on cHip Design Languagesp.127 - 1311999年10月-

Multi-Clock Path Analysis Using Propositional Satisfiability

K.Nakamura, S.Maruoka, S.Kimura, and K.Watanabe

Proceedings of Asia and South Pacific Design Automation Conference 2000 (ASP-DAC 2000) C1.5p.81 - 862000年01月-

An Application Specific Java Processor with Reconfigurablities

S.Kimura, H.Kida, K.Takagi, T.Abematsu, and K.Watanabe

Proceedings of Asia and South Pacific Design Automation Conference 2000 (ASP-DAC 2000) A1.13p.25 - 262000年01月-

Write Control Method for Nonvolatile Flip-Flops Based on State Transition Analysis

Okada, Naoya;Nakamura, Yuichi;Kimura, Shinji

IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCESE96A(6)p.1264 - 12722013年-2013年

DOIWoS

詳細

ISSN:0916-8508

Fast SAO Estimation Algorithm and Its Implementation for 8 K x 4 K @ 120 FPS HEVC Encoding

Zhu, Jiayi;Zhou, Dajiang;Kimura, Shinji;Goto, Satoshi

IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCESE97A(12)p.2488 - 24972014年-2014年

DOIWoS

詳細

ISSN:1745-1337

最大フロー最小カット定理を用いた不揮発レジスタの書込み削減

糸井 優大;木村 晋二

電子情報通信学会技術研究報告. ICD, 集積回路112(247)p.101 - 1062012年10月-2012年10月 

CiNii

自動クロックゲーティング生成における電力最適化制御信号選択手法

満 欣;堀山 貴史;木村 晋二

研究報告システムLSI設計技術(SLDM)2010(1)p.1 - 62010年05月-2010年05月 

CiNii

詳細

ISSN:09196072

概要:クロックゲーティングは、レジスタへのクロック供給を制御することで電力を削減する手法で、順序回路の動的電力削減に広く用いられている。これまでハードウェア記述言語における新しい値のレジスタへの代入条件を用いる手法や、状態遷移の解析からレジスタに代入する条件を抽出する手法などが知られているが、より効果的な自動化手法が求められていた。レジスタの現在の値と新しい値の EXOR がクロック停止確率最大となる信号であることが知られているが、個別にゲーティング回路を付加することは非効率で、共有が不可欠である。そこで本稿では、論理関数処理に基づき制御信号候補から最適なゲーティング回路の最適な共有を行う手法を提案する。本手法は二分決定グラフ (Binary Decision Diagram, BDD) を用いて実現され、カウンタや ISCAS 89 ベンチマーク回路で効果を確認した。カウンタでは 37% ~ 76% の電力削減が得られ、また ISCAS ベンチマーク回路では 2% ~ 18% の電力削減が確認できた。Clock gating is an effective technique to reduce dynamic power consumption for sequential circuits. There have been proposed clock gating generation methods using the condition specified by designers or the extracted condition by the analysis of state transitions. EXOR of the current value and the new value of a register is the control signal which can minimize the probability of clock supply to the register, but it is infeasible to add one clock gating logic for each register. In our research, we propose a method for automatic clock gating generation through control signal candidates extraction and power-optimal control signal selection based on the optimum sharing. The method is implemented based on BDD (Binary Decision Diagram). The method is applied to counters and ISCAS89 benchmark circuits. There have been found 37% ~ 76% power reductions on counter circuits and 2% ~ 18% power reduction on benchmark circuits.

On Gate Level Power Optimization of Combinational Circuits Using Pseudo Power Gating

Jin, Yu;Kimura, Shinji

IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCESE95A(12)p.2191 - 21982012年-2012年

DOIWoS

詳細

ISSN:0916-8508

An Exact Approach for GPC-Based Compressor Tree Synthesis

Matsunaga, Taeko;Kimura, Shinji;Matsunaga, Yusuke

IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCESE96A(12)p.2553 - 25602013年-2013年

DOIWoS

詳細

ISSN:0916-8508

Low-Power Motion Estimation Processor with 3D Stacked Memory

Zhang, Shuping;Zhou, Jinjia;Zhou, Dajiang;Kimura, Shinji;Goto, Satoshi

IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCESE98A(7)p.1431 - 14412015年-2015年

DOIWoS

詳細

ISSN:1745-1337

A-3-7 差分を用いた不揮発メモリの書き込み回数削減(A-3.VLSI設計技術)

篠原 寛行;柳澤 政夫;木村 晋二

電子情報通信学会総合大会講演論文集20132013年03月-2013年03月 

CiNii

IL1およびIL2キャッシュに不揮発メモリを利用した二階層キャッシュにおける消費エネルギーの評価(システムと信号処理及び一般)

松野 翔太;多和田 雅師;柳澤 政生;木村 晋二;戸川 望;杉林 直彦

電子情報通信学会技術研究報告. VLD, VLSI設計技術113(119)p.89 - 942013年07月-2013年07月 

CiNii

詳細

ISSN:0913-5685

概要:オンチップ・メモリによく利用されるSRAMは,高速かつ動作電力が低いが,微細化とともに構造に起因するリーク電力が増大し,無視できなくなってきた.一方,不揮発メモリはリーク電力が小さいという特性を持つ.さらに電源をOFFにしても記憶内容が保持されるため,ノーマリオフへの活用が期待されている.しかし,書き込みエネルギーが大きいなどの欠点がある.本稿では,二階層キャッシュの一部に不揮発メモリを利用したときに,書き込みエネルギーが大きいという欠点があっても,消費エネルギーが削減できることを確認した.

最大ハミング距離を制限した符号とこれを用いた不揮発メモリの書き込み削減手法(システムと信号処理及び一般)

多和田 雅師;木村 晋二;柳澤 政生;戸川 望

電子情報通信学会技術研究報告. VLD, VLSI設計技術113(119)p.95 - 1002013年07月-2013年07月 

CiNii

詳細

ISSN:0913-5685

概要:近年の高集積化に伴い消費電力全体に対するリーク電力の割合が高まっている.不揮発メモリはリーク電力をほとんど消費しないため次世代のメモリとして期待されている.不揮発メモリは通常のメモリより書き込み時に電力を消費する問題がある.不揮発メモリの書き込み電力を低減するためには,書き込みビット数を削減する手法が考えられる.メモリの値をある値から違う値へ書き換えるとき,実際に保存する値を符号化することで,本来書き換えるビット数よりも実際に書き込むビット数を少なくすることができる.最大ハミング距離を制限した符号により,書き込みビット数を削減する手法を提案する.符号間の最大ハミング距離を制限する符号を生成し,一回の値の書き込みで反転するビット数を制限することで書き込みビット数を削減する.

フィルタ向け定数乗算のメモリベース実現による低電力化(システムと信号処理及び一般)

樺沢 皓介;杉林 直彦;柳澤 政生;木村 晋二

電子情報通信学会技術研究報告. VLD, VLSI設計技術113(119)p.101 - 1062013年07月-2013年07月 

CiNii

詳細

ISSN:0913-5685

概要:音声や画像のデジタル信号処理では,入力に定数を掛けて総和を取る形態のデジタルフィルタが多く用いられる.ここではそのような定数乗算に対し,メモリ量と論理のトレードオフを考慮し,高速かつ低電力なメモリベース定数乗算の実現法を提案する.メモリの読出し時の消費電力は,読み出す内容に無関係に一定であり,論理ゲートで構成した乗算回路の各ゲートの出力トグルによる電力を低減できる.入力分割を用いてbit数の少ない乗算結果のみメモリに記憶し,その結果を加算して最終結果を得ることで,直接的な1メモリ実現に比べて,メモリ量の大幅な削減を達成している.本手法に基づく8bitの定数乗算回路を ASICで実現し,電力削減効果を確認した.

差分を用いた不揮発メモリの書込み回数削減による低電力回路設計(性能・製造性考慮手法,FPGA応用及び一般)

篠原 寛行;柳澤 政生;木村 晋二

電子情報通信学会技術研究報告. VLD, VLSI設計技術113(416)p.167 - 1722014年01月-2014年01月 

CiNii

詳細

ISSN:0913-5685

概要:LSIの低消費電力化のために,モジュール毎の細やかな電源オフは欠かせない.それと同時に,電源復帰後も動作の継続性を保つために現在の状態を保持する必要がある.そこで,電源オフでもデータの保持が可能な次世代不揮発メモリが注目されている.不揮発メモリにより,細粒度で電源をオフにすることができ,リーク電力を中心とする電力削減が望める.しかし不揮発メモリにはCMoSのメモリ素子と比べて10倍程度大きい書き込みエネルギーの問題があり,書き込みの削減が不揮発メモリを活用する上での重要な課題である.本稿では,無線センサ端末などでの消費電力の削減に向けて,差分データを用いた不揮発素子の書き込み削減による消費電力削減手法を提案する.データを二つの変数の和(元のデータと差分)で記憶し,新しい入力に変更する際に二つの変数の冗長性を用いて変化ビット数を最小化する.この手法を実現するハードウェアを設計し,気温及び湿度の測定データに対して適用して評価したところ,24%の書き込み回数削減と,約11%の消費電力削減を達成した.

書込み電力最小カット部探索とそれを用いた不揮発論理回路の低電力化(低消費電力技術,デザインガイア2013-VLSI設計の新しい大地-)

糸井 優大;木村 晋二

電子情報通信学会技術研究報告. DC, ディペンダブルコンピューティング113(321)p.147 - 1522013年11月-2013年11月 

CiNii

詳細

ISSN:0913-5685

概要:近年,磁気トンネル結合を用いた次世代不揮発メモリ/レジスタが注目されている.これらは,電源遮断時でも記憶を保持でき,CMOS素子と集積できかつ高速動作が可能である.これらを用いることで,状態の退避をケアすることなく,細粒度なLSIの電源管理が可能となる.しかし,不揮発素子は通常メモリ素子に比べて書込み電力が10倍程度大きく,不要な書込みを制限することが必要不可欠である.我々はこれまでに,状態保存レジスタの不揮発化における書込み削減のため,元のレジスタの位置とは異なる場所に状態保存レジスタを挿入する手法を提案した.よりスイッチング確率が小さい位置に状態保存レジスタを配置することにより,元の場所に配置する場合に比べて書込み頻度を削減できる.スイッチング確率最小位置の探索には,最大フロー最小カット定理を用いたカット探索を利用する.本稿では,カットの探索時に,スイッチング確率だけでなく状態保存や復帰のために必要となる付加回路のオーバーヘッドについても考慮することでトータルの消費電力を最小化する手法について述べる.さらに,本手法をISCAS89ベンチマーク回路5個に適用し,論理合成後の電力評価を行った.その結果,元のレジスタの位置に不揮発レジスタを入れるのと比べて,2.6%-15.1%(平均8.34%)の電力削減が得られることを示した.

不揮発メモリを対象とした書き込み削減手法のエネルギー評価(低消費電力技術,デザインガイア2013-VLSI設計の新しい大地-)

多和田 雅師;木村 晋二;柳澤 政生;戸川 望

電子情報通信学会技術研究報告. VLD, VLSI設計技術113(320)p.141 - 1462013年11月-2013年11月 

CiNii

詳細

ISSN:0913-5685

概要:近年の高集積化に伴い消費電力全体に対するリーク電力の割合が高まっている.不揮発メモリはリーク電力をほとんど消費しないため次世代のメモリとして期待されている.不揮発メモリは通常のメモリより書き込み時に電力を消費する問題がある.不揮発メモリの書き込み電力を低減するためには,書き込みビット数を削減する手法が考えられる.メモリの値をある値から違う値へ書き換えるとき,実際に保存する値を符号化することで,本来書き換えるビット数よりも実際に書き込むビット数を少なくすることができる.本稿では不揮発メモリを対象とした書き込みビット数削減手法のエネルギーを評価する.

書込み電力最小カット部探索とそれを用いた不揮発論理回路の低電力化(低消費電力技術,デザインガイア2013-VLSI設計の新しい大地-)

糸井 優大;木村 晋二

電子情報通信学会技術研究報告. VLD, VLSI設計技術113(320)p.147 - 1522013年11月-2013年11月 

CiNii

詳細

ISSN:0913-5685

概要:近年,磁気トンネル結合を用いた次世代不揮発メモリ/レジスタが注目されている.これらは,電源遮断時でも記憶を保持でき,CMOS素子と集積できかつ高速動作が可能である.これらを用いることで,状態の退避をケアすることなく,細粒度なLSIの電源管理が可能となる.しかし,不揮発素子は通常メモリ素子に比べて書込み電力が10倍程度大きく,不要な書込みを制限することが必要不可欠である.我々はこれまでに,状態保存レジスタの不揮発化における書込み削減のため,元のレジスタの位置とは異なる場所に状態保存レジスタを挿入する手法を提案した.よりスイッチング確率が小さい位置に状態保存レジスタを配置することにより,元の場所に配置する場合に比べて書込み頻度を削減できる.スイッチング確率最小位置の探索には,最大フロー最小カット定理を用いたカット探索を利用する.本稿では,カットの探索時に,スイッチング確率だけでなく状態保存や復帰のために必要となる付加回路のオーバーヘッドについても考慮することでトータルの消費電力を最小化する手法について述べる.さらに,本手法をISCAS89ベンチマーク回路5個に適用し,論理合成後の電力評価を行った.その結果,元のレジスタの位置に不揮発レジスタを入れるのと比べて,2.6%-15.1%(平均8.34%)の電力削減が得られることを示した.

不揮発メモリの書き込み削減手法のための小面積なエンコーダ/デコーダ回路構成(設計手法(2),デザインガイア2014-VLSI設計の新しい大地-)

多和田 雅師;木村 晋二;柳澤 政生;戸川 望

電子情報通信学会技術研究報告. VLD, VLSI設計技術114(328)p.227 - 2322014年11月-2014年11月 

CiNii

詳細

ISSN:0913-5685

概要:不揮発メモリはリーク電力が非常に小さい,電源が落ちていても情報を保持できるといった性質から次世代メモリとして注目されている.一方で不揮発メモリには書き込みエネルギーが大きい,書き換え回数に上限があるという問題がある.書き込みエネルギーの削減とウェアレベリングを行う手法としてビットレベルでの書き込み削減手法が存在する.ハミング符号より生成した冗長符号を用いてメモリに保存する値を符号化して書き込む手法が提案されている.従来手法の回路構成では符号化のためのエンコーダ,デコーダの規模が大きくなる欠点がある.本稿では書き込み削減手法に適した符号構成を行うことでエンコーダ,デコーダの面積を小さくする手法を提案する.メモリに保存したいビットシーケンスをエンコードせずにエンコード後のベクトルとみなしても書き込みに必要な情報が得られる.メモリに保存されているベクトルを誤り訂正すると,デコードせずにシンドロームが元のビットシーケンスが持つ情報と一致する.その結果,小面積のエンコーダ,デコーダが構成できる.提案手法によりエンコーダとデコーダを設計した結果,従来手法と比較して面積が削減されることを確認する.

順序回路の時間展開に基づくクロックゲーティング制御信号抽出手法

後藤 智哉;樋口 耕平;柳澤 政生;木村 晋二

情報処理学会研究報告. SLDM, [システムLSI設計技術]2015(6)p.1 - 62015年05月-2015年05月 

CiNii

詳細

ISSN:09196072

概要:近年 LSI の動的電力を削減する手法としてクロックゲ-ティングが利用されている.クロックゲーティングは商用ツールによる自動挿入が可能だが,制御信号はデザイナーが指定したそのままであり,クロックの停止条件の最適性は保証されない.また,各 1 ビットレジスタの現在の出力と新しい値が異なる場合にのみクロックを与えるという手法もあるが,1 ビット単位で XOR によるクロックゲーティング制御を行うと電力がかえって大きくなることも知られている.そこで近年,各レジスタの現在の出力と新しい値が異なるという条件を回路内部から抽出,生成しクロックゲーティング制御信号の判定に用いる手法の研究が盛んである.しかしこれまでは現在の信号のみを制御信号の候補とした手法が提案されていた.本研究では,既存手法である SAT 判定を用いたクロックゲーティング信号抽出手法を拡張し,順序回路の時間展開を行うことでより多くの制御信号候補を自動抽出する手法を提案する.これにより複数クロック過去の信号を候補として利用可能となり,順序的クロックゲーティングの自動化が実現される.提案手法を ISCAS'89 ベンチマーク回路に適用し,複数の回路で制御信号候補の増加を確認した.

A-6-3 金属原子移動型スイッチFPGAの再構成時における配線スイッチの書き換え削減(A-6.VLSI設計技術,一般セッション)

青木 晃平;柳澤 政生;木村 晋二

電子情報通信学会基礎・境界ソサイエティ/NOLTAソサイエティ大会講演論文集20162016年03月-2016年03月 

CiNii

詳細

ISSN:2189700X

Fast SAO Estimation Algorithm and Its Implementation for 8K×4K @ 120 FPS HEVC Encoding

ZHU Jiayi;ZHOU Dajiang;KIMURA Shinji;GOTO Satoshi

IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences97(12)p.2488 - 24972014年-2014年

CiNii

詳細

ISSN:0916-8508

概要:High efficiency video coding (HEVC) is the new generation video compression standard. Sample adaptive offset (SAO) is a new compression tool adopted in HEVC which reduces the distortion between original samples and reconstructed samples. SAO estimation is the process of determining SAO parameters in video encoding. It is divided into two phases: statistic collection and parameters determination. There are two difficulties for VLSI implementation of SAO estimation. The first is that there are huge amount of samples to deal with in statistic collection phase. The other is that the complexity of Rate Distortion Optimization (RDO) in parameters determination phase is very high. In this article, a fast SAO estimation algorithm and its corresponding VLSI architecture are proposed. For the first difficulty, we use bitmaps to collect statistics of all the 16 samples in one 4×4 block simultaneously. For the second difficulty, we simplify a series of complicated procedures in HM to balance the algorithms complexity and BD-rate performance. Experimental results show that the proposed algorithm maintains the picture quality improvement. The VLSI design based on this algorithm can be implemented using 156.32K gates, 8,832bits single port RAM for 8bits depth case. It can be synthesized to 400MHz @ 65nm technology and is capable of 8K×4K @ 120fps encoding.

Low-Power Motion Estimation Processor with 3D Stacked Memory

ZHANG Shuping;ZHOU Jinjia;ZHOU Dajiang;KIMURA Shinji;GOTO Satoshi

IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences98(7)p.1431 - 14412015年-2015年

CiNii

詳細

ISSN:0916-8508

概要:Motion estimation (ME) is a key encoding component of almost all modern video coding standards. ME contributes significantly to video coding efficiency, but, it also consumes the most power of any component in a video encoder. In this paper, an ME processor with 3D stacked memory architecture is proposed to reduce memory and core power consumption. First, a memory die is designed and stacked with ME die. By adding face-to-face (F2F) pads and through-silicon-via (TSV) definitions, 2D electronic design automation (EDA) tools can be extended to support the proposed 3D stacking architecture. Moreover, a special memory controller is applied to control data transmission and timing between the memory die and the ME processor die. Finally, a 3D physical design is completed for the entire system. This design includes TSV/F2F placement, floor plan optimization, and power network generation. Compared to 2D technology, the number of input/output (IO) pins is reduced by 77%. After optimizing the floor plan of the processor die and memory die, the routing wire lengths are reduced by 13.4% and 50%, respectively. The stacking static random access memory contributes the most power reduction in this work. The simulation results show that the design can support real-time 720p @ 60fps encoding at 8MHz using less than 65mW in power, which is much better compared to the state-of-the-art ME processor.

ECC-Based Bit-Write Reduction Code Generation for Non-Volatile Memory

TAWADA Masashi;KIMURA Shinji;YANAGISAWA Masao;TOGAWA Nozomu

IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences98(12)p.2494 - 25042015年-2015年

CiNii

詳細

ISSN:0916-8508

概要:Non-volatile memory has many advantages such as high density and low leakage power but it consumes larger writing energy than SRAM. It is quite necessary to reduce writing energy in non-volatile memory design. In this paper, we propose write-reduction codes based on error correcting codes and reduce writing energy in non-volatile memory by decreasing the number of writing bits. When a data is written into a memory cell, we do not write it directly but encode it into a codeword. In our write-reduction codes, every data corresponds to an information vector in an error-correcting code and an information vector corresponds not to a single codeword but a set of write-reduction codewords. Given a writing data and current memory bits, we can deterministically select a particular write-reduction codeword corresponding to the data to be written, where the maximum number of flipped bits are theoretically minimized. Then the number of writing bits into memory cells will also be minimized. Experimental results demonstrate that we have achieved writing-bits reduction by an average of 51% and energy reduction by an average of 33% compared to non-encoded memory.

A Low-Power VLSI Architecture for HEVC De-Quantization and Inverse Transform

SUN Heming;ZHOU Dajiang;ZHANG Shuping;KIMURA Shinji

IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences99(12)p.2375 - 23872016年-2016年

CiNii

詳細

概要:

In this paper, we present a low-power system for the de-quantization and inverse transform of HEVC. Firstly, we present a low-delay circuit to process the coded results of the syntax elements, and then reduce the number of multipliers from 16 to 4 for the de-quantization process of each 4x4 block. Secondly, we give two efficient data mapping schemes for the memory between de-quantization and inverse transform, and the memory for transpose. Thirdly, the zero information is utilized through the whole system. For two memory parts, the write and read operation of zero blocks/ rows/ coefficients can all be skipped to save the power consumption. The results show that up to 86% power consumption can be saved for the memory part under the configuration of "Random-access" and common QPs. For the logical part, the proposed architecture for de-quantization can reduce 77% area consumption. Overall, our system can support real-time coding for 8K x 4K 120fps video sequences and the normalized area consumption can be reduced by 68% compared with the latest work.

Accelerating HEVC Inter Prediction with Improved Merge Mode Handling

CHENG Zhengxue;SUN Heming;ZHOU Dajiang;KIMURA Shinji

IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences100(2)p.546 - 5542017年-2017年

CiNii

詳細

概要:

High Efficiency Video Coding (HEVC/H.265) obtains 50% bit rate reduction than H.264/AVC standard with comparable quality at the cost of high computational complexity. Merge mode is one of the most important new features introduced in HEVC's inter prediction. Merge mode and traditional inter mode consume about 90% of the total encoding time. To address this high complexity, this paper utilizes the merge mode to accelerate inter prediction by four strategies. 1) A merge candidate decision is proposed by the sum of absolute transformed difference (SATD) cost. 2) An early merge termination is presented with more than 90% accuracy. 3) Due to the compensation effect of merge candidates, symmetric motion partition (SMP) mode is disabled for non-8×8 coding units (CUs). 4) A fast coding unit filtering strategy is proposed to reduce the number of CUs which need to be fine-processed. Experimental results demonstrate that our fast strategies can achieve 35.4%-58.7% time reduction with 0.68%-1.96% BD-rate increment in RA case. Compared with similar works, the proposed strategies are not only among the best performing in average-case complexity reduction, but also notably outperforming in the worst cases.

A 7-Die 3D Stacked 3840×2160@120 fps Motion Estimation Processor

ZHANG Shuping;ZHOU Jinjia;ZHOU Dajiang;KIMURA Shinji;GOTO Satoshi

IEICE Transactions on Electronics100(3)p.223 - 2312017年-2017年

CiNii

詳細

概要:

In this paper, a hamburger architecture with a 3D stacked reconfigurable memory is proposed for a 4K motion estimation (ME) processor. By positioning the memory dies on both the top and bottom sides of the processor die, the proposed hamburger architecture can reduce the usage of the signal through-silicon via (TSV), and balance the power delivery network and the clock tree of the entire system. It results in 1/3 reduction of the usage of signal TSVs. Moreover, a stacked reconfigurable memory architecture is proposed to reduce the fabrication complexity and further reduce the number of signal TSVs by more than 1/2. The reduction of signal TSVs in the entire design is 71.24%. Finally, we address unique issues that occur in electronic design automation (EDA) tools during 3D large-scale integration (LSI) designs. As a result, a 4K ME processor with 7-die stacking 3D system-on-chip design is implemented. The proposed design can support real time 3840 × 2160 @ 120 fps encoding at 130 MHz with less than 540 mW.

Distortion Control and Optimization for Lossy Embedded Compression in Video Codec System

GUO Li;ZHOU Dajiang;KIMURA Shinji;GOTO Satoshi

IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences100(11)p.2416 - 24242017年-2017年

CiNii

詳細

概要:

For mobile video codecs, the huge energy dissipation for external memory traffic is a critical challenge under the battery power constraint. Lossy embedded compression (EC), as a solution to this challenge, is considered in this paper. While previous studies in lossy EC mostly focused on algorithm optimization to reduce distortion, this work, to the best of our knowledge, is the first one that addresses the distortion control. Firstly, from both theoretical analysis and experiments for distortion optimization, a conclusion is drawn that, at the frame level, allocating memory traffic evenly is a reliable approximation to the optimal solution to minimize quality loss. Then, to reduce the complexity of decoding twice, the distortion between two sequences is estimated by a linear function of that calculated within one sequence. Finally, on the basis of even allocation, the distortion control is proposed to determine the amount of memory traffic according to a given distortion limitation. With the adaptive target setting and estimating function updating in each group of pictures (GOP), the scene change in video stream is supported without adding a detector or retraining process. From experimental results, the proposed distortion control is able to accurately fix the quality loss to the target. Compared to the baseline of negative feedback on non-referred B frames, it achieves about twice memory traffic reduction.

Hardware-oriented rate-distortion optimization algorithm for HEVC intra-frame encoder

Hu, Landan; Sun, Heming; Zhou, Dajiang; Kimura, Shinji

2015 IEEE International Conference on Multimedia and Expo Workshops, ICMEW 20152015年07月-2015年07月 

DOIScopus

詳細

概要:© 2015 IEEE. Digital video is widely used in the mobile applications, where video compression technology is necessary to store or transmit the videos. High Efficiency Video Coding (HEVC) achieves the highest compression ratio while it costs huge computational complexity, in which rate-distortion (RD) cost calculation takes the majority. This paper presents a low-complexity RD estimation method for HEVC intra prediction by the following schemes. 1) The transformed coefficients rather than quantized coefficients are used to do the RD estimation. 2) For the rate part, the position after the last non-zero quantized coefficient is considered to improve the accuracy of estimation, and a header-bit estimation method is presented to save about 82% complexity on header bits calculation. 3) For the distortion part, the scaling parameter of quantization is modified to the exponential of two so that the bit depth of multiplication can be reduced from 15 to 5 in the worst case. 4) In transform unit 4×4, we consider transform skip mode which is neglect in the prior research. Our proposal could achieve 72.22% time reduction of rate-distortion optimization (RDO) compared with original HEVC Test Model while the BD-rate is only 1.76%.

14.7 A 4Gpixel/s 8/10b H.265/HEVC video decoder chip for 8K Ultra HD applications

Zhou, Dajiang; Wang, Shihao; Sun, Heming; Zhou, Jianbin; Zhu, Jiayi; Zhao, Yijin; Zhou, Jinjia; Zhang, Shuping; Kimura, Shinji; Yoshimura, Takeshi; Goto, Satoshi

Digest of Technical Papers - IEEE International Solid-State Circuits Conference59p.266 - 2682016年02月-2016年02月 

DOIScopus

詳細

ISSN:01936530

概要:© 2016 IEEE.8K Ultra HD is being promoted as the next-generation digital video format. From a communication channel perspective, the latest high-efficiency video coding standard (H.265/HEVC) greatly enhances the feasibility of 8K by doubling the compression ratio. Implementation of such codecs is a challenge, owing to ultra-high throughput requirements and increased complexity per pixel. The former corresponds to up to 10b/pixel, 7680×4320pixels/frame and 120fps - 80× larger than 1080p HD. The latter comes from the new features of HEVC relative to its predecessor H.264/AVC. The most challenging of them is the enlarged and highly variable-size coding/prediction/transform units (CU/PU/TU), which significantly increase: 1) the requirement for on-chip memory as pipeline buffers, 2) the difficulty in maintianing pipeline utilization, and 3) the complexity of inverse transforms (IT). This paper presents an HEVC decoder chip supporting 8K Ultra HD, featuring a 16pixel/cycle true-variable-block-size system pipeline. The pipeline: 1) saves on-chip memory with a novel block-in-block-out (BIBO) queue system and a parameter delivery network, and 2) allows high design efficiency and utilization of processing components through local synchronization. Key optimizations at the component level are also presented.

Merge mode based fast inter prediction for HEVC

Cheng, Zhengxue; Sun, Heming; Zhou, Dajiang; Kimura, Shinji

2015 Visual Communications and Image Processing, VCIP 20152016年04月-2016年04月 

DOIScopus

詳細

概要:© 2015 IEEE.The latest High Efficiency Video Coding (HEVC/H.265) obtains 50% bit rate reduction than H.264/AVC standard with comparable quality, but at the cost of high computational complexity. Inter prediction accounts for large complexity and merge mode is one of the most important new features introduced in HEVC. To address this issue, this paper utilizes the merge mode to accelerate inter prediction by three fast mode decision methods. 1) A merge candidate decision is proposed to select the best merge mode by Sum of Absolute Transformed Difference (SATD) cost to reduce the merge time. 2) An early merge termination is presented still based on SATD cost with more than 90% accuracy. 3) Based on efficient merge mode, symmetric motion partition (SMP) modes can be disabled for non-8 × 8 code units (CUs). Experimental results demonstrate that our work can achieve 53.1%-54.2% time reduction on average with 1.57%-2.30% BD-rate increment. Besides, our method achieves an improvement of 18%-30% time reduction with 0.89%-2.85% BD-rate increment when combined with other existing approaches.

Frame-level quality and memory traffic allocation for lossy embedded compression in video codec systems

Guo, Li; Zhou, Dajiang; Kimura, Shinji; Goto, Satoshi

2016 IEEE International Conference on Multimedia and Expo Workshop, ICMEW 20162016年09月-2016年09月 

DOIScopus

詳細

概要:© 2016 IEEE.For mobile video codecs, the huge energy dissipation for external memory traffic is a critical challenge under the battery power constraint. Lossy embedded compression (EC), as a solution to this challenge, is considered in this paper. While previous studies in EC mostly focused on compression algorithms at the block level, this work, to the best of our knowledge, is the first one that addresses the allocation of video quality and memory traffic at the frame level. For lossy EC, a main difficulty of its application lies in the error propagation from quality degradation of reference frames. Instinctively, it is preferred to perform more lossy EC in non-reference frames to minimize the quality loss. The analysis and experiments in this paper, however, will show lossy EC should actually be distributed to more frames. Correspondingly, for hierarchical-B GOPs, we developed an efficient allocation that outperforms the non-reference-only allocation by up to 4.5 dB in PSNR. In comparison, the proposed allocation also delivers more consistent quality between frames by having lower PSNR fluctuation.

An 8K H.265/HEVC Video Decoder Chip With a New System Pipeline Design

Zhou, Dajiang; Wang, Shihao; Sun, Heming; Zhou, Jianbin; Zhu, Jiayi; Zhao, Yijin; Zhou, Jinjia; Zhang, Shuping; Kimura, Shinji; Yoshimura, Takeshi; Goto, Satoshi

IEEE Journal of Solid-State Circuits52(1)p.113 - 1262017年01月-2017年01月 

DOIScopus

詳細

ISSN:00189200

概要:© 2016 IEEE.8K ultra-HD is being promoted as the next-generation video specification. While the High Efficiency Video Coding (HEVC) standard greatly enhances the feasibility of 8K with a doubled compression ratio, its implementation is a challenge, owing to ultrahigh-throughput requirements and increased complexity per pixel. The latter comes from the new features of HEVC. At the system level, the most challenging of them is the enlarged and highly variable-size coding/prediction/transform units, which significantly increase the requirement for on-chip memory as pipeline buffers and the difficulty in maintaining pipeline utilization. This paper presents an HEVC decoder chip featuring a system pipeline that works at a nonunified and variable granularity. The pipeline saves on-chip memory with a novel block-in-block-out queue system and a parameter delivery network, while allowing overhead-free and fully pipelined operation of the processing components. With the system pipeline design combined with various component-level optimizations, the proposed decoder in 40 nm achieves a maximum throughput of 4 Gpixels/s or 8K 120 frames/s for the low-delay-P configuration of HEVC, 7.5-55 times faster than prior works. It supports 8K 60 frames/s for the low-delay and random-access configurations. In a normalized comparison, it also shows 3.1-3.6 times better area efficiency and 31%-55% superior energy efficiency.

Development of TOF-PET using Compton scattering by plastic scintillators

Kuramoto, M.; Nakamori, T.; Kimura, S.; Gunji, S.; Takakura, M.; Kataoka, J.

Nuclear Instruments and Methods in Physics Research, Section A: Accelerators, Spectrometers, Detectors and Associated Equipment845p.668 - 6722017年02月-2017年02月 

DOIScopus

詳細

ISSN:01689002

概要:© 2016 Elsevier B.V. We propose a time-of-flight (TOF) technique using plastic scintillators which have fast decay time of a few ns for positron emission tomography (PET). While the photoelectric absorption probability of the plastic for 511 keV gamma rays are extremely low due to its small density and effective atomic number, the cross section of Compton scattering is comparable to that of absorption by conventional inorganic scintillators. We thus propose TOF-PET using Compton scattering with plastic scintillators (Compton-PET), and performed fundamental experiments towards exploration of the Compton-PET capability. We demonstrated that the plastic scintillators achieved the better time resolution in comparison to LYSO(Ce) and GAGG(Ce) scintillators. In addition we evaluated the depth-of-interaction resolving capability with the plastic scintillators.

A low-power VLSI architecture for HEVC de-quantization and inverse transform

Sun, Heming; Zhou, Dajiang; Zhang, Shuping; Kimura, Shinji

IEICE Transactions on Fundamentals of Electronics, Communications and Computer SciencesE99A(12)p.2375 - 23872016年12月-2016年12月 

DOIScopus

詳細

ISSN:09168508

概要:Copyright © 2016 The Institute of Electronics, Information and Communication Engineers.In this paper, we present a low-power system for the de- quantization and inverse transform of HEVC. Firstly, we present a low-delay circuit to process the coded results of the syntax elements, and then reduce the number of multipliers from 16 to 4 for the de-quantization process of each 4x4 block. Secondly, we give two efficient data mapping schemes for the memory between de-quantization and inverse transform, and the memory for transpose. Thirdly, the zero information is utilized through the whole system. For two memory parts, the write and read operation of zero blocks/ rows/ coefficients can all be skipped to save the power consumption. The results show that up to 86% power consumption can be saved for the memory part under the configuration of "Random-access" and common QPs. For the logical part, the proposed architecture for de-quantization can reduce 77% area consumption. Overall, our system can support real-time coding for 8K x 4K 120 fps video sequences and the normalized area consumption can be reduced by 68% compared with the latest work.

CNN-MERP: An FPGA-based memory-efficient reconfigurable processor for forward and backward propagation of convolutional neural networks

Han, Xushen; Zhou, Dajiang; Wang, Shihao; Kimura, Shinji

Proceedings of the 34th IEEE International Conference on Computer Design, ICCD 2016p.320 - 3272016年11月-2016年11月 

DOIScopus

詳細

概要:© 2016 IEEE.Large-scale deep convolutional neural networks (CNNs) are widely used in machine learning applications. While CNNs involve huge complexity, VLSI (ASIC and FPGA) chips that deliver high-density integration of computational resources are regarded as a promising platform for CNN's implementation. At massive parallelism of computational units, however, the external memory bandwidth, which is constrained by the pin count of the VLSI chip, becomes the system bottleneck. Moreover, VLSI solutions are usually regarded as a lack of the flexibility to be reconfigured for the various parameters of CNNs. This paper presents CNN-MERP to address these issues. CNN-MERP incorporates an efficient memory hierarchy that significantly reduces the bandwidth requirements from multiple optimizations including on/off-chip data allocation, data flow optimization and data reuse. The proposed 2-level reconfigurability is utilized to enable fast and efficient reconfiguration, which is based on the control logic and the multiboot feature of FPGA. As a result, an external memory bandwidth requirement of 1.94MB/GFlop is achieved, which is 55% lower than prior arts. Under limited DRAM bandwidth, a system throughput of 1244GFlop/s is achieved at the Vertex UltraScale platform, which is 5.48 times higher than the state-of-the-art FPGA implementations.

Power-efficient and slew-aware three dimensional gated clock tree synthesis

Lin, Minghao; Sun, Heming; Kimura, Shinji

2016 IFIP/IEEE International Conference on Very Large Scale Integration, VLSI-SoC 20162016年11月-2016年11月 

DOIScopus

詳細

概要:© 2016 IEEE.This paper presents a three dimensional (3D) gated clock tree synthesis (CTS) approach, which consists of two steps: 1) abstract tree topology generation; and 2) 3D gated and buffered clock routing. 3D Pair Matching (3D-PM) algorithm is proposed to generate the initial tree topology and then the proposed TSV-minimization algorithm is applied to generate TSV-aware tree topology. Based on TSV-aware tree topology, 3D gated and buffered clock tree routing is done using the proposed 3D Gated and Buffered Deferred-Merge Embedding (3D-GB-DME) algorithm. The slew constraint satisfaction is considered and the clock skew is minimized in our approach. Experimental results show that the proposed method achieves 29.11% power reduction compared with the state-of-the-art 2D work.

Optimization of area and power in multi-mode power gating scheme for static memory elements

Su, Xing; Su, Xing; Kimura, Shinji

2016 IEEE Asia Pacific Conference on Circuits and Systems, APCCAS 2016p.214 - 2172017年01月-2017年01月 

DOIScopus

詳細

概要:© 2016 IEEE.This paper presents an optimization method of area and power for static memory elements by using multi-mode power gating (MMPG) scheme. A 2-transistor MMPG scheme replaces the usual 5-transistor one to effectively reduce on chip area overhead and leakage power, simultaneously combining trimming circuits (TC) to guarantee the safety of data retention. When applying the proposed approach into clean/dirty-cache (CD-cache), we can reduce area overhead and leakage power consumption. The simulation results show that the area overhead of SRAM with the proposed approach is reduced from 33.4% to 21.8% compared to that of SRAM with usual MMPG. On the other hand, leakage power is reduced by 12.35% compared to SRAM with usual MMPG and by 86.77% compared to SRAM without power gating scheme. Moreover, the ability of noise immunity of SRAM with proposed approach can also be improved.

Accelerating HEVC inter prediction with improved merge mode handling

Cheng, Zhengxue; Cheng, Zhengxue; Sun, Heming; Zhou, Dajiang; Kimura, Shinji

IEICE Transactions on Fundamentals of Electronics, Communications and Computer SciencesE100A(2)p.546 - 5542017年02月-2017年02月 

DOIScopus

詳細

ISSN:09168508

概要:© 2017 The Institute of Electronics, Information and Communication Engineers. High Efficiency Video Coding (HEVC/H.265) obtains 50% bit rate reduction than H.264/AVC standard with comparable quality at the cost of high computational complexity. Merge mode is one of the most important new features introduced in HEVC's inter prediction. Merge mode and traditional inter mode consume about 90% of the total encoding time. To address this high complexity, this paper utilizes the merge mode to accelerate inter prediction by four strategies. 1) A merge candidate decision is proposed by the sum of absolute transformed difference (SATD) cost. 2) An early merge termination is presented with more than 90% accuracy. 3) Due to the compensation effect of merge candidates, symmetric motion partition (SMP) mode is disabled for non-8×8 coding units (CUs). 4) A fast coding unit filtering strategy is proposed to reduce the number of CUs which need to be fine-processed. Experimental results demonstrate that our fast strategies can achieve 35.4%-58.7% time reduction with 0.68%-1.96% BD-rate increment in RA case. Compared with similar works, the proposed strategies are not only among the best performing in average-case complexity reduction, but also notably outperforming in the worst cases.

A 7-Die 3D Stacked 3840 × 2160@120 fps motion estimation processor

Zhang, Shuping; Zhou, Jinjia; Zhou, Dajiang; Kimura, Shinji; Goto, Satoshi

IEICE Transactions on ElectronicsE100C(3)p.223 - 2312017年03月-2017年03月 

DOIScopus

詳細

ISSN:09168524

概要:© 2017 The Institute of Electronics, Information and Communication Engineers. In this paper, a hamburger architecture with a 3D stacked reconfigurable memory is proposed for a 4K motion estimation (ME) processor. By positioning the memory dies on both the top and bottom sides of the processor die, the proposed hamburger architecture can reduce the usage of the signal through-silicon via (TSV), and balance the power delivery network and the clock tree of the entire system. It results in 1/3 reduction of the usage of signal TSVs. Moreover, a stacked reconfigurable memory architecture is proposed to reduce the fabrication complexity and further reduce the number of signal TSVs by more than 1/2. The reduction of signal TSVs in the entire design is 71.24%. Finally, we address unique issues that occur in electronic design automation (EDA) tools during 3D largescale integration (LSI) designs. As a result, a 4K ME processor with 7-die stacking 3D system-on-chip design is implemented. The proposed design can support real time 3840 × 2160 @ 120 fps encoding at 130 MHz with less than 540 mW.

Fast Algorithm and VLSI Architecture of Rate Distortion Optimization in H.265/HEVC

Sun, Heming; Zhou, Dajiang; Hu, Landan; Kimura, Shinji; Goto, Satoshi

IEEE Transactions on Multimedia19(11)p.2375 - 23902017年11月-2017年11月 

DOIScopus

詳細

ISSN:15209210

概要:© 1999-2012 IEEE. In H.265/high efficiency video coding (HEVC) encoding, rate distortion optimization (RDO) is an important cost function for mode decision and coding structure decision. Despite being near-optimum in terms of coding efficiency, RDO suffers from a high complexity. To address this problem, this paper presents a fast RDO algorithm and its very large scale implementation (VLSI) for both intra-and inter-frame coding. The proposed algorithm employs a quantization-free framework that significantly reduces the complexity for rate and distortion optimization. Meanwhile, it maintains a low degradation of coding efficiency by taking the syntax element organization and probability model of HEVC into consideration. The algorithm is also designed with hardware architecture in mind to support an efficient VLSI implementation. When implemented in the HEVC test model, the proposed algorithm achieves 62% RDO time reduction with 1.85% coding efficiency loss for the 'all-intra' configuration. The hardware implementation achieves 1.6 × higher normalized throughput relative to previous works, and it can support a throughput of 8k@30fps (for four fine-processed modes per prediction unit) with 256 k logic gates when working at 200 MHz.

Effective write-reduction method for MLC non-volatile memory

Tawada, Masashi; Kimura, Shinji; Yanagisawa, Masao; Togawa, Nozomu

Proceedings - IEEE International Symposium on Circuits and Systems2017年09月-2017年09月 

DOIScopus

詳細

ISSN:02714310

概要:© 2017 IEEE. Recently, the requirement for non-volatile memory on embedded systems has increased because they can be applied with normally-off and power gating technologies to. However, they have a lower endurance than volatile memories. When data is encoded as a write-reduction code appropriately, the endurance of non-volatile memory can be enhanced by writing the encoded data into the memory. We propose a highly effective write-reduction method for a multi-level cell (MLC) non-volatile memory focusing on the write-reduction code (WRC) as the optimal bit-write reduction method. The WRC can be applied only to single-level cell non-volatile memory. The proposed method generates a cell-write reduction code based on the WRC; the cell has multiple bits as the holdable data. Our proposed method achieves a cell-write reduction by 31.6% compared to the conventional method.

A low-cost approximate 32-point transform architecture

Sun, Heming; Cheng, Zhengxue; Gharehbaghi, Amir Masoud; Kimura, Shinji; Fujita, Masahiro

Proceedings - IEEE International Symposium on Circuits and Systems2017年09月-2017年09月 

DOIScopus

詳細

ISSN:02714310

概要:© 2017 IEEE. This paper presents an area-efficient approximate method for 32-point transform which is one of the most area-consuming parts in High Efficiency Video Coding (HEVC) applications. Compared to prior literatures, this work reduces the hardware cost of transform by 1) eliminating all the arithmetic operations of 6 least significant bits (LSB), 2) presenting a low-delay method for generating carry propagation from the remaining 5 LSBs and 3) truncating the most significant bits (MSB) according to the position of component. In the implementation of a 32-point forward transform, the experimental results show that 27% area consumption can be saved and the coding efficiency loss aroused by the approximation is only 0.044% compared with the origin.

Distortion control and optimization for lossy embedded compression in video codec system

Guo, Li; Zhou, Dajiang; Kimura, Shinji; Goto, Satoshi

IEICE Transactions on Fundamentals of Electronics, Communications and Computer SciencesE100A(11)p.2416 - 24242017年11月-2017年11月 

DOIScopus

詳細

ISSN:09168508

概要:Copyright © 2017 The Institute of Electronics, Information and Communication Engineers. For mobile video codecs, the huge energy dissipation for external memory traffic is a critical challenge under the battery power constraint. Lossy embedded compression (EC), as a solution to this challenge, is considered in this paper. While previous studies in lossy EC mostly focused on algorithm optimization to reduce distortion, this work, to the best of our knowledge, is the first one that addresses the distortion control. Firstly, from both theoretical analysis and experiments for distortion optimization, a conclusion is drawn that, at the frame level, allocating memory traffic evenly is a reliable approximation to the optimal solution to minimize quality loss. Then, to reduce the complexity of decoding twice, the distortion between two sequences is estimated by a linear function of that calculated within one sequence. Finally, on the basis of even allocation, the distortion control is proposed to determine the amount of memory traffic according to a given distortion limitation. With the adaptive target setting and estimating function updating in each group of pictures (GOP), the scene change in video stream is supported without adding a detector or retraining process. From experimental results, the proposed distortion control is able to accurately fix the quality loss to the target. Compared to the baseline of negative feedback on non-referred B frames, it achieves about twice memory traffic reduction.

Time-efficient and TSV-aware 3D gated clock tree synthesis based on self-tuning spectral clustering

Yang, Fan; Lin, Minghao; Sun, Heming; Kimura, Shinji

Midwest Symposium on Circuits and Systems2017-Augustp.1200 - 12032017年09月-2017年09月 

DOIScopus

詳細

ISSN:15483746

概要:© 2017 IEEE. 3D gated clock tree synthesis (CTS) mainly consists of three steps: 1) abstract clock topology generation; 2) layer embedding for minimal TSV allocation and 3) clock tree routing with gate and buffer insertion. In this paper, a self-tuning spectral clustering based nearest-neighbor selection (SSC-NNS) algorithm with parallel structure is proposed to achieve high time efficiency in clock tree topology generation, with reduced runtime. In addition, a postorder traversal based layer embedding (PTLE) strategy is adopted for determining the embedding layer of internal nodes with minimal TSVges. Experimental results show that the proposed method achieves 32% and 82% runtime reduction on ISPD2009 and IBM benchmarks respectively compared with the state-of-the-art 3D work. Besides, the TSV count is also reduced by 46% on ISPD2009 benchmarks.

A Variable-Clock-Cycle-Path VLSI Design of Binary Arithmetic Decoder for H.265/HEVC

Zhou, Jinjia; Zhou, Dajiang; Zhang, Shuping; Kimura, Shinji; Goto, Satoshi

IEEE Transactions on Circuits and Systems for Video Technology28(2)p.556 - 5602018年02月-2018年02月 

DOIScopus

詳細

ISSN:10518215

概要:© 2016 IEEE. The next-generation 8K ultra-high-definition video format involves an extremely high bit rate, which imposes a high throughput requirement on the entropy decoder component of a video decoder. Context adaptive binary arithmetic coding (CABAC) is the entropy coding tool in the latest video coding standards including H.265/High Efficiency Video Coding and H.264/Advanced Video Coding. Due to critical data dependencies at the algorithm level, a CABAC decoder is difficult to be accelerated by simply leveraging parallelism and pipelining. This letter presents a new very-large-scale integration arithmetic decoder, which is the most critical bottleneck in CABAC decoding. Our design features a variable-clock-cycle-path architecture that exploits the differences in critical path delay and in probability of occurrence between various types of binary symbols (bins). The proposed design also incorporates a novel data-forwarding technique (rLPS forwarding) and a fast path-selection technique (coarse bin type decision), and is enhanced with the capability of processing additional bypass bins. As a result, its maximum throughput achieves 1010 Mbins/s in 90-nm CMOS, when decoding 0.96 bin per clock cycle at a maximum clock rate of 1053 MHz, which outperforms previous works by 19.1%.

書籍等出版物

システムLSI設計工学

藤田昌宏、梶原誠司、木村晋二、高田宏章、浜口清治、冨山宏之

オーム社2006年 10月-

詳細

ISBN:4-274-20297-6

外部研究資金

科学研究費採択状況

研究種別:基盤研究(B)

大域的超低エネルギー化を実現するLSI抽象モデルと上位下位統合化LSI設計技術

2013年-2015年

研究分野:計算機システム

配分額:¥18200000

研究種別:基盤研究(B)

超微細加工技術にも適応する抽象LSIモデルの構築と高位・物理 統合化LSI合成技術

2010年-2012年

研究分野:計算機システム・ネットワーク

配分額:¥18330000

研究種別:

類似度を考慮した等価論理を用いたハードウェアの高位設計検証手法の研究

配分額:¥3630000

研究種別:

プログラムを仕様とするハードウェアの設計検証手法

配分額:¥2900000

研究種別:

環境適応型のハードウェアとソフトウェアの構成手法に関する研究

配分額:¥3800000

研究種別:

コンテンツに適応する発展的ソフトウェアの構成法

配分額:¥1300000

研究種別:

コンテンフに適応する発展的ソフトウェアの構成法

配分額:¥1800000

研究種別:

論理回路の合成手法および最適化手法の高速化に関する研究

配分額:¥1000000

研究種別:

内部構造が可変な汎用コプロセッサシステムおよびその最適化コンパイラに関する研究

配分額:¥5800000

研究種別:

論理回路の縮約モデルの自動抽出とそれを用いた大規模論理回路の設計検証に関する研究

配分額:¥900000

研究種別:

パイプライン処理の形式的並列設計検証手法に関する研究

配分額:¥1000000

研究種別:

超並列アルゴリズム設計のためのデータ構造と計算モデルに関する研究

配分額:¥1000000

研究種別:

順序機械の設計検証のための暗黙状態数え上げの並列化に関する研究

配分額:¥900000

研究種別:

複数個のプロセッサを用いたディジタル制御器の構成と同期制御に関する研究

配分額:¥2300000

研究種別:

集合の演算とそのロバスト制御系のCADへの応用に関する研究

配分額:¥700000

研究種別:

マイクロプロセッサ制御精密交流サーボ系の計算機援用設計(CAD)手法に関する研究

配分額:¥5000000

研究種別:

超大規模LSI設計・実装技術の研究

配分額:¥39910000

研究種別:

再構成アクセラレータにおけるデータ形式最適化と精度保証

2018年-0月-2021年-0月

配分額:¥17550000

研究資金の受入れ状況

実施形態:受託教育

フレキシブルIPの形式的検証技術の研究2002年-

実施形態:受託教育

IPベースシステムLSI設計技術の研究2001年-

実施形態:共同研究

高性能プロセッサの設計技術に関する研究2002年-

学内研究制度

特定課題研究

論理制御値を用いたVLSIの電力・遅延最適化

2009年度

研究成果概要:論理制御値を用いたVLSIの電力・遅延の最適化というテーマで、VLSI ゲートレベル回路の最適化の研究を行った。まず遅延の最適化に関しては、パイプライン回路の自動生成の研究を行い、FPGA 向けのパイプライン合成手法の提案を行い、...論理制御値を用いたVLSIの電力・遅延の最適化というテーマで、VLSI ゲートレベル回路の最適化の研究を行った。まず遅延の最適化に関しては、パイプライン回路の自動生成の研究を行い、FPGA 向けのパイプライン合成手法の提案を行い、加算回路や乗算回路で2段のパイプラインで1.8倍のクロック周波数を得られるという結果を得た。アルゴリズムおよび実験結果は、情報処理学会SLDM研究会およびASP_DACの Student Forum で口頭発表を行った。つぎに、電力の最適化に関しては、論理素子の制御値でパワーを停止する細粒度のパワーゲーティング手法を提案し、制御信号の制御値確率とそれで停止できるゲート数の積を評価し、評価値の大きい順にパワーゲーティングを挿入するアルゴリズムで、平均15%程度の電力削減効果を得た。研究成果は電子情報通信学会の英文論文誌に掲載された。さらに、順序回路のレジスタのクロックを停止して動的電力を削減するクロックゲーティング手法の最適共有の研究を行い、カウンタや ISCAS 89 ベンチマーク回路に適用して効果を確認した。研究成果は、2010年5月の情報処理学会SLDM研究会で口頭発表の予定である。

システムオンシリコンのためのランタイム解析・最適化手法の研究

2011年度共同研究者:戸川望

研究成果概要:システムオンシリコンのためのランタイム解析・最適化の研究として、アサーションチェッカを用いたランタイムエラー検出法と得られたエラーの暗号化と安全な記憶方式や耐タンパ性に関する基礎的な研究を行った。まずアサーションチェッカーについて...システムオンシリコンのためのランタイム解析・最適化の研究として、アサーションチェッカを用いたランタイムエラー検出法と得られたエラーの暗号化と安全な記憶方式や耐タンパ性に関する基礎的な研究を行った。まずアサーションチェッカーについては、入力記憶オートマトンを用いる手法に基づき、入力記憶部を共有することでFPGA実現によりハードウェア資源が削減できることを示した。つぎに、ランタイム解析で必要なアサーション集合に関する十分性について、回路の一部を変更したミュータントベースのアサーションの十分性判定に基づく手法の調査と検討を行った。ミュータントベース手法では、加えた変更がアサーションにより検出できるかでアサーションの十分性を判断するが、どのような変更を加えるかはランタイム解析の種類に大きく依存する。とくに遅延エラーについては、記述手法を含めて議論する必要があることがわかった。エラー情報の圧縮については、圧縮能力に優れたLFSRベース手法を検討した。ランタイム最適化については、FPGA の動的再構成の機構を用いる手法の検討を行った。とくに、内臓プロセッサの命令実行中に、その命令に対応する演算器を動的に構築し、ループに対応する命令列を検出して、データを動的に構築した演算系に通す手法の検討およびプロトタイプの構築を行った。これはハードウェアの高位合成をアセンブラレベルから動的に行う手法であるが、ループの検出部およびデータを新たに構築した演算系に流す手法、およびFPGA の動的再構成を高速に行う手法を検討する必要がある。また、演算系の最適化も今後の課題であり、メモリを用いた算術演算の効率化および低電力化や複数の加算を連続して行うマルチオペランド加算の最適化などの最適化の研究を行った。エラー情報の暗号化および情報漏洩の耐タンパ性についても検討を行い、スキャンパスがある場合の耐タンパ性について議論を行った。

システムオンシリコンにおけるランタイム解析・最適化に関する研究

2012年度

研究成果概要:システムオンシリコンにおけるランタイム解析・最適化に関する研究というテーマで、細粒度の動的なクロックゲーティングとパワーゲーティング、Single Event Upset (SEU) エラーに対するFPGA上での回路の動的書き換え...システムオンシリコンにおけるランタイム解析・最適化に関する研究というテーマで、細粒度の動的なクロックゲーティングとパワーゲーティング、Single Event Upset (SEU) エラーに対するFPGA上での回路の動的書き換えを用いた対処手法、メモリベース演算、キャッシュ構成の最適化の研究を行った。細粒度の動的なクロックゲーティングとパワーゲーティングについては、回路内部の信号を用いて動的にクロックや電源の ON/OFF を制御することで、ランタイムに電力を制御する手法の検討を行った。マルチステージクロックゲーティングや、疑似パワーゲーティング法で電力を10%~20%程度削減できることが分かった。FPGA上での回路の動的書き換えについては、SEU エラーにより FPGA の構成ビットが変化し、回路の機能が正しくなくなる現象に対し、3重系よりも安全な4重系の構造を提案するとともに、エラー発生時にエラーを同定してエラーモジュールの動的再書込みによる機能の復帰を行う手法の提案を行った。実際に提案手法を Xilinx FPGA の動的部分書換え機能を用いて実現し、安全性と面積オーバーヘッドの評価を行った。メモリベース演算については、メモリ部の書換え可能性がランタイムの最適化に有効であるという判断から、基礎的な算術演算および CORDIC 法による三角関数や乗算・除算の実現手法の研究を行った。これは、演算器の入力をアドレスとして、計算結果をメモリに入れることで算術演算を実現するものである。なお、アドレスに対してメモリのサイズが指数的であるので、入力をいくつかに分割してメモリで実現し、メモリ出力を演算器に入れるなどの手法が必要であった。また、ハードウェア内部の演算器の結果をキャッシュ的にメモリに入れることで再計算を行わずにメモリアクセスで済ませる手法の検討を行った。これらのメモリを用いた演算手法は、論理ゲートの出力の変化による動的電力を削減する効果があり、実行時の電力最適化に有効であることがわかった。さらに、次世代不揮発メモリを用いたキャッシュメモリの電力の最適化についても検討を行い、L1 キャッシュの一部とL2 キャッシュを不揮発化することで、リーク電力の大きな削減が得られることがわかった。

次世代不揮発素子の活用に向けたハードウェア設計技術

2013年度

研究成果概要: 近年の携帯端末および無線センサなどのアンビエントデバイスの発達・普及に伴い、これらの稼働時間を延ばすため、アイドル状態での電源停止制御が重要になってきた。この時、電源復帰後の動作のために内部状態を保存することが必要で、電源停止で... 近年の携帯端末および無線センサなどのアンビエントデバイスの発達・普及に伴い、これらの稼働時間を延ばすため、アイドル状態での電源停止制御が重要になってきた。この時、電源復帰後の動作のために内部状態を保存することが必要で、電源停止でも記憶が保持できる次世代不揮発素子が注目されている。 MTJ (Magnetic Tunnel Junction) に基づく次世代不揮発素子は、アクセスは通常の CMOS SRAM と同等の速度で、集積度は DRAM と同様に高い。しかし、値の書込みにおいては、MTJ 内部の磁場の向きを制御するため、通常の SRAM と比較して10倍程度の書込みエネルギーを必要とし、その削減が急務である。 そこで本研究では、書込みエネルギーの削減を含む次世代不揮発素子の活用のための設計技術の研究を行った。メモリをROMとして書き換えずに計算結果の記憶に用いる手法の他、書込みそのものを減らす手法を研究した。MTJの書換えは同じ値を書込む場合でも違う値の書換えと同様大きなエネルギーを必要とするので、今記憶している値と書込みたい値が同じ場合に、書込みを停止することが基本となる。ここでは、それと組み合わせてさらに書込み回数を削減する手法を示した。 まず、順序回路の状態遷移解析に基づき、書換える必要のないレジスタの探索手法を提案し、書換えを停止する条件から停止制御回路の自動生成を行い、電力削減を確認した。 第二に、値の変化にあたって、変更するビット数を削減する手法の研究を行った。新しい値を元の値と新しい値との差分で表すことで、書き換えるビット数を削減する手法や、最大変更ビット数を制限した符号の研究などを行った。 第三に入力をアドレス、計算結果をメモリの内容としたメモリベース演算の研究を行った。基本的には入力数に対して指数的な容量を必要とするので、乗算等に対して必要に応じて演算器と組み合わせてメモリ量を削減する手法を検討した。 最後に、論理素子の制御値の伝播を考慮した細粒度の実行時パワーゲーティングの研究を行った。論理素子の制御値は一つの入力だけで出力を決定できる値である。ある入力が制御値をとると、他の入力の値は不要となり、それを計算する部分の電源を停止できる。この制御値の直列接続での伝播を用いてより多くの素子の電力停止を行う手法を示した。

単一命令計算機を用いたディジタルデータの意味保存手法の研究

2016年度

研究成果概要:ディジタルデータは0と1の並びであり、それだけでは意味を持たず、その意味解釈方法を同時に記憶する必要がある。これまで、文字データについては、1文字のデータのビット数とビットパターンに対応するフォントの最小データとそれへの変換方法を...ディジタルデータは0と1の並びであり、それだけでは意味を持たず、その意味解釈方法を同時に記憶する必要がある。これまで、文字データについては、1文字のデータのビット数とビットパターンに対応するフォントの最小データとそれへの変換方法を添付し、読めるデータに変換する手法を提案してきた。今回、画像圧縮されたデータの意味保存を見えるデータに戻すことと定義し、プログラムの意味記述の研究に取り組み、単一命令計算機の subleq の命令解釈機構の記述と subleq のアセンブラでプログラムの保存を行う手法と、その場合の記述量の最適化について研究を行った。subleq は命令が一種類しかなく、意味記述が簡単で、解釈機構の模擬や再構築が容易である。

プログラムを仕様とするハードウェアの設計検証手法

2002年度

研究成果概要: ハードウェアの設計の高位化に対応し、プログラムを仕様として用い、ハードウェアの設計を形式的に検証する手法に関する研究を行った。まず、現状の検証手法の調査を論文誌および国際会議、研究会などに対して行った。その結果として、二分決定... ハードウェアの設計の高位化に対応し、プログラムを仕様として用い、ハードウェアの設計を形式的に検証する手法に関する研究を行った。まず、現状の検証手法の調査を論文誌および国際会議、研究会などに対して行った。その結果として、二分決定グラフを用いた厳密な順序回路の検証手法、SAT に基づく近似的な検証手法、無評価関数に基づく等価性判定論理の 3 つが基本的な手法であることと、これらを組み合わせたハードウェアの検証手法の研究が盛んに行われていることがわかった。ただ、プログラムを仕様とするものについては、プログラムの直接実行による、シミュレーションの高速化の側面が主に強調され、形式的な手法の研究開発が不十分であることも明らかとなった。 そこで、これらのハードウェアの手法の中で、大規模な回路に適用可能と考えられる無評価関数に基づく等価性判定論理を適用した手法の開発を目指し、そのための基礎的な研究を行った。無評価関数に基づく等価性判定論理では、記号的な式の等価性を判断することができるので、プログラムの代入をそのまま等価性判定の式に変換することで、二つのプログラムの等価性を式の等価性として判定することができる。具体的には、C 言語のプログラムを対象として、それを等価性判定論理の式へ変換する規則を求めるとともに、多バイトの演算問題に適用し、手法の有効性と適用限界を求めた。実際のプロセッサなどで用いられている、桁上げ選択加算を含むような演算では、64 ビット程度の加算の等価性の検証が時間的に不可能となることがわかり、等価性判定論理自体の性質を含めて、今後のさらなる研究が必要である。

VLSIの論理素子の制御値に基づく電力・遅延最適化

2008年度

研究成果概要:VLSIの性能向上および電力消費を削減する目的に対し、論理素子の制御値を用いる手法を提案し、基礎的な実験を行った。まず性能向上に対しては、AND ゲートの制御値が0であることを用いて、論理回路の最長経路を通る0への変化をANDゲー...VLSIの性能向上および電力消費を削減する目的に対し、論理素子の制御値を用いる手法を提案し、基礎的な実験を行った。まず性能向上に対しては、AND ゲートの制御値が0であることを用いて、論理回路の最長経路を通る0への変化をANDゲートで先に通すこととし、そのための制御条件を生成する方法を導いた。また1への変化に対しては OR ゲートで先に通すこととした。0への変化と1への変化を分けてスキップ(バイパス)するので 01-skip 手法と呼んでいる。本手法を簡単な回路に適用し、期待通りの高速化が得られることを確認した。ツール化と種々の回路への適用が今後の課題である。また制御回路の共有による付加回路の削減も今後の課題である。一方、電力消費の削減に関しては、AND ゲートの制御値が 0 であることを用い、一方が 0 であるときに他方の入力の値が不定でも出力に影響を与えないという性質を利用し、他方の入力を計算するブロックの電力を停止する手法を提案し、簡単な回路で効果を確認した。本手法は、プロセスの微細化に伴い大幅な増加が見られるリーク電力の削減に有効であると同時に、動的な電力の削減にも有効であることが確認されている。ツール化および種々の回路への適用および実LSI試作を用いた評価が今後の課題である。

現在担当している科目

科目名開講学部・研究科開講年度学期
電子物理システム概論基幹理工学部2019春学期
電子物理システム概論 【前年度成績S評価者用】基幹理工学部2019春学期
卒業論文A基幹理工学部2019春学期
卒業論文A基幹理工学部2019秋学期
卒業論文A  【前年度成績S評価者用】基幹理工学部2019春学期
卒業論文B基幹理工学部2019秋学期
卒業論文B基幹理工学部2019春学期
卒業論文B  【前年度成績S評価者用】基幹理工学部2019秋学期
LSIアーキテクチャ基幹理工学部2019春クォーター
ディジタル回路大学院情報生産システム研究科2019秋学期
システムLSIアーキテクチャ大学院情報生産システム研究科2019春学期
高位検証技術研究(修士) 春大学院情報生産システム研究科2019春学期
高位検証技術研究(修士) 秋大学院情報生産システム研究科2019秋学期
高位検証技術特論大学院情報生産システム研究科2019秋学期
テスト容易化設計大学院情報生産システム研究科2019秋学期
高位検証技術演習A大学院情報生産システム研究科2019秋学期
高位検証技術演習B大学院情報生産システム研究科2019春学期
高位検証技術演習C大学院情報生産システム研究科2019春学期
高位検証技術演習D大学院情報生産システム研究科2019秋学期
高位検証技術研究(博士) 春大学院情報生産システム研究科2019春学期
高位検証技術研究(博士) 秋大学院情報生産システム研究科2019秋学期
修士論文(電子)大学院基幹理工学研究科2019通年
高位検証技術研究大学院基幹理工学研究科2019通年
高位検証技術演習A大学院基幹理工学研究科2019春学期
高位検証技術演習B大学院基幹理工学研究科2019秋学期
高位検証技術演習C大学院基幹理工学研究科2019春学期
高位検証技術演習D大学院基幹理工学研究科2019秋学期
高位検証技術研究大学院基幹理工学研究科2019通年

教育内容・方法の工夫

テスト容易化設計

詳細

概要:LSIのテスト技術について、アルゴリズムとアーキテクチャについてパワーポイントを用いた講義を行っている。また、最低でも2回に1度は単元の確認の問題を出し、自分で考える力をつけさせている。

システムLSIアーキテクチャ

詳細

概要:パワーポイントを用い、システムLSIの設計に関する事項の最先端の知識を伝えている。基本的な事項と同時に、最新の学術論文に掲載された事項を含めるように注意している。また、実際の設計を中心としたシステムLSI設計との協調で、単なる知識に終わらない技術の伝達を行っている。

ディジタル回路

詳細

概要:大学院における学部レベルの基礎科目であるので、参考書を指定すると同時に、パワーポイントを用いた学生訴える力の強い講義を行っている。また、それと同時に、3 回に1回の割合で、それまでの単元のまとめとなる問題を配布している。

作成した教科書・教材・参考書

テスト容易化設計ハンドアウト

詳細

概要:テスト容易化設計用の講義資料と問題集

システムLSIアーキテクチャハンドアウト

詳細

概要:システムLSIアーキテクチャ用の講義資料と問題集

ディジタル設計ハンドアウト

詳細

概要:ディジタル設計の講義用の講義資料と問題集