氏名

キムラ ケイジ

木村 啓二

職名

教授 (https://researchmap.jp/read0165789/)

所属

(基幹理工学部)

連絡先

メールアドレス

メールアドレス
kimura@apal.cs.waseda.ac.jp

住所・電話番号・fax番号

住所
〒169-8555新宿区 大久保3-4-1 
電話番号
03-5286-3338
fax番号
03-3232-3594

URL等

WebページURL

http://www.apal.cs.waseda.ac.jp/

研究者番号
50318771

本属以外の学内所属

兼担

理工学術院(大学院基幹理工学研究科)

学内研究所等

アドバンストマルチコアプロセッサ研究所

研究員 2009年-2010年

アドバンストチップマルチプロセッサ研究所

研究員 2004年-2008年

ITバイオ・マイニング研究所

研究所員 2010年-2013年

アドバンストマルチコアプロセッサ研究所

研究所員 2010年-2014年

次世代蓄電エネルギー連携研究所

研究所員 2012年-2014年

低消費電力光インターコネクション研究所

研究所員 2015年-

理工学術院総合研究所(理工学研究所)

兼任研究員 2018年-

アドバンストマルチコアプロセッサ研究所

研究所員 2014年-2019年

アドバンストマルチコアプロセッサ研究所

研究所員 2019年-

学歴・学位

学歴

-1996年 早稲田大学 理工学部 電気工学科

学位

博士(工学) 課程 早稲田大学 計算機システム

経歴

1999年-2002年早稲田大学理工学部電気電子情報工学科 助手
2002年-2004年早稲田大学理工学総合研究センター 客員講師(専任扱い)
2004年-2005年早稲田大学理工学部コンピュータ・ネットワーク工学科 専任講師
2005年-2012年早稲田大学理工学部コンピュータ・ネットワーク工学科 助教授
2012年-早稲田大学理工学術院 情報理工学科 教授

所属学協会

情報処理学会

電子情報通信学会

IEEE Computer Society

ACM

委員歴・役員歴(学外)

2014年-The 28th IEEE International Parallel & Distributed Processing Symposium (IPDPS), Program Committee
2009年-2013年XXVII--XXXII IEEE International Conference on Computer Design (ICCD ), Program Committee (Computer System Design and Application Track)
2011年-The 17th IEEE International Conference on Parallel and Distributed Systems (ICPADS ), Program Committee (Multicore Computing and Parallel / Distributed Architecture)
2011年-2014年The 24--27th International Workshop on Languages and Compilers for Parallel Computing (LCPC ), Program Committee, Program Chair (2012)
2011年-Advanced Parallel Processing Technology Symposium (APPT ), Program Committee
2010年-IEEE International Symposium on Workload Characterization (IISWC-2010), Program Committee
2010年-22nd International Symposium on Computer Architecture and High Performance Computing (SBAC PAD ), Program Committee (System Software Track)
2009年-The 38th International Conference on Parallel Processing (ICPP-), Program Committee (Programming Models, Languages and Compilers)
IEEESymposiumonLow-PowerandHigh-SpeedChips(COOLChipsVIII,XII--XVII),ProgramCommittee
IEEESymposiumonLow-PowerandHigh-SpeedChips(COOLChipsIX--XI),ProgramCommitteeViceChair
Theth International Symposium on High-Performance Computer Architecture (HPCA-15), Publicity Co-Chairs
2006年-SACSIS , 2008--2013 - 先進的計算基盤システムシンポジウム, プログラム委員
2006年-2008年ComSys - コンピュータシステムシンポジウム, プログラム委員
2007年-SACSIS 先進的計算基盤システムシンポジウム, プログラム副委員長
2007年-情報処理学会 DAシンポジウム, 大学幹事
2005年-2009年03月情報処理学会論文誌 コンピューティングシステム ACS, 論文誌編集委員会, , 2013年4月-
2005年04月-2009年03月情報処理学会 システムLSI設計技術研究会(SLDM) 運営委員,
2005年04月-2009年03月情報処理学会 学会誌編集委員 SWG,
2004年-SACSIS 先進的計算基盤システムシンポジウム, 会計委員長・プログラム委員, 2004年
2003年-2006年並列/分散/協調処理に関するサマーワークショップ(SWoPP), 実行委員,
2001年04月-2005年03月情報処理学会 学会誌編集委員 BWG, (最終年度主査)
2010年04月-2014年03月情報処理学会 計算機アーキテクチャ研究会 幹事,
2008年04月-2010年03月情報処理学会 計算機アーキテクチャ研究会 運営委員,
2010年04月-2013年03月情報処理学会 組込システム研究会 運営委員,
2001年04月-2005年03月情報処理学会 システムソフトウェアとオペレーティング・システム研究会運営委員, , 2006年4月〜2010年3月

研究分野

キーワード

並列計算機、並列化コンパイラ、計算機科学

研究テーマ履歴

1998年-2004年マルチグレイン並列化コンパイラ協調チップマルチプロセッサ

研究テーマのキーワード:マルチプロセッサアーキテクチャ、並列化コンパイラ

マルチグレイン並列処理用シングルチップマルチプロセッサ

個人研究

論文

低消費電力コンピューティングを実現するマルチコア技術

木村啓二, 笠原博徳

電子情報通信学会誌97(2)p.133 - 1392014年02月-

OSCAR Compiler Controlled Multicore Power Reduction on Android Platform

Hideo Yamamoto, Tomohiro Hirano, Kohei Muto, Hiroki Mikami, Takashi Goto, Dominic Hillenbrand, Moriyuki Takamura, Keiji Kimura, and Hironori Kawahara

The 26th International Workshop on Languages and Compilers for Parallel Computing,(LCPC2013)2013年09月-

Reconciling Application Power Control and Operating Systems for Optimal Power and Performance

Dominic Hillenbrand, Yuuki Furuyama, Akihiro Hayashi, Hiroki Mikami, Keiji Kimura and Hironori Kasahara

8th International Workshop on Reconfigurable Communication-centric Systems-on-Chip, ReCoSoC (ReCoSoC2013)2013年07月-

Automatic Parallelization of Hand Written Automotive Engine Control Codes Using OSCAR Compiler

Dan Umeda, Yohei Kanehagi, Hiroki Mikami, Akihiro Hayashi, Keiji Kimura, Hironori Kasahara

17th Workshop on Compilers for Parallel Computing (CPC2013)2013年07月-

OSAR API v2.1: Extensions for an Advanced Accelerator Control Scheme to a Low-Power Multicore API

Keiji Kimura, Cecilia Gonzales-Alvarez, Akihiro Hayashi, Hiroki Mikami, Mamoru Shimaoka, Jun Shirako, Hironori Kasahara

17th Workshop on Compilers for Parallel Computing (CPC2013)2013年07月-

Automatic Parallelization, Performance Predictability and Power Control for Mobile-Applications

Dominic Hillenbrand, Akihiro Hayashi, Hideo Yamamoto, Keiji Kimura, Hironori Kasahara

COOL Chips XVI, IEEE Symposium on Low Power and High-Speed Chips2013年04月-

Parallelization of Automotive Engine Control Software On Embedded Multi-core Processor Using OSCAR Compiler

Yohei Kanehagi, Dan Umeda, Akihiro Hayashi, Keiji Kimura, Hironori Kasahara

COOL Chips XVI, IEEE Symposium on Low Power and High-Speed Chips2013年04月-

Automatic Design Exploration Framework for Multicores with Reconfigurable Accelerators

Cecilia Gonzalez-Alvarez, Haruku Ishikawa, Akihiro Hayashi, Daniel Jimenez-Gonzalez, Carlos Alvarez, Keiji Kimura, Hironori Kasahara

th Workshop on Reconfigurable Computing (WRC) 2013, held in conjuction with HiPEAC conference 20132013年01月-

Enhancing the Performance of a Multiplayer Game by Using a Parallelizing Compiler

Yasir I Al-Dosary, Keiji Kimura, Hironori Kasahara, and Seinosuke Narita

17th International Conference on Computer Games: AI, Animation, Mobile, Educational & Serious Games2012年07月-

OSCAR Parallelizing Compiler and API for Real-time Low Power Heterogeneous Multicores

kihiro Hayashi, Mamoru Shimaoka, Hiroki Mikami, Masayoshi Mase, Yasutaka Wada, Jun Shirako, Keiji Kimura, and Hironori Kasahara

6th Workshop on Compilers for Parallel Computing(CPC2012)2012年01月-

ヘテロジニアスマルチコア向けソフトウェア開発フレームワーク及びAPI

林明宏, 和田康孝, 渡辺岳志, 関口威, 間瀬正啓, 白子準, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステム(ACS36)5(1)p.68 - 792011年11月-

A Parallelizing Compiler Cooperative Heterogeneous Multicore Processor Architecture

Yasutaka Wada, Akihiro Hayashi, Takeshi Masuura, Jun Shirako, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura, and Hironori Kasahara

Lecture Notes in Computer Science6760p.215 - 2332011年11月-

Evaluation of Power Consumption at Execution of Multiple Automatically Parallelized and Power Controlled Media Applications on the RP2 Low-power Multicore

Hiroki Mikami, Shumpei Kitaki, Masayoshi Mase, Akihiro Hayashi, Mamoru Shimaoka, Keiji Kimura, Masato Edahiro, and Hironori Kasahara

Proc. of The 23rd International Workshop on Languages and Compilers for Parallel Computing (LCPC2011)2011年09月-

Parallelizing Compiler Framework and API for Power Reduction and Software Productivity of Real-time Heterogeneous Multicores

A. Hayashi, Y. Wada, T. Watanabe, T. Sekiguchi, M. Mase, J. Shirako, K. Kimura, H. Kasahara

Lecture Notes in Computer Science6548p.184 - 1982011年02月-

A 45-nm37.3 GOPS/W Heterogeneous Multi-Core SOC with 16/32 Bit Instruction-Set General-Purpose Core

Osamu NISHII, Yoichi YUYAMA, Masayuki ITO, Yoshikazu KIYOSHIGE, usuke NITTA, Makoto ISHIKAWA, Tetsuya YAMADA, Junichi MIYAKOSHI, YasutakaWADA, Keiji KIMURA, Hironori KASAHARA, and Hideo MAEJIMA

IEICE TRANSACTIONS on ElectronicsE94-C(4)p.663 - 6692011年04月-

Parallelizing Compiler Framework and API for Power Reduction and Software Productivity of Real-time Heterogeneous Multicores

A. Hayashi, Y. Wada, T. Watanabe, T. Sekiguchi, M. Mase, J. Shirako, K. Kimura, H. Kasahara

Proc. of The 23rd International Workshop on Languages and Compilers for Parallel Computing (LCPC2010)2010年10月-

OSCAR API for Real-time Low-Power Multicores and Its Performance on Multicores and SMP Servers

Keiji Kimura, Masayoshi Mase, Hiroki Mikami, Takamichi Miyamoto, Jun Shirako and Hironori Kasahara

Lecture Notes in Computer Science5898p.188 - 2022010年-

Parallelizable C and Its Performance on Low Power High Performance Multicore Processors

Masayoshi Mase, Yuto Onozaki, Keiji Kimura, Hironori Kasahara

Proc. of 15th Workshop on Compilers for Parallel Computing (CPC 2010)2010年07月-

A 45nm 37.3GOPS/W Heterogeneous Multi-Core SoC

Y. Yuyama, M. Ito, Y. Kiyoshige, Y. Nitta, S. Matsui, O. Nishii, A.Hasegawa, M. Ishikawa, T. Yamada, J. Miyakoshi, K. Terada, T. Nojiri, M. Satoh, H. Mizuno, K. Uchiyama, Y. Wada, K. Kimura, H. Kasahara, H.Maejima

IEEE INTERNATIONAL SOLID-STATE CIRCUITS CONFERENCE (ISSCC 2010)2010年02月-

自動並列化のためのElement-Sensitiveポインタ解析

間瀬正啓, 村田雄太, 木村啓二, 笠原博徳

情報処理学会論文誌プログラミング(PRO)3(2)p.36 - 472010年03月-

OSCAR API for Real-time Low-Power Multicores and Its Performance on Multicores and SMP Servers

Keiji Kimura, Masayoshi Mase, Hiroki Mikami, Takamichi Miyamoto, Jun Shirako and Hironori Kasahara

Proc. of The 22nd International Workshop on Languages and Compilers for Parallel Computing (LCPC2009)2009年10月-

Green Multicore-SoC Software-Execution Framework with Timely-Power-Gating Scheme

Masafumi Onouchi, Keisuke Toyama, Toru Nojiri, Makoto Sato, Masayoshi Mase, Jun Shirako, Mikiko Sato, Masashi Takada, Masayuki Ito, Hiroyuki Mizuno, Mitaro Namiki, Keiji Kimura, Hironori Kasahara

Proc. of 2009 International Conference on Parallel Processingp.510 - 5172009年09月-

マルチコア上でのOSCAR APIを用いた並列化コンパイラによる低消費電力化手法

間瀬正啓, 中川亮, 大國直人, 白子準, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステム(ACS)2(3)p.96 - 1062009年09月-

マルチコアプロセッサ上での粗粒度タスク並列処理のためのコンパイラによるローカルメモリ管理手法

中野啓史, 桃園拓, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステム(ACS)2(2)p.63 - 742009年07月-

Performance of OSCAR Multigrain Parallelizing Compiler on Multicore Processors

Hiroki Mikami, Jun Shirako, Masayoshi Mase, Takamichi Miyamoto, Hirofumi Nakano, Fumiyo Takano, Akihiro Hayashi, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

Proc. of 14th Workshop on Compilers for Parallel Computing(CPC 2009)2009年01月-

Parallelization with Automatic Parallelizing Compiler Generating Consumer Electronics Multicore API

akamichi Miyamoto, Saori Asaka, Hiroki Mikami, Masayoshi Mase, Yasutaka Wada, Hirofumi Nakano, Keiji Kimura, Hironori Kasahara

Proc. of IEEE International Symposium on Advances in Parallel and Distributed Computing Techniques (APDCT-08)2008年12月-

情報家電用マルチコア並列化APIを生成する自動並列化コンパイラによる並列化の評価

宮本孝道, 浅香沙織, 見神広紀, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会論文誌 コンピューティングシステム(ACS)1(3)p.83 - 952008年12月-

Power Reduction Controll for Multicores in OSCAR Multigrain Parallelizing Compiler

Jun Shirako, Keiji Kimura, Hironori Kasahara

Proc. of International SoC Design Conference (ISOCC 2008)2008年11月-

ヘテロジニアスマルチコア上でのスタティックスケジューリングを用いた MP3エンコーダの並列化

和田康孝, 林明宏, 益浦健, 白子準, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステム1(1)p.105 - 1192008年06月-

Parallelizing Compiler Cooperative Heterogeneous Multicore

Yasutaka Wada, Akihiro Hayashi, Takeshi Masuura, Jun Shirako, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Proc. of Workshop on Software and Hardware Challenges of Manycore Platforms (SHCMP 2008)2008年06月-

An 8 CPU SoC with Independent Power-off Control of CPUs and Multicore Software Debug Function

Yutaka Yoshida, Masayuki Ito, Kiyoshi Hayase, Tomoichi Hayashi, Osamu Nishii, Toshihiro Hattori, Jun Sakiyama, Masashi Takada, Kunio Uchiyama, Jun Shirako, Masayoshi Mase, Keiji Kimura, Hironori Kasahara

Proc. of IEEE Cool Chips XI: Symposium on Low-Power and High-Speed Chips 20082008年04月-

Heterogeneous Multi-core Architecture that Enables 54x AAC-LC Stereo Encoding

Hiroaki Shikano, Masaki Ito, Takashi Todaka, Takanobu Tsunoda, Tomoyuki Kodama, Masafumi Onouchi, Kunio Uchiyama, Toshihiko Odaka, Tatsuya Kamei, Ei Nagahama, Manabu Kusaoke, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

IEEE Journal of Solid-State Circuits43(4)p.902 - 9102008年04月-

Power-Aware Compiler Controllable Chip Multiprocessor

Hiroaki Shikano, Jun Shirako, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

Hiroaki Shikano, Jun Shirako, Yasutaka Wada, Keiji Kimura, Hironori KasaharaE91-C(4)p.432 - 4392008年04月-

A 600MHz SoC with Compiler Power-off Control of 8 CPUs and 8 Onchip-RAMs

Masayuki Ito, Toshihiro Hattori, Yutaka Yoshida, Kiyoshi Hayase, Tomoichi Hayashi, Osamu Nishii, Yoshihiko Yasu, Atsushi Hasegawa, Masashi Takada, Masaki Ito, Hiroyuki Mizuno, Kunio Uchiyama, Toshihiko Odaka, Jun Shirako, Masayoshi Mase, Keiji Kimura, Hironori Kasahara

Proc. of International Solid State Circuits Conference (ISSCC2008)p.90 - 912008年02月-

Software-Cooperative Power-Efficient Heterogeneous Multi-Core for Media Processing

Hiroaki Shikano, Masaki Ito, Kunio Uchiyama, Toshihiko Odaka, Akihiro Hayashi, Takeshi Masuura, Masayoshi Mase, Jun Shirako, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

Proc. of 13th Asia and South Pacific Design Automation Conference (ASP-DAC 2008)p.736 - 7412008年01月-

Performance Evaluation of Compiler Controlled Power Saving Scheme

Jun Shirako, Munehiro Yoshida, Naoto Oshiyama, Yasutaka Wada, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Lecture Notes in Computer Science4759p.480 - 4932008年01月-

Heterogeneous Multiprocessor on a Chip Which Enables 54x AAC-LC Stereo Encoding

Masaki Ito, Takashi Todaka, Takanobu Tsunoda, Hiroshi Tanaka, Tomoyuki Kodama, Hiroaki Shikano, Masafumi Onouchi, Kunio Uchiyama, Toshihiko Odaka, Tatsuya Kamei, Ei Nagahama, Manabu Kusaoke, Yusuke Nitta, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

Proc. of 2007 Symposia on VLSI TEchnology and Circuits2007年06月-

MP3エンコーダを用いたOSCARヘテロジニアスチップマルチプロセッサの性能評価

鹿野裕明, 鈴木裕貴, 和田康孝, 白子準, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステムVol. 48, No. SIG8(ACS18),p.141 - 1522007年05月-

Compiler Control Power Saving Scheme for Multi Core Processors

Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Lecture Notes in Computer ScienceVol. 4339p.362 - 3762007年05月-

A 4320MIPS Four-Processor Core SMP/AMP with Individually Managed Clock Frequency for Low Power Consumption

Y. Yoshida, T. Kamei, K. Hayase, S. Shibahara, O. Nishii, T. Hattori, A. Hasegawa, M. Takada, N. Irie, K. Uchiyama, T. Odaka, K. Takada, K. Kimura, H. Kasahara

2007 IEEE International Solid-State Circuits Conference(ISSCC2007)p.100 - 1012007年02月-

マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法

白子準, 吉田宗弘, 押山直人, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステムVol. 47(ACS15)2006年-

Performance Evaluation of Compiler Controlled Power Saving Scheme

Jun Shirako, Munehiro Yoshida, Naoto Oshiyama, Yasutaka Wada, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura Hironori Kasahara

Proc. of 20th ACM International Conference on Supercomputing Workshop on Advanced Low Power Systems (ALPS2006)2006年07月-

Performance Evaluation of Heterogeneous Chip Multi-Processor with MP3 Audio Encoder

Hiroaki Shikano, Yuki Suzuki, Yasutaka Wada, Jun Shirako, Keiji Kimura, Hironori Kasahara

Proc. of IEEE Symposium on Low-Power and High-Speed Chips (COOL Chips IX)p.349 - 3632006年05月-

Parallelizing Compilation Scheme for Reduction of Power Consumption of Chip Multiprocessors

Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Proc. of 12th Workshop on Compilers for Parallel Computers (CPC 2006),2006年01月-

マルチコア化するマイクロプロセッサ

笠原博徳, 木村啓二

情報処理47(1)p.10 - 162006年01月-

マルチコアにおけるプログラミング

木村啓二, 笠原博徳

情報処理47(1)p.17 - 232006年01月-

Compiler Control Power Saving Scheme for Multi Core Processors

Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Proc. of The 18th International Workshop on Languages and Compilers for Parallel Computing (LCPC2005),2005年10月-

チップマルチプロセッサ上jでのMPEG2エンコードの並列処理

小高剛, 中野啓文, 木村啓二, 笠原博徳

情報処理学会論文誌46(9)p.2311 - 23252005年09月-

Performance of OSCAR Multigrain Parallelizing Compiler on SMP Servers

Kazuhisa Ishizaka, Takamichi Miyamoto, Jun Shirako, Motoki Obata, Keiji Kimura, Hironori Kasahara

Lecture Notes in Computer Science3602p.3192005年-

Multigrain Parallel Processing on Compiler Cooperative Chip Multiprocessor

Keiji Kimura, Yasutaka Wada, Hirofumi Nakano, Takeshi Kodaka, Jun Shirako, Kazuhisa Ishizaka, Hironori Kasahara

Proc. of 9th Workshop on Interaction between Compilers and Computer Architectures (INTERACT-9)p.11 - 202005年02月-

Performance of OSCAR Multigrain Parallelizing Compiler on SMP Servers

Kazuhisa Ishizaka, Takamichi Miyamoto, Jun Shirako, Keiji Kimura, Hironori Kasahara

Proc. of 17th International Workshop on Languages and Compilers for Parallel Computing (LCPC2004)2004年09月-

Multigrain Parallel Processing on Compiler Cooperative OSCAR Chip Multiprocessor Architecture 'Jointly Worked'

Keiji Kimura, Yasutaka Wada, Hirofumi Nakano, Takeshi Kodaka, Jun Shirako, Kazuhisa Ishizaka, Hironori Kasahara

The IEICE Transactions on Electronics, Special Issue on High-Performance and Low-Power System LSIs and Related TechnologiesE86-C(4)p.570 - 5792003年02月-

Static Coarse Grain Task Scheduling with Cache Optimization Using OpenMP

Hirofumi Nakano, Kazuhisa Ishizaka, Motoki Obata, Keiji Kimura, Hironori Kasahara

International Journal of Parallel Programming31(3)p.211 - 2232003年06月-

Parallel Processing using Data Localization for MPEG2 Encoding on OSCAR Chip Multiprocessor

Takeshi Kodaka, Hirofumi Nakano, Keiji Kimura, Hironori Kasahara

Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'04)2004年01月-

Memory Management for Data Localication on OSCAR Chip Multiprocessor

Hirofumi Nakano, Takeshi Kodaka, Keiji Kimura Hironori Kasahara

Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'04)2004年01月-

Multigrain Parallel Processing on OSCAR CMP

Keiji Kimura, Takeshi Kodaka, Motoki Obata, Hironori Kasahara

IEEE Computer Society Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'03)p.56 - 652003年01月-

Performance of Multigrain Parallelization in Japanese Millennium Project IT21 Advanced Parallelizing Compiler

Hironori Kasahara, Motoki Obata, Kazuhisa Ishizaka, Keiji Kimura, Hiroki Kaminaga, Hirofumi Nakano, Kouhei Nagasawa, Akiko Murai, HIroki Itagaki, Jun Shirako

Proc. of 10th International Workshop on Compilers for Parallel Computers (CPC) Amsterdam Netherland2003年01月-

シングルチップマルチプロセッサにおけるJPEGエンコーディングのマルチグレイン並列処理

小高剛, 内田貴之, 木村啓二, 笠原博徳

情報処理学会ハイパフォーマンスコンピューティングシステム論文誌43(Sig 6(HPS5))p.153 - 1622002年-

近細粒度並列処理用シングルチップマルチプロセッサにおけるプロセッサコアの評価

木村啓二, 加藤孝幸, 笠原博徳

情報処理学会論文誌42(4)p.692 - 7032001年04月-

Static Coarse Grain Task Scheduling with Cache Optimization Using OpenMP

Hirofumi Nakano, Kazuhisa Ishizaka, Motoki Obata, Keiji Kimura, Hironori Kasahara

Springer Lecture Notes in Computer Science 2327 High Performance Computing (Proc. of ISHPC WOMPEI)p.479 - 4892002年-

Multigrain Parallel Processing for JPEG Encoding on a Single Chip Multiprocessor

T. Kodaka, K. Kimura, H. Kasahara

IEEE Computer Society Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'02)p.57 - 632002年01月-

Evaluation of Single Chip Multiprocessor Core Architecture with Near Fine Grain Parallel Processing

Keiji Kimura, Hironori Kasahara

Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'01)2001年01月-

シングルチップマルチプロセッサ上での近細粒度並列処理

木村啓二, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会論文誌40(5)p.1924 - 19341999年05月-

Near Fine Grain Parallel Processing Using Static Scheduling on Single Chip Multiprocessors

Keiji Kimura, Hironori Kasahara

IEEE Computer Society Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'99)p.23 - 311999年11月-

Data-Localization among Doall and Sequential Loops in Coarse Grain Parallel Processing

Akimasa Yoshida, Yasushi Ujigawa, Motoki Obata, Keiji Kimura, Hironori Kasahara

Seventh Workshop on Compilers for Parallel Computers Linkoping Swedenp.266 - 2771998年01月-

OSCAR Multi-grain Architecture and Its Evaluation

Hironori Kasahara, Masami Okamoto, Akimasa Yoshida, Wataru Ogata, Keiji Kimura, Gantetsu Matsui, Hidenori Matsuzaki, Hiroki Honda

IEEE Computer Society Proc. International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems, (IWIA'97)p.106 - 1151997年11月-

Near Fine Grain Parallel Processing without Explicit Synchronization on a Multiprocessor System

Wataru Ogata, Akimasa Yoshida, Masami Okamoto, Keiji Kimura, Hironori Kasahara

Proc. of Sixth Workshop on Compilers for Parallel Computers (Aachen Germany)1996年12月-

モデルベース設計により自動生成されたエンジン制御Cコードのマルチコア用自動並列化

梅田弾, 金羽木洋平, 見神広紀, 谷充弘(デンソー), 森裕司(デンソー), 木村啓二, 笠原博徳

組み込みシステムシンポジウム(ESS2013)2013年10月-

組込マルチコア用OSCAR APIを用いたTILEPro64上でのマルチメディアアプリケーションの 並列処理

岸本耀平, 見神広紀, 中野恵一, 林明宏, 木村啓二, 笠原博徳

組み込みシステムシンポジウム(ESS2012)2012年10月-

重粒子線がん治療用線量計算エンジンの自動並列化

林明宏, 松本卓司, 見神広紀, 木村啓二, 山本啓二, 崎浩典, 高谷保行, 笠原博徳

HPCS2012 - ハイパフォーマンスコンピューティングと計算科学シンポジウム2012年01月-

マルチコア上でのOSCAR APIを用いた並列化コンパイラによる低消費電力化手法

中川亮, 間瀬正啓, 大國直人, 白子準, 木村啓二, 笠原博徳

先進的計算基盤システムシンポジウム(SACSIS2009)p.3 - 102009年05月-

情報家電用マルチコア上におけるマルチメディア処理のコンパイラによる並列化

宮本孝道, 浅香沙織, 見神広紀, 間瀬正啓, 木村啓二, 笠原博徳

SACSIS2008 - 先進的計算基盤システムシンポジウム2008年05月-

情報家電用マルチコアSMP実行モードにおける制約付きCプログラムのマルチグレイン並列化

間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 宮本孝道, 白子準, 中野啓史, 木村啓二, 笠原博徳

組込みシステムシンポジウム20072007年10月-

マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法

白子準, 吉田宗広, 押山直人, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

先進的計算基盤システムシンポジウム(SACSIS2006)(467)p.4762006年05月-

シングルチップマルチプロセッサにおける JPEGエンコーディングのマルチグレイン並列処理 (共著)

小高剛, 内田貴之, 木村啓二, 笠原博徳

情報処理学会並列処理シンポジウム(JSPP2002)2002年05月-

統計的手法を用いた並列化コンパイラ協調マルチコアアーキテクチャシミュレータ高速化手法

田口学豊, 木村啓二, 笠原博徳

社団法人 電子情報通信学会, 信学技報ETNET20142014年03月-

不正侵入検知システムにおけるマルチコア上でのシグネチャ割当によるレイテンシ削減手法

山田正平, 木村啓二, 笠原博徳

情報処理学会研究報告2013-ARC-2012014年03月-

小ポイントFFTのマルチコア上での自動並列化手法

古山祐樹, 見神広紀, 木村啓二, 笠原博徳

情報処理学会研究報告2013-ARC-2012014年03月-

プロファイル情報を用いたAndroid 2D描画ライブラリSKIAのOSCARコンパイラによる並列化

後藤隆志, 武藤康平, 山本英雄, 平野智大, 見神広紀, 木村啓二, 笠原博徳

情報処理学会研究報告2013-ARC-207-122013年12月-

Androidベースマルチコア上での自動電力制御

平野智大, 武藤康平, 後藤隆志, 見神広紀, 山本英雄, 木村啓二, 笠原博徳

情報処理学会研究報告2013-ARC-206-232013年08月-

OSCAR API標準解釈系を用いた階層グルーピング対応ハードウェアバリア同期機構の評価

川島慧大, 金羽木洋平, 林明宏, 木村啓二, 笠原博徳

情報処理学会研究報告2013-ARC-206-162013年08月-

Enhancing the Performance of a Multiplayer Game by Using a Parallelizing Compiler

アルドーサリー ヤーセル, 古山祐樹, ドミニク ヒレンブランド, 木村啓二, 笠原博徳, 成田誠之助

情報処理学会研究報告2013-OS-1252013年04月-

マルチコア商用スマートディバイスの評価と並列化の試み

山本英雄, 後藤隆志, 平野智大, 武藤康平, 見神広紀, Hillenbrand Dominic, 林 明宏, 木村啓二, 笠原博徳

情報処理学会研究報告2013-OS-1242013年02月-

コンパイラと協調したシミュレー ション精度切り換え可能な マルチコアアーキテクチャシミュレータ

田口学豊, 阿部洋一, 木村啓二, 笠原博徳

情報処理学会研究報告2012-ARC-203-142013年01月-

並列化アプリケーションを対象とした統計的手法によるメニーコア アーキテクチャシミュレーションの高速化

阿部洋一, 田口学豊, 木村啓二, 笠原博徳

情報処理学会研究報告2012-ARC-203-132013年01月-

自動車エンジン制御ソフトウェアにおけるマルチコア上での並列処理

金羽木洋平, 梅田弾, 見神広紀, 林明宏, 沢田光男(トヨタ自動車(株)), 木村 啓二, 笠原博徳

情報処理学会研究報告2013-ARC-203-22013年01月-

Opportunities and Challenges of Application-Power Control in the Age of Dark Silicon

Dominic Hillenbrand, Yuuki Furuyama, Akihiro Hayashi, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

情報処理学会研究報告2012-ARC-202 HPC137-262012年12月-

地震動シミュレータGMSのOSCARコンパイラによる自動並列化

島岡護, 見神広紀, 林明宏, 和田康孝, 木村啓二, 森田秀和(株日立製作所), 内山 邦男(株日立製作所), 笠原博徳

情報処理学会研究報告2012-ARC-202HPC137-112012年12月-

Automatic parallelization with OSCAR API Analyzer: a cross-platform performance evaluation

Gonzalez-Alvarez Cecilia, 金羽木洋平, 竹本昂生, 岸本耀平, 武藤康平, 見神広紀, 林明宏, 木村啓二, 笠原博徳

情報処理学会研究報告2012-ARC-202HPC137-102012年12月-

低消費電力マルチコ アRP-Xを用いた1ワットWebサービスの実現

古山祐樹, 島岡護, 見神広紀, 林明宏, 木村啓二, 笠原博徳

情報処理学会研究報告2012-ARC-201-242012年08月-

エンジン基本制御ソフトウェアモデルのマルチコア上での並列処理

梅田弾, 金羽木洋平, 見神広紀, 林明宏 谷充弘, 森裕司, 木村啓二, 笠原博徳

情報処理学会研究報告2012-ARC-201-222012年08月-

並列化メディアアプリケーションを対象としたメニーコアアーキテクチャシミュレーションの 高速化の検討

阿部洋一, 石塚亮, 大胡亮太, 田口学豊, 木村啓二, 笠原博徳

情報処理学会研究報告2012-ARC-199-32012年03月-

Javaの自動並列化における例外フローのイン ライニング解析とメソッドディスパッチの高速化

田端啓一, 木村啓二, 笠原博徳

情報処理学会研究報告2012-ARC-199-92012年03月-

JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」を用いた Parallelizable Cの定義

木村啓二, 間瀬正啓, 笠原博徳

情報処理学会研究報告ETNET20122012年03月-

SMPサーバー上での粒子線がん治療用線量計算エンジンの自動並列化

林明宏, 松本卓司, 見神広紀, 木村啓二, 山本啓二, 崎浩典, 高谷保行, 笠原博徳

情報処理学会研究報告2011-ARC189HPC132-22011年11月-

科学技術計算プログラムの構造を利用したメニーコアアーキテクチャシミュレーション高速化手法の評価

石塚亮, 阿部洋一, 大胡亮太, 木村啓二, 笠原博徳

情報処理学会研究報告2011-ARC-196-142011年07月-

SPECベンチマークプログラムのCUDAによる並列化の検討

平勇樹, 木村啓二, 笠原博徳

情報処理学会研究報告2011-HPC-130-162011年07月-

メディアアプリケーションにおけるコンパイラによるI/Oオーバーヘッド隠蔽手法

林明宏, 関口威, 間瀬正啓, 和田康孝, 木村啓二, 笠原博徳

情報処理学会研究報告2011-ARC-195-142011年04月-

低消費電力マルチコアRP2上での複数メディアアプリケーション実行時の消費電力評価

見神広紀, 北基俊平, 佐藤崇文, 間瀬正啓, 木村啓二, 石坂一久, 酒井淳嗣, 枝廣正人, 笠原博徳

情報処理学会研究報告2011-ARC-194-12011年03月-

OSCAR API標準解釈系を用いたParallelizable Cプログラムの評価

佐藤卓也, 見神広紀, 林明宏, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会研究報告2011-ARC-191-22010年10月-

情報家電用ヘテロジニアスマルチコア用自動並列化コンパイラフレームワーク

林明宏, 和田康孝, 渡辺岳志, 関口威, 間瀬正啓, 木村啓二, 伊藤雅之, 長谷川淳, 佐藤真琴, 野尻徹, 内山邦男, 笠原博徳

情報処理学会研究会報告2010-ARC-190-7(SWoPP2010)2010年08月-

情報家電用ヘテロジニアスマルチコアRP-Xにおけるコンパイラ低消費電力制御性能

和田康孝, 林明宏, 渡辺岳志, 関口威, 間瀬正啓, 白子準, 木村啓二, 伊藤雅之, 長谷川淳, 佐藤真琴, 野尻徹, 内山邦男, 笠原博徳

情報処理学会研究会報告2010-ARC-190-8(SWoPP2010)2010年08月-

プログラム構造に着目したメニーコアアーキテクチャシミュレータの高速化手法

石塚亮, 大友俊也, 大胡亮太, 木村啓二, 笠原博徳

情報処理学会研究会報告2010-ARC-190-20(SWoPP2010)2010年08月-

組込み向けマルチコア上での複数アプリケーション動作時の自動並列化されたアプリケーションの処理性能

宮本孝道, 間瀬正啓, 木村啓二, 石坂一久, 酒井淳嗣, 枝廣正人, 笠原博徳

情報処理学会研究会報告2010-ARC-1882010年03月-

H.264/AVCエンコーダのマルチコアプロセッサにおける階層的並列処理

見神広紀, 宮本孝道, 木村啓二, 笠原博徳

情報処理学会研究会報告2010-ARC-1872010年01月-

自動並列化のためのElement-Sensitiveポインタ解析

間瀬 正啓, 村田 雄太, 木村 啓二, 笠原 博徳

情報処理学会第76回プログラミング研究会2009年10月-

マルチコアにおけるParallelizable Cプログラムの自動並列化

間瀬正啓, 木村啓二, 笠原博徳

情報処理学会研究会報告2009-ARC-174-15(SWoPP2009)2009年08月-

並列度・タスク実行時間の偏りを考慮した標準タスクグラフセットSTG Ver3を用いたスケジューリングアルゴリズムの評価

島岡護, 今泉和浩,鷹野芙美代,木村啓二,笠原博徳

第119回 ハイパフォーマンスコンピューティング研究会2009年02月-

メディアアプリケーションを用いた並列化コンパイラ協調型ヘテロジニアスマルチコアアーキテクチャのシミュレーション評価

神山輝壮, 和田康孝, 林 明宏, 間瀬正啓, 中野啓史, 渡辺岳志, 木村啓二, 笠原博徳

社団法人 電子情報通信学会, 信学技報 ICD2008-1402009年01月-

マルチコアのためのコンパイラにおけるローカルメモリ管理手法

桃園拓, 中野啓史, 間瀬正啓, 木村啓二, 笠原博徳

社団法人 電子情報通信学会, 信学技報ICD2008-1412009年01月-

マルチコア上でのOSCAR API を用いた低消費電力化手法

中川亮, 間瀬正啓, 白子準, 木村啓二, 笠原博徳

社団法人 電子情報通信学会, 信学技報ICD2008-1452009年01月-

ポインタ解析を用いた制約付きCプログラムの自動並列化

間瀬正啓, 馬場大介, 長山晴美, 村田雄太, 木村啓二, 笠原博徳,

情報処理学会研究会報告2007-ARC-178-142008年05月-

階層グルーピング対応バリア同期機構の評価

山田海斗, 間瀬正啓, 白子準, 木村啓二, 伊藤雅之, 服部俊洋, 水野弘之, 内山邦男, 笠原博徳

情報処理学会研究会報告2007-ARC-178-42008年05月-

マルチコアプロセッサ上でのマルチメディア処理の並列化

宮本孝道, 田村圭, 田野裕秋, 見神広紀, 浅香沙織, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会研究会報告2007-ARC-175-15(デザインガイア2007)2007年11月-

54倍速AACエンコードを実現するヘテロジニアスマルチコアアーキテクチャの検討

鹿野裕明, 伊藤雅樹, 戸高貴司, 津野田賢伸, 兒玉征之, 小野内雅文, 内山邦男, 小高俊彦, 亀井達也, 永濱 衛, 草桶 学, 新田祐介, 和田康孝, 木村啓二, 笠原博徳

電子情報通信学会, 信学技報ICD2007-71, Vol. 107(195)2007年08月-

ヘテロジニアスマルチコア上での階層的粗粒度タスクスタティックスケジューリング手法

和田康孝, 林明宏, 伊能健人, 白子準, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会研究報告2007-ARC-174-17(SWoPP2007)2007年08月-

ヘテロジニアスマルチコア上でのコンパイラによる低消費電力制御

林明宏, 伊能健人, 中川亮, 松本繁, 山田海斗, 押山直人, 白子準, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会研究報告2007-ARC-174-18(SWoPP2007)2007年08月-

情報家電用マルチコアSMP実行モードにおけるマルチグレイン並列処理

間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 深津幸 二, 宮本孝道, 白子準, 中野啓史, 木村啓二, 亀井達也, 服部俊洋, 長谷川淳, 佐藤真琴, 伊藤雅樹, 内山 邦男, 小高俊彦, 笠原博徳

情報処理学会研究会報告2007-ARC-173-052007年05月-

独立に周波数制御可能な 4320MIPS、SMP/AMP対応 4プロセッサLSIの開発

早瀬 清, 吉田 裕, 亀井達也, 芝原真一, 西井 修, 服部俊洋, 長谷川 淳, 高田雅士, 入江直彦, 内山邦男, 小高俊彦, 高田 究, 木村啓二, 笠原博徳

情報処理学会研究会報告2007-ARC-173-062007年05月-

マルチグレイン並列化コンパイラにおけるローカルメモリ管理手法

三浦 剛, 田川友博, 村松裕介, 池見明紀, 中川正洋, 中野啓史, 白子 準, 木村啓二, 笠原博徳

情報処理学会研究会報告2007-ARC-172/HPC-109-11 (HOKKE2007)2007年03月-

マルチコア上でのマルチメディアアプリケーションの自動並列化

宮本孝道, 浅香沙織, 鎌倉信仁, 山内宏真, 間瀬正啓, 白子準, 中野啓史, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2007-171-132007年01月-

SMPサーバ及び組み込み用マルチコア上でのOSCARマルチグレイン自動並列化コンパイラの性能

白子準, 田川友博, 三浦剛, 宮本孝道, 中野啓史, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2006-170-02 (デザインガイア2006)2006年11月-

OSCARコンパイラにおける制約付きCプログラムの自動並列化

間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 深津幸二, 宮本孝道, 白子準, 中野啓史, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2006-170-01 (デザインガイア2006)2006年11月-

OSCARマルチコア上でのローカルメモリ管理手法

中野啓史, 仁藤拓実, 丸山貴紀, 中川正洋, 鈴木裕貴, 内藤陽介, 宮本孝道, 和田康孝, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2006-169-282006年08月-

マルチコアプロセッサ上での粗粒度タスク並列処理におけるデータ転送オーバラップ方式

宮本孝道, 中川正洋, 浅野尚一郎, 内藤陽介, 仁藤拓実, 中野啓史, 木村啓二, 笠原博徳

情報処理学会研究報告ARC-2006-167, HPC-2006-1052006年02月-

MP3エンコーダを用いたヘテロジニアスチップマルチプロセッサの性能評価

鹿野裕明, 鈴木裕貴, 和田康孝, 白子準, 木村啓二, 笠原博徳

情報処理学会研究報告ARC-2006-1662006年01月-

ヘテロジニアスチップマルチプロセッサにおける粗粒度タスクスタティックスケジューリング手法

和田康孝, 押山直人, 鈴木裕貴, 内藤陽介, 白子準, 中野啓史,鹿野裕明, 木村啓二, 笠原博徳

情報処理学会研究報告ARC-2006-1662006年01月-

マルチコアプロセッサ上でのデータローカライゼーション

中野啓文, 浅野尚一郎, 内藤陽介, 仁藤拓実, 田川友博, 宮本孝道, 小高剛, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2005-165-102005年12月-

ホモジニアスマルチコアにおけるコンパイラ制御低消費電力化手法

白子準, 押山直人, 和田康孝, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2005-164-10 (SWoPP205)2005年08月-

配列間接アクセスを用いないコード生成法を用いた電子回路シミュレーション

黒田亮, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2005-161-1 (SHINING2005)2005年01月-

共有メモリ型マルチプロセッササーバ上におけるOSCARマルチグレイン自動並列化コンパイラの性能評価

白子準, 宮本孝道, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2005-161-5 (SHINING2005)2005年01月-

OSCARチップマルチプロセッサ上でのMPEG2エンコードの並列処理

小高剛, 中野啓文, 木村啓二, 笠原博徳

情報処理学会研究報告ARC02004-160-102004年12月-

OSCARチップマルチプロセッサ上でのマルチグレイン並列性評価

和田康孝, 白子準, 石坂一久, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2004-159-11 (SWoPP2004)2004年08月-

OSCARチップマルチプロセッサ上でのデータ転送ユニットを用いたデータローカライゼーション

中野啓文, 内藤陽介, 鈴木貴久, 小高剛, 石坂一久, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2004-159-20 (SWoPP2004)2004年08月-

OSCAR チップマルチプロセッサ上でのMPEG2エンコーディングの並列処理 (共著)

小高剛, 中野啓文, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2003-154-10 (SWoPP2003)2003年08月-

OSCAR CMP 上でのスタティックスケジューリングを用いたデータローカライゼーション手法 (共著)

中野啓文, 内藤陽介, 鈴木貴久, 小高剛, 石坂一久, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2003-154-14 (SWoPP2003)2003年08月-

SMPマシン上での粗粒度タスク並列処理におけるデータプリフェッチ手法

宮本孝道, 山口高弘, 飛田高雄, 石坂一久, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2003-155-062003年11月-

データローカライゼーションを伴うMPEG2エンコーディングの並列処理

小高剛, 中野啓文, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2004-156-32004年02月-

チップマルチプロセッサ上での粗粒度タスク並列処理によるデータローカライゼーション (共著)

中野啓文, 小高剛, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2003-151-3 (SHINING2003)2003年01月-

OSCAR チップマルチプロセッサ上でのマルチグレイン並列処理 (共著)

木村啓二, 小高剛, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2002-150-72002年11月-

OSCAR 型シングルチップマルチプロセッサにおける動きベクトル探索処理 (共著)

小高剛, 鈴木貴久, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2002-150-62002年11月-

SMPマシン上での粗粒度タスク並列処理オーバーへッドの解析 (共著)

和田康孝, 中野啓文, 木村啓二, 小幡元樹, 笠原博徳

情報処理学会研究報告ARC2002-148-32002年05月-

シングルチップマルチプロセッサにおけるマルチグレイン並列処理 (共著)

内田貴之, 小高剛, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2002-146-32002年02月-

OSCAR型シングルチップマルチプロセッサ上でのJPEGエンコーディングプログラムのマルチグレイン並列処理 (共著)

小高剛, 内田貴之, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2002-146-42002年02月-

シングルチップマルチプロセッサ上でのマルチメディアアプリケーションの近細粒度並列処理 (共著)

小高剛, 宮下直久, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2001-144-112001年11月-

キャッシュ最適化を考慮したマルチプロセッサシステム上での粗粒度タスクスタティックスケジューリング手法 (共著)

中野啓文, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

情報処理学会研究報告ARC2001-144-122001年08月-

近細粒度並列処理用シングルチップマルチプロセッサにおけるプロセッサコアの構成 (共著)

木村啓二, 内田貴之, 加藤孝幸, 笠原博徳

情報処理学会研究報告ARC139-16(SWoPP2000)2000年-

シングルチップマルチプロセッサ上での近細粒度並列処理の性能評価 (共著)

木村啓二, 間中邦之, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会研究報告ARC134-41999年08月-

マルチグレイン並列化コンパイラのメモリアクセスアナライザ (共著)

岩井啓輔, 小幡元樹, 木村啓二, 天野英晴, 笠原博徳

電子通信情報学会技術報告CPSY99-621999年08月-

マルチグレイン並列化コンパイラとそのアーキテクチャ支援 (共著)

笠原博徳, 尾形航, 木村啓二, 小幡元樹, 飛田高雄, 稲石大祐

社団法人電子情報通信学会信学技報 ICD98-10 CPSY98-10 FTS98-101998年04月-

シングルチップマルチプロセッサ上でのマルチグレイン並列処理 (共著)

木村啓二, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会研究報告ARC98-130-51998年08月-

最早実行可能条件解析を用いたキャッシュ利用の最適化 (共著)

稲石大祐, 木村啓二, 藤本謙作, 尾形航, 笠原博徳

情報処理学会研究報告ARC98-130-61998年08月-

処理とデータ転送のオーバーラッピングを考慮したダイナミックスケジューリングアルゴリズム (共著)

木村啓二, 橋本茂, 古郷誠, 尾形航, 笠原博徳

電子情報通信学会研究報告CPSY97-401997年-

マルチグレイン並列処理用マルチプロセッサシステム (共著)

岩井啓輔, 藤原崇, 森村知弘, 天野英晴, 木村啓二, 尾形航, 笠原博徳

電子情報通信学会研究報告CPSY97-461997年08月-

FPGAを用いたマルチプロセッサシステムテストベッドの実装 (共著)

尾形航, 山本泰平, 水尾学, 木村啓二, 笠原博徳

情報処理学会研究報告ARC128-14 HPC70-141998年03月-

IBM pSeries 690上でのOSCARマルチグレイン自動並列化コンパイラの精嚢評価

石坂一久, 白子準, 小幡元樹, 木村啓二, 笠原博徳

情報処理学会第66回全国大会2004年03月-

マルチプロセッサシステム上でのキャッシュ最適化を考慮した粗粒度タスクスタティックスケジューリング手法 (共著)

中野啓文, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

情報処理学会第62回全国大会2001年03月-

マルチメディアアプリケーションのシングルチップマルチプロセッサ上での近細粒度並列処理

小高剛, 木村啓二, 宮下直久, 笠原博徳

情報処理学会第62回全国大会2001年03月-

近細粒度並列処理に適したシングルチップマルチプロセッサのメモリアーキテクチャの評価

松元信介, 木村啓二, 笠原博徳

情報処理学会第62回全国大会2001年03月-

マルチグレイン並列処理用シングルチップマルチプロセッサにおけるデータ転送ユニットの検討

宮下直久, 木村啓二, 小高剛, 笠原博徳

情報処理学会第62回全国大会2001年03月-

シングルチップマルチプロセッサの近細粒度並列処理に対する性能評価

加藤考幸, 尾形航, 木村啓二,内田貴之, 笠原博徳

情報処理学会第60回全国大会2000年03月-

最早実行可能条件解析を用いたキャッシュ最適化手法

稲石大祐, 木村啓二, 藤本謙作, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会第58回全国大会1999年03月-

マルチグレイン並列処理用シングルチップマルチプロセッサアーキテクチャ

木村啓二, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会第56回全国大会1998年03月-

マクロタスク最早実行可能条件解析を用いたキャッシュ最適化手法

稲石大祐, 木村啓二, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会第56回全国大会1998年03月-

A 45-nm 37.3 GOPS/W Heterogeneous Multi-Core SOC with 16/32 Bit Instruction-Set General-Purpose Core

Nishii, Osamu;Yuyama, Yoichi;Ito, Masayuki;Kiyoshige, Yoshikazu;Nitta, Yusuke;Ishikawa, Makoto;Yamada, Tetsuya;Miyakoshi, Junichi;Wada, Yasutaka;Kimura, Keiji;Kasahara, Hironori;Maejima, Hideo

IEICE TRANSACTIONS ON ELECTRONICSE94C(4)p.663 - 6692011年-2011年

DOIWoS

詳細

ISSN:0916-8524

自動並列化技術を用いたメディア処理オフロード

石坂 一久;酒井 淳嗣;枝廣 正人;宮本 孝道;間瀬 正啓;木村 啓二;笠原 博徳

研究報告組込みシステム(EMB)2010(59)p.1 - 72010年03月-2010年03月 

CiNii

詳細

ISSN:09196072

概要:自動並列化技術と自動オフロード技術により,アプリプログラムを変更することなくメディア処理をヘテロマルチコア上で高速化する手法を提案する.メディア処理は高い演算性能を必要とするが,プロセッサの進歩はヘテロマルチコアへと進んでおりソフトウェアが複雑化する.本稿では,メディア処理アプリの特徴を利用し,コアへの処理の分割と並列化をアプリプログラマに隠蔽した高速化手法を提案する.実験では,提案手法により Window Media Player のソースコードを変更することなくデコード処理をオフロードすることができ,3 コアのアクセラレータを利用して 1.8 倍の性能向上が確認できた.This paper proposes new software architecture for media processing using the automatic parallelization and offload for hetero multicore. While media processing demands more and more computational power, it is difficult for a non-expert programmer to exploit hetero multicore that is a promising future processor architecture. The proposed method keeps programers away from parallelization and offloading for hetero multicore. Our experiments showed that the Windows Media Player speeduped 1.8 times by offloading the decoder to three cores accelerator without source code modification.

自動並列化技術を用いたメディア処理オフロード

石坂 一久;酒井 淳嗣;枝廣 正人;宮本 孝道;間瀬 正啓;木村 啓二;笠原 博徳

研究報告モバイルコンピューティングとユビキタス通信(MBL)2010(59)p.1 - 72010年03月-2010年03月 

CiNii

詳細

ISSN:09196072

概要:自動並列化技術と自動オフロード技術により,アプリプログラムを変更することなくメディア処理をヘテロマルチコア上で高速化する手法を提案する.メディア処理は高い演算性能を必要とするが,プロセッサの進歩はヘテロマルチコアへと進んでおりソフトウェアが複雑化する.本稿では,メディア処理アプリの特徴を利用し,コアへの処理の分割と並列化をアプリプログラマに隠蔽した高速化手法を提案する.実験では,提案手法により Window Media Player のソースコードを変更することなくデコード処理をオフロードすることができ,3 コアのアクセラレータを利用して 1.8 倍の性能向上が確認できた.This paper proposes new software architecture for media processing using the automatic parallelization and offload for hetero multicore. While media processing demands more and more computational power, it is difficult for a non-expert programmer to exploit hetero multicore that is a promising future processor architecture. The proposed method keeps programers away from parallelization and offloading for hetero multicore. Our experiments showed that the Windows Media Player speeduped 1.8 times by offloading the decoder to three cores accelerator without source code modification.

自動並列化技術を用いたメディア処理オフロード

石坂 一久;酒井 淳嗣;枝廣 正人;宮本 孝道;間瀬 正啓;木村 啓二;笠原 博徳

研究報告システムLSI設計技術(SLDM)2010(59)p.1 - 72010年03月-2010年03月 

CiNii

詳細

ISSN:09196072

概要:自動並列化技術と自動オフロード技術により,アプリプログラムを変更することなくメディア処理をヘテロマルチコア上で高速化する手法を提案する.メディア処理は高い演算性能を必要とするが,プロセッサの進歩はヘテロマルチコアへと進んでおりソフトウェアが複雑化する.本稿では,メディア処理アプリの特徴を利用し,コアへの処理の分割と並列化をアプリプログラマに隠蔽した高速化手法を提案する.実験では,提案手法により Window Media Player のソースコードを変更することなくデコード処理をオフロードすることができ,3 コアのアクセラレータを利用して 1.8 倍の性能向上が確認できた.This paper proposes new software architecture for media processing using the automatic parallelization and offload for hetero multicore. While media processing demands more and more computational power, it is difficult for a non-expert programmer to exploit hetero multicore that is a promising future processor architecture. The proposed method keeps programers away from parallelization and offloading for hetero multicore. Our experiments showed that the Windows Media Player speeduped 1.8 times by offloading the decoder to three cores accelerator without source code modification.

自動並列化技術を用いたメディア処理オフロード

石坂 一久;酒井 淳嗣;枝廣 正人;宮本 孝道;間瀬 正啓;木村 啓二;笠原 博徳

研究報告ユビキタスコンピューティングシステム(UBI)2010(59)p.1 - 72010年03月-2010年03月 

CiNii

詳細

ISSN:09196072

概要:自動並列化技術と自動オフロード技術により,アプリプログラムを変更することなくメディア処理をヘテロマルチコア上で高速化する手法を提案する.メディア処理は高い演算性能を必要とするが,プロセッサの進歩はヘテロマルチコアへと進んでおりソフトウェアが複雑化する.本稿では,メディア処理アプリの特徴を利用し,コアへの処理の分割と並列化をアプリプログラマに隠蔽した高速化手法を提案する.実験では,提案手法により Window Media Player のソースコードを変更することなくデコード処理をオフロードすることができ,3 コアのアクセラレータを利用して 1.8 倍の性能向上が確認できた.This paper proposes new software architecture for media processing using the automatic parallelization and offload for hetero multicore. While media processing demands more and more computational power, it is difficult for a non-expert programmer to exploit hetero multicore that is a promising future processor architecture. The proposed method keeps programers away from parallelization and offloading for hetero multicore. Our experiments showed that the Windows Media Player speeduped 1.8 times by offloading the decoder to three cores accelerator without source code modification.

並列化コンパイラによるソフトウェアコヒーレンシ制御

間瀬 正啓;木村 啓二;笠原 博徳

研究報告システムソフトウェアと オペレーティング・システム(OS)2010(7)p.1 - 102010年04月-2010年04月 

CiNii

詳細

ISSN:09196072

概要:近年,あらゆる情報機器において処理性能の向上および低消費電力化のため,マルチコアの採用が進んでおり,今後チップ上に集積されるコア数はさらに増え,メニーコア時代が訪れると考えられている.しかしながら,64,128 コア以上のメニーコアプロセッサにおけるコヒーレントキャッシュハードウェアは回路規模的にも消費電力的にも実装コストが大きくなりすぎるため,実用化が困難と考えられている.本稿では,キャッシュコヒーレンシ制御機構を持たない共有メモリ型のマルチプロセッサシステムにおいても,並列化コンパイラによりコヒーレントキャッシュと同等な処理を可能とする,ソフトウェアコヒーレンシ制御手法を提案する.本手法を OSCAR 自動並列化コンパイラに実装し,4 コアまではハードウェアコヒーレント機構を持つが,5 コア以上はノンコヒーレント共有メモリ動作となる,8 コア構成の情報家電用マルチコア RP2 において評価を行ったところ,4 アプリケーションプログラムにおいて 4 コアまででノンコヒーレントキャッシュモードでもコヒーレントキャッシュモードと同等以上の性能が得られ,さらに 8 コア使用時にも 1 コア使用時と比較して平均 4.88 倍の速度向上が自動で得られた.As multicore processor becomes widely used in various computer systems, the number of cores integrated in a chip is increasing for improved performance and reduced power consumption toward manycore era. However, cache coherency hardware in manycore processors which integrates over 64 or 128 cores is hard to implement both for circuit area and energy cost. This paper proposes a parallelizing compiler directed software coherence for shared memory multiprocessor systems without hardware cache coherence mechanism that enables as same parallelization as on hardware coherent cache. We implemented the proposed method in OSCAR automatic parallelizing compiler and evaluated on RP2, a multicore for consumer electronics integrating 8 cores, that can support hardware coherent cache mode under 4 cores and non-coherent shared memory multiprocessor mode over 4 cores. The evaluation results shows that automatic parallelization with the proposed software coherence mechanism achieves as much or even better performance than hardware coherence under 4 cores. Also, the software coherence gives us 4.88x speedup for 8 cores in average on 4 application programs against sequential execution.

並列化コンパイラによるソフトウェアコヒーレンシ制御

間瀬 正啓;木村 啓二;笠原 博徳

研究報告計算機アーキテクチャ(ARC)2010(7)p.1 - 102010年04月-2010年04月 

CiNii

詳細

ISSN:09196072

概要:近年,あらゆる情報機器において処理性能の向上および低消費電力化のため,マルチコアの採用が進んでおり,今後チップ上に集積されるコア数はさらに増え,メニーコア時代が訪れると考えられている.しかしながら,64,128 コア以上のメニーコアプロセッサにおけるコヒーレントキャッシュハードウェアは回路規模的にも消費電力的にも実装コストが大きくなりすぎるため,実用化が困難と考えられている.本稿では,キャッシュコヒーレンシ制御機構を持たない共有メモリ型のマルチプロセッサシステムにおいても,並列化コンパイラによりコヒーレントキャッシュと同等な処理を可能とする,ソフトウェアコヒーレンシ制御手法を提案する.本手法を OSCAR 自動並列化コンパイラに実装し,4 コアまではハードウェアコヒーレント機構を持つが,5 コア以上はノンコヒーレント共有メモリ動作となる,8 コア構成の情報家電用マルチコア RP2 において評価を行ったところ,4 アプリケーションプログラムにおいて 4 コアまででノンコヒーレントキャッシュモードでもコヒーレントキャッシュモードと同等以上の性能が得られ,さらに 8 コア使用時にも 1 コア使用時と比較して平均 4.88 倍の速度向上が自動で得られた.As multicore processor becomes widely used in various computer systems, the number of cores integrated in a chip is increasing for improved performance and reduced power consumption toward manycore era. However, cache coherency hardware in manycore processors which integrates over 64 or 128 cores is hard to implement both for circuit area and energy cost. This paper proposes a parallelizing compiler directed software coherence for shared memory multiprocessor systems without hardware cache coherence mechanism that enables as same parallelization as on hardware coherent cache. We implemented the proposed method in OSCAR automatic parallelizing compiler and evaluated on RP2, a multicore for consumer electronics integrating 8 cores, that can support hardware coherent cache mode under 4 cores and non-coherent shared memory multiprocessor mode over 4 cores. The evaluation results shows that automatic parallelization with the proposed software coherence mechanism achieves as much or even better performance than hardware coherence under 4 cores. Also, the software coherence gives us 4.88x speedup for 8 cores in average on 4 application programs against sequential execution.

情報家電用ヘテロジニアスマルチコア用自動並列化コンパイラフレームワーク

林 明宏;和田 康孝;渡辺 岳志;関口 威;間瀬 正啓;木村 啓二;伊藤 雅之;長谷川 淳;佐藤 真琴;野尻 徹;内山 邦男;笠原 博徳

研究報告計算機アーキテクチャ(ARC)2010(7)p.1 - 92010年07月-2010年07月 

CiNii

詳細

ISSN:09196072

概要:汎用 CPU コアに加え特定処理を高効率で実行可能なアクセラレータを搭載したヘテロジニアスマルチコアが広く普及している.しかしながら,ヘテロジニアスマルチコアでは様々な計算資源へのタスクスケジューリングやデータ転送コード挿入等多くの負担をプログラマが負う必要がある等プログラミングが困難である.そこで本稿では,複数 CPU 及びアクセラレータを持つヘテロジニアスマルチコアに対して,逐次プログラムを入力とし自動的に実行効率の良い並列プログラムを生成する,ヘテロジニアスマルチコア向け自動並列化コンパイラフレームワークを提案する.本フレームワークでは自動並列化コンパイラとアクセラレータコンパイラとのインターフェースとして新たに提案するヘテロジニアスマルチコア向け OSCAR API を利用することで,逐次 C プログラムを自動的に汎用コアとアクセラレータコアにタスクを配分し,高い性能を実現する.本手法を情報家電用ヘテロジニアスマルチコアプロセッサ RP-X をターゲットとして,AAC エンコーダ及び Optical Flow 計算の自動並列化性能を評価した.その結果,8 つの汎用 CPU コア及び 4 つのアクセラレータコアを使用した場合,逐次実行時と比較して Optical Flow 計算で約 12 倍 (OSCAR コンパイラ+アクセラレータコンパイラ使用時),約 32 倍 (OSCAR コンパイラ+既存ライブラリ使用時),AAC エンコーダで約 16 倍 (OSCAR コンパイラ+既存ライブラリ使用時) の性能向上が得られ,ヘテロジニアスマルチコアを対象とした汎用的なコンパイラフレームワークを実現可能であることがわかった.Heterogeneous multicores, which integrates multiple general purpose CPU cores and special purpose accelerator cores on a chip, has been widely used in order to attain high performance keeping power consumption low. However, heterogeneous multicores require to programmers very difficult coding for load distribution to CPU cores and accelerator cores, synchronizations and data transfer using DMA controllers. To this end, this paper proposes a compiler framework which facilitates the development of the program for heterogeneous multicores. This framework parallelize the sequenctial C program using OSCAR parallelizing compiler and accelerator compiler. The developed framework gives us 12 times, 32 times and 16 times speedup with eight general purpose CPU cores and four accelerator cores on RP-X processor for an Optical Flow Calculation(using accelerator compiler), Optical Flow Calculation(using library) and an AAC audio encoder program(using library), respectively, against sequential execution by a single CPU core.

情報家電用ヘテロジニアスマルチコアRP-Xにおけるコンパイラ低消費電力制御性能

和田 康孝;林 明宏;渡辺 岳志;関口 威;間瀬 正啓;白子 準;木村 啓二;伊藤 雅之;長谷川 淳;佐藤 真琴;野尻 徹;内山 邦男;笠原 博徳

研究報告計算機アーキテクチャ(ARC)2010(8)p.1 - 102010年07月-2010年07月 

CiNii

詳細

ISSN:09196072

概要:本稿では,情報家電用ヘテロジニアスマルチコア RP-X 上で,コンパイラによる低消費電力制御を適用した結果について述べる.RP-X は NEDO の "情報家電用ヘテロジニアス・マルチコア技術の研究開発" プロジェクトにおいて開発された情報家電用のヘテロジニアスマルチコアであり,汎用 CPU コアとして SH-4A コアを 8 基,アクセラレータコアとして多目的 DRP コア FE-GA 4 基と画像処理用コア MX2 2 基,さらにメディア用コア VPU5 を搭載する.また,周波数制御・電圧制御等の低消費電力化のための機構を持つ.OSCAR コンパイラによって実現される低消費電力制御手法を RP-X の低消費電力機構に適用し,リアルタイム処理時の消費電力削減効果の評価を行った.その結果,SH-4A 8 コアと FE-GA 4 コアを用いた場合,制御を適用しない場合と比較して,オプティカルフロー演算において約 70[%],AAC エンコーダにおいて約 80[%] の電力削減を得ることができた.This paper reports the efficiency of power reduction scheme by OSCAR compiler applied for a heterogeneous multicore for consumer electronics "RP-X". RP-X is a heterogeneous multicore developed in NEDO "Heterogeneous Multicore for Consumer Electronics" project. RP-X includes eight SH-4A cores, four FE-GA DRPs, two MX2 matrix processors, and one VPU5 media processor. To satisfy strong demands for low power consumption, RP-X is also equipped with mechanisms to reduce the power by changing operation frequency and voltage, or by gating clock. Power reduction scheme implemented in OSCAR compiler is applied to RP-X, and evaluated under the realtime constraint using eight SH-4A cores and four FE-GA cores. As the results, consumed power was reduced by about 70[%] for optical flow calculation, and about 80[%] for an AAC encoder program.

プログラム構造に着目したメニーコアアーキテクチャシミュレータの高速化手法

石塚 亮;大友 俊也;大胡 亮太;木村 啓二;笠原 博徳

研究報告計算機アーキテクチャ(ARC)2010(20)p.1 - 72010年07月-2010年07月 

CiNii

詳細

ISSN:09196072

概要:本稿ではキャッシュやパイプラインまでシミュレーションする詳細シミュレーションと命令実行のみの高速な機能シミュレーションの両方を用いたシミュレーション精度切り替えによるメニーコアシミュレータの高速化手法を提案する.本手法はメニーコアシミュレータ上で並列化プログラムを実行することを前提としており,このプログラムの一部のみを詳細シミュレーションを行うことにより高速化を図る.このとき,詳細シミュレーションを行うサンプリング部分をプログラム構造から判断し,その分量を統計的手法により決定する.本手法を SPEC95 の TOMCATV,SWIM で及びルネサステクノロジ (当時) 提供の AAC エンコーダプログラムを用いて評価したところ,64 コアを想定したシミュレーションで,TOMCATV で 3% 以下の誤差,SWIM で 6% 以下の誤差,AAC エンコーダで 5% 以下の誤差の実行サイクル数を 1/90~1/8 のサンプリング実行で得ることができた.This paper proposes an acceleration technique of many core architecture simulator which dynamically changes the simulation mode. The detailed simulation mode considering architectual details, such as cache and pipeline, is used for some essential portion of the target program while the fast functional simulation mode which only simulates instruction execution is leveraged for the rest of the program. The key feature of the proposed technique is that the essensial portion of the program which should be precisely simulated, is analyzed from the program strutre as well as the appropriate sampling size for detail simulation for that portion are determined with statistical approach. The evaluation results show that the simulation method give us the within 3% error for TOMCATV, 6% error for SWIM, 5%error for AACencorder, of execution clock cycles by 1/90 - 1/8 of samplings in the simulation of 64 cores.

OSCAR API標準解釈系を用いたParallelizable Cプログラムの評価

佐藤 卓也;見神 広紀;林 明宏;間瀬 正啓;木村 啓二;笠原 博徳

研究報告計算機アーキテクチャ(ARC)2010(2)p.1 - 62010年10月-2010年10月 

CiNii

詳細

ISSN:09196072

概要:本稿では種々の組み込みプロセッサ上で OSCAR (Optimally Scheduled AdvancedMultiprocessor) コンパイラが並列化した C あるいは Fortran プログラムを動作させることを可能とする OSCAR API を各マルチコア用のライブラリコールに変換する OSCAR API 標準解釈系を提案する.この OSCAR API 標準解釈系を用いることにより,OSCAR コンパイラが出力したプログラムは各コア用のライブラリコール入り C あるいは Fortran プログラムになり対象マルチコア内のシングルコア用コンパイラを用いて簡単にバイナリを生成し,各マルチコア上で DMA や電力制御機能を含めて実行することができる.この OSCAR API 標準解釈系を用いて OSCAR コンパイラにより並列化された Parallelizable C プログラムの評価を行った.その結果,逐次実行時と比較して,2 コア集積のマルチコアである IBM Power5+ を 4 基搭載した 8 コア SMPサーバである IBM p5 550Q において平均 5.61 倍,4 コア集積のマルチコアである Intel Xeon 5506 プロセッサを 2 基搭載した 8 コア SMP サーバにおいて平均 4.43 倍,SH-4A コアベースの情報家電用マルチコア RP2 の 4 コアを使用した SMP 実行モードにおいて平均 3.34 倍の性能向上が得られた.This paper proposes OSCAR(Optimally Scheduled Advanced Multiprocessor) API Standard Translator. OSCAR API has been developped as an interface between OSCAR compiler, which can parallelize C and Fortran programs, and various embedded multi cores. The OSCAR API Standard Translator translates a parallelized C or Fortran program by OSCAR compiler into a program having runtime library calls for DMA transfer, power control and so on for a target multicore. The parallel processing performance for Parallelizable C programs, which are automatically parallelized by OSCAR compiler, are evaluated on there multicore systems. The evaluation results show that, compared with sequential execution, 5.61 times speedup is achieved on a 8 cores server IBM p5 550Q with 4 dual-core Power5+ processors on average, 4.43 times speedup on a 4 cores server with 2 quad-core Intel Xeon processors on average, and 3.34 times speedup on Renesas/Hitachi/Waseda RP2 with SH-4A cores in SMP execution mode using 4 cores on average, respectively.

SMPサーバー上での粒子線がん治療用線量計算エンジンの自動並列化

林 明宏;松本 卓司;見神 広紀;木村 啓二;山本 啓二;崎 浩典;高谷 保行;笠原 博徳

情報処理学会研究報告. 計算機アーキテクチャ研究会報告2011(2)p.1 - 92011年11月-2011年11月 

CiNii

詳細

概要:粒子線によるがん治療は臨床レベルで実用化されており,外科的侵襲を伴わず患者への負担が少なく,また X 線放射線治療の様に皮膚からがん患部までの正常細胞に損傷を負わせることもなくその高い治癒率から注目を集めている.治療にあたっては医師が事前に計算機を使用してがん細胞にのみ照射するための照射計画のシミューレーションを行うが,標的に必要な投与線量が集中するように各種機器の設定条件を調整するには,シミュレーションを繰り返して評価することが必要であり時間が非常にかかるなどの問題点があった.本論文では,この治療計画を高速に行う重粒子線治療用線量計算エンジンの並列化手法を提案する.具体的には逐次プログラムをコンパイラで並列化しやすい Parallelizable C によって記述された計算エンジン本体を開発することにより OSCAR 自動並列化コンパイラにより自動並列化を行う.これにより一度だけの書き換えで任意の SMP サーバーで任意プロセッサ数に対応できるようにした.その結果 IBM Power 7 プロセッサを搭載した日立 SR16000 SMP サーバー上において.64CPU 使用時に約 50 倍,そして Intel Xeon X5670 プロセッサを搭載した日立 HA8000/RS220 SMP サーバー上において,12CPU 使用時に約 9 倍の性能向上を実現し,提案手法が高いスケーラビリティを実現可能であることを確認した.

SMPサーバー上での粒子線がん治療用線量計算エンジンの自動並列化

林 明宏;松本 卓司;見神 広紀;木村 啓二;山本 啓二;崎 浩典;高谷 保行;笠原 博徳

情報処理学会研究報告. [ハイパフォーマンスコンピューティング]2011(2)p.1 - 92011年11月-2011年11月 

CiNii

詳細

概要:粒子線によるがん治療は臨床レベルで実用化されており,外科的侵襲を伴わず患者への負担が少なく,また X 線放射線治療の様に皮膚からがん患部までの正常細胞に損傷を負わせることもなくその高い治癒率から注目を集めている.治療にあたっては医師が事前に計算機を使用してがん細胞にのみ照射するための照射計画のシミューレーションを行うが,標的に必要な投与線量が集中するように各種機器の設定条件を調整するには,シミュレーションを繰り返して評価することが必要であり時間が非常にかかるなどの問題点があった.本論文では,この治療計画を高速に行う重粒子線治療用線量計算エンジンの並列化手法を提案する.具体的には逐次プログラムをコンパイラで並列化しやすい Parallelizable C によって記述された計算エンジン本体を開発することにより OSCAR 自動並列化コンパイラにより自動並列化を行う.これにより一度だけの書き換えで任意の SMP サーバーで任意プロセッサ数に対応できるようにした.その結果 IBM Power 7 プロセッサを搭載した日立 SR16000 SMP サーバー上において.64CPU 使用時に約 50 倍,そして Intel Xeon X5670 プロセッサを搭載した日立 HA8000/RS220 SMP サーバー上において,12CPU 使用時に約 9 倍の性能向上を実現し,提案手法が高いスケーラビリティを実現可能であることを確認した.

JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」を用いたParallelizable Cの定義(組込みシステムソフトウェア,組込み技術とネットワークに関するワークショップETNET2012)

木村 啓二;間瀬 正啓;笠原 博徳

電子情報通信学会技術研究報告. DC, ディペンダブルコンピューティング111(462)p.127 - 1322012年02月-2012年02月 

CiNii

詳細

ISSN:0913-5685

概要:組込みソフトウェアの品質向上を目的として,JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」が策定された.一方,自動並列化コンパイラによる並列性抽出を補助するためのParalleliza Cが提案されている.本稿では,組込みソフトウェア開発者の自動並列化コンパイラ活用によるマルチコア用アプリケーション開発の生産性向上を目的とし,JISX0180:2011によるParallelizable Cの定義を提案する.本コーディング規約によるプログラムを商用SMP及び情報家電用マルチコア上で評価した結果,8コアのIBM p5 550Qでは平均5.54倍,4コアのIntel Core i7 960では平均2.43倍,4コアのRenesas/Hitachi/Waseda RP2では平均2.79倍の速度向上をそれぞれ得ることができた.

JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」を用いたParallelizable Cの定義(組込みシステムソフトウェア,組込み技術とネットワークに関するワークショップETNET2012)

木村 啓二;間瀬 正啓;笠原 博徳

電子情報通信学会技術研究報告. CPSY, コンピュータシステム111(461)p.127 - 1322012年02月-2012年02月 

CiNii

詳細

ISSN:09135685

概要:組込みソフトウェアの品質向上を目的として,JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」が策定された.一方,自動並列化コンパイラによる並列性抽出を補助するためのParalleliza Cが提案されている.本稿では,組込みソフトウェア開発者の自動並列化コンパイラ活用によるマルチコア用アプリケーション開発の生産性向上を目的とし,JISX0180:2011によるParallelizable Cの定義を提案する.本コーディング規約によるプログラムを商用SMP及び情報家電用マルチコア上で評価した結果,8コアのIBM p5 550Qでは平均5.54倍,4コアのIntel Core i7 960では平均2.43倍,4コアのRenesas/Hitachi/Waseda RP2では平均2.79倍の速度向上をそれぞれ得ることができた.

OSCAR API標準解釈系を用いた階層グルーピング対応ハードウェアバリア同期機構の評価

川島慧大;金羽木洋平;林明宏;木村啓二;笠原博徳

研究報告計算機アーキテクチャ(ARC)2013(16)p.1 - 62013年07月-2013年07月 

CiNii

詳細

概要:1 チップ内に搭載されるコア数の増加に伴い,アプリケーションからより多くの並列性を抽出し,低オーバーヘッドで利用することがこれらのコアを有効利用するために重要となっている.OSCAR コンパイラによる自動並列化ではより多くの並列性を利用するため,ループやサブルーチン内部の粗粒度並列性を解析し,階層的にタスク定義を行う.この階層的に定義されたタスクをコアを階層的にグルーピングし,コアグループに対して割り当てることにより並列処理を実現する.この階層的なグループ間で独立かつ低コストでバリア同期を実現できるハードウェアが提案され,SH4A プロセッサ 8 コア搭載の情報家電用マルチコア RP2 に実装されている.本稿では,OSCAR API 標準解釈系の階層グループバリア同期 API を RP2 のハードウェアバリア同期機構に対応し評価を行った結果について述べる.8 コアを使用した SPEC CPU 2000 の ART による評価ではソフトウェアでのバリア同期に対し 1.16 倍の性能向上が得られた.

Androidベースマルチコア上での自動電力制御

平野智大 ;山本英雄 ;武藤康平 ;三神広紀 ;後藤隆志 ;DominicHillenbrand ;木村啓二 ;笠原浩徳

情報処理学会研究報告. 計算機アーキテクチャ研究会報告2013(23)p.1 - 72013年07月-2013年07月 

CiNii

詳細

概要:近年,スマートフォン,タブレットといったスマートデバイスはより高いパフォーマンスの要求を満たすためにシングルコアプロセッサからマルチコアプロセッサに移行している.しかしながら,スマートデバイスはより高頻度で利用されるに伴って,電力消費量は増加している.スマートデバイスの消費電力の問題は,スマートデバイスの利用者と生産にかかわる産業界が直面する最も重要な難題の 1 つである.本稿では,ODROID-X2 と呼ばれる開発ボードを用いて,疑似クロックゲーティング手法と GPIO を利用した正確な電力測定環境を用意し,Android プラットフォーム上での OSCAR 自動並列化並列化コンパイラによる電力制御の有用性の調査を行った.また,新しい疑似クロックゲーティング手法として WFI を用いて演算命令の中断とクロックの停止を 500[us] 間隔で実現可能にした.さらに,プロセッサ内のの GPIO の動作の制御を可能にし,プログラム中から GPIO の制御 API を呼び出すことで,電力波形図に GPIO 制御 API の呼び出し箇所が明示できるようにした.これにより GPIO 制御の状態からプログラムと電力波形の対応関係が明確化された正確な電力測定環境を実現した.リアルタイム制約のもと,MPEG2 デコーダと Optical Flow を用いて評価を行ったところ,MPEG2 デコーダでは 1PE で 0.97[W] から 0.63[W] に,2PE で 1.88[w] から 0.46[W] に,3PE で 2.79[W] から 0.37[W] へ電力削減が確認できた.また,Optical Flow を用いて評価を行ったところ,1PE で 0.95[W] から 0.72[W] に,2PE で 1.50[w] から 0.36[W] に,3PE で 2.23[W] から 0.30[W] へ電力削減が確認できた.

不正侵入検知システムにおけるマルチコア上でのシグネチャ割当によるレイテンシ削減手法

山田 正平;見神 広紀;木村 啓二;笠原 博徳

情報処理学会研究報告. 計算機アーキテクチャ研究会報告2014(2)p.1 - 82014年02月-2014年02月 

CiNii

詳細

概要:企業や政府機関を標的としたサイバー攻撃が年々高度で大規模なものになっている.これらサイバー攻撃の有効策のひとつとして不正侵入検知システムが挙げられる.不正侵入検知システムはネットワークを監視し,IP パケットをフィルタリングすることで不審なアクセスをリアルタイムで検知する.一方で,膨大なパケットを処理するための処理性能が求められる.そこで本研究では,シグネチャ型の不正侵入検知システムにおいてシグネチャを分割し,マルチコアへの割当によるレイテンシ削減手法を提案する.本手法は,並列処理によってパケットあたりの検知処理時間の短縮が可能である.レイテンシ削減手法をオープンソースの不正侵入検知システムであるSuricataにおいて適用し,DARPA Intrusion Detection Evaluation Data Setなどのデータセットを入力とした際の検知処理性能を評価した.その結果,2 コア上でシグネチャを分割しない場合と比較して DARPA Intrusion Detection Evaluation Data Set において 4 コア上で最大 3.22 倍の検知処理時間の短縮を得ることができた.

小ポイントFFTのマルチコア上での自動並列化手法

古山 祐樹;見神 広紀;木村 啓二;笠原 博徳

情報処理学会研究報告. 計算機アーキテクチャ研究会報告2014(3)p.1 - 82014年02月-2014年02月 

CiNii

詳細

概要:高速フーリエ変換 (FFT) は,ディジタル信号処理や画像圧縮など様々な分野で使用される非常に応用性の高い計算アルゴリズムである.その中でも,LTE 等のベースバンド処理で用いられる小ポイントの FFT プログラムは,データ転送や制御のオーバーヘッドを伴う専用ハードウェアを使用しにくく,マルチコア上での並列化の要求が高まっている.本稿では,そのような小ポイントの FFT プログラムに対しコンパイラによる自動並列化及び,false sharing 回避を目的としたキャッシュ最適化を適用し,データキャッシュを持つ種々の共有メモリ型マルチコアアーキテクチャに向けて低オーバーヘッドな並列化コードを生成する自動並列化手法を提案する.提案手法を OSCAR 自動並列化コンパイラに実装し,32 ポイントから 256 ポイントまでの小ポイントFFTを並列化し,8 つの SH4A コアを集積した情報家電用マルチコアプロセッサ RP2 上で性能評価を行ったところ,256 ポイントの FFT プログラムで,逐次プログラムに対し 2 コア並列化で 1.97 倍,4 コア並列化で 3.9 倍というスケーラブルな速度向上を得ることが出来た.また,FFT と同様にバタフライ演算を行う高速アダマール変換のプログラムにも同手法を適用し評価を行い,256 ポイントのプログラムで 2 コア並列化で 1.91 倍,4 コア並列化で 3.32 倍という高い速度向上が得られ,提案手法の有用性が確認された.

自動車エンジン制御ソフトウエアにおけるマルチコア上での並列処理(アプリケーション並列化,集積回路とアーキテクチャの協創〜新しいアプリケーション創造に向けたアーキテクチャ、回路技術の貢献〜)

金羽木 洋平;梅田 弾;見神 広紀;林明 宏;沢田 光男;木村 啓二;笠原 博徳

電子情報通信学会技術研究報告. ICD, 集積回路112(425)p.3 - 102013年01月-2013年01月 

CiNii

詳細

ISSN:0913-5685

概要:より安全,快適,省エネな自動車の要求が高まっており,自動車制御系の計算負荷か増大しているこれに伴い,制御用プロセッサコアに高い性能が求められるが,動作周波数の向上によるプロセッサコアの高性能化が困難となっており,マルチコアへの移行が求められているしかし,エンシン制御におけるマルチコア利用においては手動によるプログラムの並列化が困難て,処理性能,並列化に伴うコスト,期間等が問題となっている本稿ては,これらの問題を解決し,従来シンクルコアのみて動作していた自動車エンジン制御ソフトウェアをマルチコア上て並列化する手法を提案する.具体的には,自動車エンジン制御Cプロクラムに対し,より多くの並列性を抽出するため,関数のインライン展開および条件分岐の複製等,逐次プロクラムのリストラクチャリンクを行った後, OSCAR自動並列化コンパイラにより自動並列化を行う.その結果,従来タスクの粒度が細かく,手動ての並列化が困難てあった自動車エンシン制御ソフトウェアを,組込用マルチコアRP-X上て2コアを用いて並列実行したところ, 1コアに対して171倍の速度向上を得ることに成功し,自動車エンシン制御ソフトウェアのマルチコア上ての並列処理か有効てあることを確認した

並列化アプリケーションを対象とした統計的手法によるメニーコアアーキテクチャシミュレーションの高速化(モデリング・シミュレーション,集積回路とアーキテクチャの協創〜新しいアプリケーション創造に向けたアーキテクチャ、回路技術の貢献〜)

阿部 洋一;田口 学豊;木村 啓二;笠原 博徳

電子情報通信学会技術研究報告. ICD, 集積回路112(425)p.57 - 632013年01月-2013年01月 

CiNii

詳細

ISSN:0913-5685

概要:本稿ては,プログラムのループに着目した統計的サンプリングによるメニーコアアーキテクチャノミュレーノョンの高速化手法の,自動クラスタリングによるサンプリング位置特定手法を提案する筆者等による従来の提案手法ては,着目するループからサンプリングするイタレーンヨン数を統計的手法によって算出するさらに,イタレーノョンことの実行サイクル数か大きく変化するようなアプリケーンヨンては,クラスタリングによってプロファイル結果をサンプルサイスか小さくなるように分類することて,低サンプル数て高精度なシミュレーンヨン結果推定を行うことかできる しかしなから,クラスタ数の決定は手動て行う必要かあった 本稿ではクラスタリング手法としてx-means法を用いることて,クラスタ数の決定を自動て行う手法を提案する 本手法の予備評価として逐次実行コストの推定を行った結果,最もイタレーンヨン実行コストの変動か激しいMPEG-2エンコーダの入力動画SIFI6の場合において, x-measnsては450イタレーション中の14イタレーションをサンプリングすることて192%の誤差か得られることを確認てき,高精度かつ低サンプリング数となるクラスタ数の決定を自動的に得られることか確認てきた

コンパイラと協調したシミュレーション精度切り換え可能なマルチコアアーキテクチャシミュレータ(モデリング・シミュレーション,集積回路とアーキテクチャの協創〜新しいアプリケーション創造に向けたアーキテクチャ、回路技術の貢献〜)

田口 学豊;阿部 洋一;木村 啓二;笠原 博徳

電子情報通信学会技術研究報告. ICD, 集積回路112(425)p.65 - 712013年01月-2013年01月 

CiNii

詳細

ISSN:0913-5685

概要:本稿ては,コンパイラと協調してノミュレーンヨン精度を相互に切り替えることかてきるマルチコアアーキテクチャシミュレータによってンミュレーノョン速度を高速化する枠組みを提案する 本提案ては,コンパイラを介して,対象プログラムにおける詳細ノミュレーノョンを行うサンプリンク量の決定や,並列化プロクラムに対する精度切り換えコートの自動生成を行う 本手法をSPEC CPU 2000のEQUAKEに適用したところ,誤差16パーセント以内て50倍〜500倍の高速化か可能てあることを示した

低消費電力コンピューティングを実現するマルチコア技術

木村 啓二;笠原 博徳

電子情報通信学会誌97(2)p.133 - 1392014年02月-2014年02月 

CiNii

詳細

ISSN:09135693

概要:マルチコアプロセッサは,スマートフォン,パーソナルコンピュータ,自動車からクラウドサーバ,スーパコンピュータに至るまで,各種のIT機器で利用されている.これは,マルチコアでは半導体集積度の向上とともに性能向上を可能にしつつ消費電力を抑えることができるためで,環境に優しい低消費電力コンピューティング,すなわちグリーンコンピューティングの実現のための最有力技術として採用されている.本稿では,この低消費電力マルチコアにおけるコンパイラを中心としたソフトウェアとハードウェアの協調及び各種組込み応用について紹介する.

Linux ftraceを用いたマルチコアプロセッサ上での並列化プログラムのトレース手法

福意 大智;島岡 護;見神 広紀;Dominic Hillenbrand;木村 啓二;笠原 博徳

研究報告計算機アーキテクチャ(ARC)2014(6)p.1 - 62014年07月-2014年07月 

CiNii

詳細

概要:ソフトウェアの適切な並列化により,マルチコアを搭載したコンピュータシステム上でアプリケーションを高速に動作させることが可能である.並列化されたソフトウェアの挙動や性能を調査する手法として,ソースコードの解読や実行ダンプファイルの収集,プロファイラの利用,デバッガの利用といった方法が挙げられる.しかしこれらの手法ではどのようなタイミングにおいてコンテクストスイッチが発生したのか,システムで発生する事象に対してソフトウェアがどのような影響を受けているかといった情報を得ることは困難である.そこで,本稿では並列化されたプログラムが実際に並列実行される様子をソフトウェアからトレースに任意のアノテーションを挿入可能とする拡張を施した Linux ftrace を用いて解析する手法を提案する.提案手法を用いて,Intel Xeon X7560,ARMv7 の各々のプラットフォームにおいて equake,art,mpeg2enc というベンチマークのトレースを行い,これらのプログラムが実行時に OS からどのような影響を受けているか観測できることが確認できた.また,1 回のアノテーションの挿入を Intel Xeon で 1.07[us],ARMで4.44[us] で可能であることが確認できた.

MATLAB/Simulinkで設計されたエンジン制御Cコードのマルチコア用自動並列化

梅田 弾;金羽木 洋平;見神 広紀;林 明宏;谷 充弘;森 裕司;木村 啓二;笠原 博徳

情報処理学会論文誌55(8)p.1817 - 18292014年08月-2014年08月 

CiNii

詳細

ISSN:03875806

概要:近年の自動車では安全性・快適性・環境適合性が求められ,これらを実現するために自動車制御系のソフトウェアが年々より高度化している.制御の高度化と同時に,これらを実現するソフトウェアをリアルタイムで動作させるために,プロセッサの高速化が必要である.しかし,シングルコアの動作周波数の向上が困難であることから,1コアによる処理性能向上が限界となり,今後の自動車制御系でマルチコアへの移行が進んでいくと考えられる.また,自動車制御系において開発期間の短縮および信頼性の向上のためにMATLAB/Simulinkによるモデルベース設計が普及している.しかし,現時点でこのようなモデルベース設計で自動的にコード生成されるソースコードはマルチコア上で自動的に並列処理できるまでには至っていない.そこで,本論文ではMATLAB/Simulinkによって設計された制御モデルからEmbedded Coderにより自動生成されたエンジン制御Cコードをマルチコア上で動作するための並列化手法を提案する.提案手法を用いて,従来手動ではタスク粒度が細かく並列化が困難であった条件分岐と算術代入文からなるエンジン制御CコードをOSCAR自動並列化コンパイラにて自動並列化した.RP2やV850E2R等の組み込みマルチコア上で実行したところ,2コアで最大1.91倍,4コアで最大3.76倍の性能向上が得られた.

OSCARコンパイラを用いたH.264/AVCデコーダのAndroidマルチコアでの低消費電力化

飯塚修平;山本英雄;平野智大;後藤隆志;見神広紀;高橋宇一郎;井上栄;高村守幸;木村啓二;笠原博徳

研究報告計算機アーキテクチャ(ARC)2014(9)p.1 - 12014年09月-2014年09月 

CiNii

詳細

概要:スマートフォンの普及と移動通信の高速化に伴い,モバイル端末における動画再生の頻度が増加している.H.264/AVC は高い圧縮率を実現することからワンセグ放送や YouTube など現在のメディア処理に広く利用されている動画像圧縮符号標準であるが,モバイル端末では動画再生時の膨大な演算に対する消費電力の増大がバッテリー持続時間の低下を招き,問題となっている.この問題に対して,現在では専用ハードウェアが用いられているが,モバイル端末に求められる多様なコーデックやアップデートへの柔軟な対応を考慮すると,今後ソフトウェアによる解決手法が有用であると考えられる.本研究では H.264/AVC デコーダのプログラムのうち最も負荷が大きいフレーム間予測及び,デブロッキングフィルタの処理に対して並列化を行った上で電力制御を適用し,ソフトウェアによる消費電力削減の有用性を検証した.OSCAR 自動並列化コンパイラを用いて LoopSkewing のアクセス順序からマクロブロックレベルでの並列性を抽出し,リアルタイム制約の保証内での DVFS 及び WFI を用いた擬似クロックゲーティングを適用した.Android 端末の開発ボードである ODROID-X2 の上で電力値の評価を行ったところ,1PE で 1.07[W] から 0.79[W] に,2PE で 1.69[W] から 0.57[W] に,3PE で 2.45[W] から 0.51[W] に消費電力を削減したことが確認された.

自動並列化コンパイラによるソフトウェアキャッシュコヒーレンシ制御手法の評価

岸本 耀平;間瀬 正啓;木村 啓二;笠原 博徳

研究報告計算機アーキテクチャ(ARC)2014(19)p.1 - 72014年12月-2014年12月 

CiNii

詳細

概要:主記憶共有型マルチコアプロセッサにおいて,一般にキャッシュコヒーレンシ制御はハードウェアにより実現されている.今後のプロセッサコア数の増加に伴いキャッシュコヒーレンシハードウェアの回路規模は大きくなり,チップへの実装が困難になること,電力消費が大きくなること,設計期間及び開発費用が増大することが懸念されている.本稿ではこのハードウェアコヒーレンシ制御の問題を解決するために,ハードウェアコヒーレンシ制御機構を持たない主記憶共有型ノンコヒーレントキャッシュマルチコアに対して,並列化コンパイラがソフトウェアに対し自動的にコヒーレンシ制御を行う手法を提案する.本手法を実装した OSCAR 自動並列化コンパイラと,4 コアのクラスタを 2 つ持ちクラスタ間ではハードウェアコヒーレンシを持たない情報家電用マルチコア RP2 を用い性能評価を行った.9 つの科学技術計算アプリケーションを対象として評価を行ったところ,4 コアのハードウェアコヒーレンシ制御使用時の性能は平均で 1 コア性能の 2.80 倍であったのに対し,ハードウェアコヒーレンシを使用せず本手法を適用した 4 コア実行時の性能は平均で 1 コア性能の 2.61 倍となりほぼ同等の速度向上が得られ,さらに 8 コアハードウェアコヒーレンシ制御無効時には平均で 1 コア性能の 3.66 倍とスケールアップすることが確認できた.

自動並列化コンパイラによるソフトウェアキャッシュコヒーレンシ制御手法の評価

岸本 耀平;間瀬 正啓;木村 啓二;笠原 博徳

研究報告ハイパフォーマンスコンピューティング(HPC)2014(19)p.1 - 72014年12月-2014年12月 

CiNii

詳細

概要:主記憶共有型マルチコアプロセッサにおいて,一般にキャッシュコヒーレンシ制御はハードウェアにより実現されている.今後のプロセッサコア数の増加に伴いキャッシュコヒーレンシハードウェアの回路規模は大きくなり,チップへの実装が困難になること,電力消費が大きくなること,設計期間及び開発費用が増大することが懸念されている.本稿ではこのハードウェアコヒーレンシ制御の問題を解決するために,ハードウェアコヒーレンシ制御機構を持たない主記憶共有型ノンコヒーレントキャッシュマルチコアに対して,並列化コンパイラがソフトウェアに対し自動的にコヒーレンシ制御を行う手法を提案する.本手法を実装した OSCAR 自動並列化コンパイラと,4 コアのクラスタを 2 つ持ちクラスタ間ではハードウェアコヒーレンシを持たない情報家電用マルチコア RP2 を用い性能評価を行った.9 つの科学技術計算アプリケーションを対象として評価を行ったところ,4 コアのハードウェアコヒーレンシ制御使用時の性能は平均で 1 コア性能の 2.80 倍であったのに対し,ハードウェアコヒーレンシを使用せず本手法を適用した 4 コア実行時の性能は平均で 1 コア性能の 2.61 倍となりほぼ同等の速度向上が得られ,さらに 8 コアハードウェアコヒーレンシ制御無効時には平均で 1 コア性能の 3.66 倍とスケールアップすることが確認できた.

統計的手法を用いた並列化コンパイラ協調マルチコアアーキテクチャシミュレータ高速化手法(OS及びシステム開発,組込み技術とネットワークに関するワークショップETNET2014)

田口 学豊;木村 啓二;笠原 博徳

電子情報通信学会技術研究報告. DC, ディペンダブルコンピューティング113(498)p.289 - 2942014年03月-2014年03月 

CiNii

詳細

ISSN:0913-5685

概要:本稿では,並列化コンパイラと協調しマルチコアアーキテクチャシミュレーションを高速化する手法を提案する.本手法では,まず実機での逐次実行のプロファイルを取得し,そのプロファイル結果をx-means法でクラスタリングすることにより,評価対象アーキテクチャの詳細シミュレーションを行う箇所を特定する.さらに,クラスタリングの情報と評価対象マルチコアで実行するアプリケーションから,並列化コンパイラは精度切り替えコードを含む並列化コードを生成する.評価の結果,16コアのシミュレーションをSPECベンチマークのequakeにおいて誤差0.04%で437倍,MediaBenchのMPEG2エンコーダにおいて誤差0.04%で28倍の速度向上をそれぞれ得ることが出来た.

統計的手法を用いた並列化コンパイラ協調マルチコアアーキテクチャシミュレータ高速化手法(OS及びシステム開発,組込み技術とネットワークに関するワークショップETNET2014)

田口 学豊;木村 啓二;笠原 博徳

電子情報通信学会技術研究報告. CPSY, コンピュータシステム113(497)p.289 - 2942014年03月-2014年03月 

CiNii

詳細

ISSN:0913-5685

概要:本稿では,並列化コンパイラと協調しマルチコアアーキテクチャシミュレーションを高速化する手法を提案する.本手法では,まず実機での逐次実行のプロファイルを取得し,そのプロファイル結果をx-means法でクラスタリングすることにより,評価対象アーキテクチャの詳細シミュレーションを行う箇所を特定する.さらに,クラスタリングの情報と評価対象マルチコアで実行するアプリケーションから,並列化コンパイラは精度切り替えコードを含む並列化コードを生成する.評価の結果,16コアのシミュレーションをSPECベンチマークのequakeにおいて誤差0.04%で437倍,MediaBenchのMPEG2エンコーダにおいて誤差0.04%で28倍の速度向上をそれぞれ得ることが出来た.

不正侵入検知システムにおけるマルチコア上でのシグネチャ割当によるレイテンシ削減手法(実行効率化,集積回路とアーキテクチャの競創「カーエレクトロニクス技術及び一般」)

山田 正平;見神 広紀;木村 啓二;笠原 博徳

電子情報通信学会技術研究報告. ICD, 集積回路113(474)p.7 - 142014年02月-2014年02月 

CiNii

詳細

ISSN:0913-5685

概要:企業や政府機関を標的としたサイバー攻撃が年々高度で大規模なものになっている.これらサイバー攻撃の有効策のひとつとして不正侵入検知システムが挙げられる.不正侵入検知システムはネットワークを監視し,IPパケットをフィルタリングすることで不審なアクセスをリアルタイムで検知する.一方で,膨大なパケットを処理するための処理性能が求められる.そこで本研究では,シグネチャ型の不正侵入検知システムにおいてシグネチャを分割し,マルチコアヘの割当によるレイテンシ削減手法を提案する.本手法は,並列処理によってパケットあたりの検知処理時間の短縮が可能である.レイテンシ削減手法をオープンソースの不正侵入検知システムであるSuricataにおいて適用し,DARPA Intrusion Detection Evaluation Data Setなどのデータセットを入力とした際の検知処理性能を評価した.その結果,2コア上でシグネチャを分割しない場合と比較してDARPA Intrusion Detection Evaluation Data Setにおいて4コア上で最大3.22倍の検知処理時間の短縮を得ることができた.

小ポイントFFTのマルチコア上での自動並列化手法(実行効率化,集積回路とアーキテクチャの競創「カーエレクトロニクス技術及び一般」)

古山 祐樹;見神 広紀;木村 啓二;笠原 博徳

電子情報通信学会技術研究報告. ICD, 集積回路113(474)p.15 - 222014年02月-2014年02月 

CiNii

詳細

ISSN:0913-5685

概要:高速フーリエ変換(FFT)は,ディジタル信号処理や画像圧縮など様々な分野で使用される非常に応用性の高い計算アルゴリズムである.その中でも,LTE等のベースバンド処理で用いられる小ポイントのFFTプログラムは,データ転送や制御のオーバーヘッドを伴う専用ハードウェアを使用しにくく,マルチコア上での並列化の要求が高まっている.本稿では,そのような小ポイントのFFTプログラムに対しコンパイラによる自動並列化及び,false sharing回避を目的としたキャッシュ最適化を適用し,データキャッシュを持つ種々の共有メモリ型マルチコアアーキテクチャに向けて低オーバーヘッドな並列化コー.ドを生成する自動並列化手法を提案する.提案手法をOSCAR自動並列化コンパイラに実装し,32ポイントから256ポイントまでの小ポイントFFTを並列化し,8つのSH4Aコアを集積した情報家電用マルチコアプロセッサRP2上で性能評価を行ったところ,256ポイントのFFTプログラムで,逐次プログラムに対し2コア並列化で1.97倍,4コア並列化で3.9倍というスケーラブルな速度向上を得ることが出来た.また,FFTと同様にバタフライ演算を行う高速アダマール変換のプログラムにも同手法を適用し評価を行い,256ポイントのプログラムで2コア並列化で1.91倍,4コア並列化で3.32倍という高い速度向上が得られ,提案手法の有用性が確認された.

OSCAR自動並列化コンパイラを用いたリアルタイム動画像アプリケーションのHaswellマルチコア上での低消費電力化

飯塚 修平;山本 英雄;平野 智大;岸本 耀平;後藤 隆志;見神 広紀;木村 啓二;笠原 博徳

情報処理学会研究報告. SLDM, [システムLSI設計技術]2015(20)p.1 - 62015年02月-2015年02月 

CiNii

詳細

ISSN:09196072

概要:スマートフォンやノートパソコンといったモバイル端末からデータセンタで利用されるサーバーマシンまで,あらゆる計算機において消費電力の削減が最重要課題となっている.これは,消費電力の削減によりモバイル機器においてはバッテリー持続時間の延長により利便性が大幅に向上し,またサーバーマシンにおいては膨大な電力コストや空調コストの削減が実現できるからである.これらの計算機は高性能かつ低消費電力を実現するためにマルチコアプロセッサを搭載したものが主流となっている.しかしながらマルチコアの資源を有効活用してこれらを実現するためには,プログラムの並列化が不可欠であり手動で行うには膨大な工数を必要とする.本稿では,医用・防犯・個人認証・車載などで広く利用されているリアルタイム物体認識処理に対して,OSCAR 自動並列化コンパイラによる DVFS 及び clock gating による電力制御を適用し,現在幅広く利用されている Intel Haswell Core i7-4770K マルチコア上で評価した.Intel Haswell マルチコア上で,Web カメラからの画像の入力・人の顔の認識処理・画面描画というリアルタイムなシステム全域における消費電力の削減を行ったところ,1PE 逐次実行では電力制御なしの場合の 31.06[W] から電力制御ありの場合では 28.74[W] に,3PE で並列化実行した場合では電力制御なし場合のの 41.73[W] から電力制御の場合では 17.78[W] に消費電力を削減したことが確認され,物体認識処理におけるマルチコア用のコンパイラ自動電力制御の有用性が確認できた.

自動並列化・低消費電力化された複数アプリケーションに対するマルチコア用ダイナミックスケジューリング手法

後藤 隆志;武藤 康平;平野 智大;見神 広紀;高橋 宇一郎;井上 栄;木村 啓二;笠原 博徳

情報処理学会研究報告. SLDM, [システムLSI設計技術]2015(34)p.1 - 62015年02月-2015年02月 

CiNii

詳細

ISSN:09196072

概要:本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM 4 コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO 方式と比べ速度向上率で 18.5%,電力削減率で -28.8%の結果が得られた.

動画像デコーディングのIntelおよびARMマルチコア上での並列処理の評価

和気 珠実;飯塚 修平;見神 広紀;木村 啓二;笠原 博徳

情報処理学会研究報告. SLDM, [システムLSI設計技術]2015(35)p.1 - 62015年02月-2015年02月 

CiNii

詳細

ISSN:09196072

概要:本稿では,マルチコアプロセッサを用いて動画像デコーディング処理の高速化を実現する手法として 2 種類の並列化手法について性能評価を行った.1 つ目の並列化手法は並列化対象ループにループスキューイング/ループインターチェンジを適用する手法,2 つ目の並列化手法は wave-front 手法を適用する手法であり,どちらの場合もマクロブロック間の依存関係を満たしつつこれらの間の並列性を利用することで並列処理が可能となる.評価に用いる動画像コーデックは,MPEG2 と比較して約 2 倍の符号化効率を持ちワンセグ放送等に用いられている H.264/AVC と,H.264/AVC と同等の品質を持ち Youtube 等でも採用されている動画規格である WebM のビデオコーデック VP8 である.これらの規格により動画像デコーディングを行うプログラムに対して,上記 2 つの並列化手法をそれぞれ適用した.Snapdragon APQ8064 Krait 4 コアを搭載した Nexus7 上で評価を行った結果,ループスキューイング/ループインターチェンジ手法で並列化した場合,並列化箇所のみで逐次実行に比べ 3 コアで 1.33 倍速度向上し,その一方で wave-front 手法では 3 コアで 2.86 倍の速度向上が得られた.同様に Intel(R) Xeon(R) CPU X5670 プロセッサを搭載したマシンで評価を行った結果,ループスキューイング/ループインターチェンジ手法で並列化した場合,並列化箇所のみで逐次実行に比べ 6 コアで 1.82 倍速度向上し,一方で wave-front 手法では 6 コアで 4.61 倍の速度向上が得られた.

OSCAR自動並列化コンパイラを用いたリアルタイム動画像アプリケーションのHaswellマルチコア上での低消費電力化

飯塚 修平;山本 英雄;平野 智大;岸本 耀平;後藤 隆志;見神 広紀;木村 啓二;笠原 博徳

情報処理学会研究報告. EMB, 組込みシステム2015(20)p.1 - 62015年02月-2015年02月 

CiNii

詳細

ISSN:09196072

概要:スマートフォンやノートパソコンといったモバイル端末からデータセンタで利用されるサーバーマシンまで,あらゆる計算機において消費電力の削減が最重要課題となっている.これは,消費電力の削減によりモバイル機器においてはバッテリー持続時間の延長により利便性が大幅に向上し,またサーバーマシンにおいては膨大な電力コストや空調コストの削減が実現できるからである.これらの計算機は高性能かつ低消費電力を実現するためにマルチコアプロセッサを搭載したものが主流となっている.しかしながらマルチコアの資源を有効活用してこれらを実現するためには,プログラムの並列化が不可欠であり手動で行うには膨大な工数を必要とする.本稿では,医用・防犯・個人認証・車載などで広く利用されているリアルタイム物体認識処理に対して,OSCAR 自動並列化コンパイラによる DVFS 及び clock gating による電力制御を適用し,現在幅広く利用されている Intel Haswell Core i7-4770K マルチコア上で評価した.Intel Haswell マルチコア上で,Web カメラからの画像の入力・人の顔の認識処理・画面描画というリアルタイムなシステム全域における消費電力の削減を行ったところ,1PE 逐次実行では電力制御なしの場合の 31.06[W] から電力制御ありの場合では 28.74[W] に,3PE で並列化実行した場合では電力制御なし場合のの 41.73[W] から電力制御の場合では 17.78[W] に消費電力を削減したことが確認され,物体認識処理におけるマルチコア用のコンパイラ自動電力制御の有用性が確認できた.

自動並列化・低消費電力化された複数アプリケーションに対するマルチコア用ダイナミックスケジューリング手法

後藤 隆志;武藤 康平;平野 智大;見神 広紀;高橋 宇一郎;井上 栄;木村 啓二;笠原 博徳

情報処理学会研究報告. EMB, 組込みシステム2015(34)p.1 - 62015年02月-2015年02月 

CiNii

詳細

ISSN:09196072

概要:本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM 4 コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO 方式と比べ速度向上率で 18.5%,電力削減率で -28.8%の結果が得られた.

動画像デコーディングのIntelおよびARMマルチコア上での並列処理の評価

和気 珠実;飯塚 修平;見神 広紀;木村 啓二;笠原 博徳

情報処理学会研究報告. EMB, 組込みシステム2015(35)p.1 - 62015年02月-2015年02月 

CiNii

詳細

ISSN:09196072

概要:本稿では,マルチコアプロセッサを用いて動画像デコーディング処理の高速化を実現する手法として 2 種類の並列化手法について性能評価を行った.1 つ目の並列化手法は並列化対象ループにループスキューイング/ループインターチェンジを適用する手法,2 つ目の並列化手法は wave-front 手法を適用する手法であり,どちらの場合もマクロブロック間の依存関係を満たしつつこれらの間の並列性を利用することで並列処理が可能となる.評価に用いる動画像コーデックは,MPEG2 と比較して約 2 倍の符号化効率を持ちワンセグ放送等に用いられている H.264/AVC と,H.264/AVC と同等の品質を持ち Youtube 等でも採用されている動画規格である WebM のビデオコーデック VP8 である.これらの規格により動画像デコーディングを行うプログラムに対して,上記 2 つの並列化手法をそれぞれ適用した.Snapdragon APQ8064 Krait 4 コアを搭載した Nexus7 上で評価を行った結果,ループスキューイング/ループインターチェンジ手法で並列化した場合,並列化箇所のみで逐次実行に比べ 3 コアで 1.33 倍速度向上し,その一方で wave-front 手法では 3 コアで 2.86 倍の速度向上が得られた.同様に Intel(R) Xeon(R) CPU X5670 プロセッサを搭載したマシンで評価を行った結果,ループスキューイング/ループインターチェンジ手法で並列化した場合,並列化箇所のみで逐次実行に比べ 6 コアで 1.82 倍速度向上し,一方で wave-front 手法では 6 コアで 4.61 倍の速度向上が得られた.

Android Video Processing System Combined with Automatically Parallelized and Power Optimized Code by OSCAR Compiler

Binh Bui Duc;Hirano Tomohiro;Mikami Hiroki;Yamamoto Hideo;Kimura Keiji;Kasahara Hironori

Journal of Information Processing24(3)p.504 - 5112016年-2016年

CiNii

詳細

ISSN:1882-6652

概要:The emergence of multi-core processors in smart devices promises higher performance and low power consumption. The parallelization of applications enables us to improve their performance. However, simultaneously utilizing many cores would drastically drain the device battery life. This paper shows a demonstration system of real-time video processing combined with power reduction controlled by the OSCAR automatic parallelization compiler on ODROID-X2, an open Android development platform based on Samsung Exynos4412 Prime with 4 ARM Cortext-A9 cores. In this paper, we exploited the DVFS framework, core partitioning, and profiling technique and OSCAR parallelization - power control algorithm to reduce the total consumption in a real-time video application. The demonstration results show that it can cut power consumption by 42.8% for MPEG-2 Decoder application and 59.8% for Optical Flow application by using 3 cores in both applications.

Coarse grain task parallelization of earthquake simulator GMS using OSCAR compiler on various Cc-NUMA servers

Shimaoka, Mamoru; Wada, Yasutaka; Wada, Yasutaka; Kimura, Keiji; Kasahara, Hironori

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)9519p.238 - 2532016年01月-2016年01月 

DOIScopus

詳細

ISSN:03029743

概要:© Springer International Publishing Switzerland 2016.This paper proposes coarse grain task parallelization for a earthquake simulation program using Finite Difference Method to solve the wave equations in 3-D heterogeneous structure or the Ground Motion Simulator (GMS) on various cc-NUMA servers using IBM, Intel and Fujitsu multicore processors. The GMS has been developed by the National Research Institute for Earth Science and Disaster Prevention (NIED) in Japan. Earthquake wave propagation simulations are important numerical applications to save lives through damage predictions of residential areas by earthquakes. Parallel processing with strong scaling has been required to precisely calculate the simulations quickly. The proposed method uses the OSCAR compiler for exploiting coarse grain task parallelism efficiently to get scalable speed-ups with strong scaling. The OSCAR compiler can analyze data dependence and control dependence among coarse grain tasks, such as subroutines, loops and basic blocks. Moreover, locality optimizations considering the boundary calculations of FDM and a new static scheduler that enables more efficient task schedulings on cc-NUMA servers are presented. The performance evaluation shows 110 times speed-up using 128 cores against the sequential execution on a POWER7 based 128 cores cc-NUMA server Hitachi SR16000 VM1, 37.2 times speed-up using 64 cores against the sequential execution on a Xeon E7-8830 based 64 cores cc-NUMA server BS2000, 19.8 times speed-up using 32 cores against the sequential execution on a Xeon X7560 based 32 cores cc-NUMA server HA8000/RS440, 99.3 times speed-up using 128 cores against the sequential execution on a SPARC64 VII based 256 cores cc-NUMA server Fujitsu M9000, 9.42 times speed-up using 12 cores against the sequential execution on a POWER8 based 12 cores cc-NUMA server Power System S812L.

Multigrain parallelization for model-based design applications using the OSCAR compiler

Umeda, Dan; Suzuki, Takahiro; Mikami, Hiroki; Kimura, Keiji; Kasahara, Hironori

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)9519p.125 - 1392016年01月-2016年01月 

DOIScopus

詳細

ISSN:03029743

概要:© Springer International Publishing Switzerland 2016.Model-based design is a very popular software development method for developing a wide variety of embedded applications such as automotive systems, aircraft systems, and medical systems. Model-based design tools like MATLAB/Simulink typically allow engineers to graphically build models consisting of connected blocks for the purpose of reducing development time. These tools also support automatic C code generation from models with a special tool such as Embedded Coder to map models onto various kinds of embedded CPUs. Since embedded systems require real-time processing, the use of multi-core CPUs poses more opportunities for accelerating program execution to satisfy the real-time constraints. While prior approaches exploit parallelism among blocks by inspecting MATLAB/Simulink models, this may lose an opportunity for fully exploiting parallelism of the whole program because models potentially have parallelism within a block. To unlock this limitation, this paper presents an automatic parallelization technique for auto-generated C code developed by MATLAB/Simulink with Embedded Coder. Specifically, this work (1) exploits multi-level parallelism including inter-block and intra-block parallelism by analyzing the auto-generated C code, and (2) performs static scheduling to reduce dynamic overheads as much as possible. Also, this paper proposes an automatic profiling framework for the auto-generated code for enhancing static scheduling, which leads to improving the performance of MATLAB/Simulink applications. Performance evaluation shows 4.21 times speedup with six processor cores on Intel Xeon X5670 and 3.38 times speedup with four processor cores on ARM Cortex-A15 compared with uniprocessor execution for a road tracking application.

Annotatable systrace: An extended linux ftrace for tracing a parallelized program

Fukui, Daichi; Shimaoka, Mamoru; Mikami, Hiroki; Hillenbrand, Dominic; Yamamoto, Hideo; Kimura, Keiji; Kasahara, Hironori

SEPS 2015 - Proceedings of the 2nd International Workshop on Software Engineering for Parallel Systemsp.21 - 252015年10月-2015年10月 

DOIScopus

詳細

概要:© 2015 ACM.Investigation of the runtime behavior is one of the most important processes for performance tuning on a computer system. Profiling tools have been widely used to detect hot-spots in a program. In addition to them, tracing tools produce valuable information especially from parallelized programs, such as thread scheduling, barrier synchronizations, context switching, thread migration, and jitter by interrupts. Users can optimize a runtime system and hardware configuration in addition to a program itself by utilizing the attained information. However, existing tools provide information per process or per function. Finer information like task-or loop-granularity should be required to understand the program behavior more precisely. This paper has proposed a tracing tool, Annotatable Systrace, to investigate runtime execution behavior of a parallelized program based on an extended Linux ftrace. The Annotatable Systrace can add arbitrary annotations in a trace of a target program. The proposed tool exploits traces from 183.equake, 179.art, and mpeg2enc on Intel Xeon X7560 and ARMv7 as an evaluation. The evaluation shows that the tool enables us to observe load imbalance along with the program execution. It can also generate a trace with the inserted annotations even on a 32-core machine. The overhead of one annotation on Intel Xeon is 1.07 us and the one on ARMv7 is 4.44 us, respectively.

Android video processing system combined with automatically parallelized and power optimized code by OSCAR compiler

Binh, Bui Duc; Hirano, Tomohiro; Mikami, Hiroki; Yamamoto, Hideo; Kimura, Keiji; Kasahara, Hironori

Journal of Information Processing24(3)p.504 - 5112016年01月-2016年01月 

DOIScopus

詳細

ISSN:03875806

概要:© 2016 Information Processing Society of Japan.The emergence of multi-core processors in smart devices promises higher performance and low power consumption. The parallelization of applications enables us to improve their performance. However, simultaneously utilizing many cores would drastically drain the device battery life. This paper shows a demonstration system of realtime video processing combined with power reduction controlled by the OSCAR automatic parallelization compiler on ODROID-X2, an open Android development platform based on Samsung Exynos4412 Prime with 4 ARM Cortext- A9 cores. In this paper, we exploited the DVFS framework, core partitioning, and profiling technique and OSCAR parallelization - power control algorithm to reduce the total consumption in a real-time video application. The demonstration results show that it can cut power consumption by 42.8% for MPEG-2 Decoder application and 59.8% for Optical Flow application by using 3 cores in both applications.

Reducing parallelizing compilation time by removing redundant analysis

Han, Jixin; Fujino, Rina; Tamura, Ryota; Shimaoka, Mamoru; Mikami, Hiroki; Takamura, Moriyuki; Kamiya, Sachio; Suzuki, Kazuhiko; Miyajima, Takahiro; Kimura, Keiji; Kasahara, Hironori

SEPS 2016 - Proceedings of the 3rd International Workshop on Software Engineering for Parallel Systems, co-located with SPLASH 2016p.1 - 92016年10月-2016年10月 

DOIScopus

詳細

概要:© 2016 ACM.Parallelizing compilers employing powerful compiler optimizations are essential tools to fully exploit performance from today's computer systems. These optimizations are supported by both highly sophisticated program analysis techniques and aggressive program restructuring techniques. However, the compilation time for such powerful compilers becomes larger and larger for real commercial application due to these strong program analysis techniques. In this paper, we propose a compilation time reduction technique for parallelizing compilers. The basic idea of the proposed technique is based on an observation that parallelizing compilers apply multiple program analysis passes and restructuring passes to a source program but all program analysis passes do not have to be applied to the whole source program. Thus, there is an opportunity for compilation time reduction by removing redundant program analysis. We describe the removing redundant program analysis techniques considering the inter-procedural propagation of analysis update information in this paper. We implement the proposed technique into OSCAR automatically multigrain parallelizing compiler. We then evaluate the proposed technique by using three proprietary large scale programs. The proposed technique can remove 37.7% of program analysis time on average for basic analysis includes def-use analysis and dependence calculation, and 51.7% for pointer analysis, respectively.

Architecture design for the environmental monitoring system over the winter season

Yamashita, Koichiro; Yamashita, Koichiro; Ao, Chen; Suzuki, Takahisa; Xu, Yi; Li, Hongchun; Tian, Jun; Kimura, Keiji; Kasahara, Hironori

MobiWac 2016 - Proceedings of the 14th ACM International Symposium on Mobility Management and Wireless Access, co-located with MSWiM 2016p.27 - 342016年11月-2016年11月 

DOIScopus

詳細

概要:© 2016 ACM.One of the applications as a source of big data, there is a sensor network for the environmental monitoring that is designed to detect the deterioration of the infrastructure, erosion control and so on. The specific targets are bridges, buildings, slopes and embankments due to the natural disasters or aging. Basic requirement of this monitoring system is to collect data over a long period of time from a large number of nodes that installed in a wide area. However, in order to apply a wireless sensor network (WSN), using wireless communication and energy harvesting, there are not many cases in the actual monitoring system design. Because of the system must satisfy various conditions measurement location and time specified by the civil engineering communication quality and topology obtained from the network technology the electrical engineering to solve the balance of weather environment and power consumption that depends on the above-mentioned conditions. We propose the whole WSN design methodology especially for the electrical architecture that is affected by the network behavior and the environmental disturbance. It is characterized by determining recursively mutual trade-off of a wireless simulation and a power architecture simulation of the node devices. Furthermore, the system allows the redundancy of the design. In addition, we deployed the actual slope monitoring WSN that is designed by the proposed method to the snow-covered area. A conventional similar monitoring WSN, with 7 Ah Li-battery, it worked only 129 days in a mild climate area. On the other hand, our proposed system, deployed in the heavy snow area has been working more than 6 months (still working) with 3.2 Ah batteries. Finally, it made a contribution to the civil engineering succeeded in the real time observation of the groundwater level displacement at the time of melting snow in the spring season.

Accelerating Multicore Architecture Simulation Using Application Profile

Kimura, Keiji; Taguchi, Gakuho; Kasahara, Hironori

Proceedings - IEEE 10th International Symposium on Embedded Multicore/Many-Core Systems-on-Chip, MCSoC 2016p.177 - 1842016年12月-2016年12月 

DOIScopus

詳細

概要:© 2016 IEEE.Architecture simulators play an important role in exploring frontiers in the early stages of the architecture design. However, the execution time of simulators increases with an increase the number of cores. The sampling simulation technique that was originally proposed to simulate single-core processors is a promising approach to reduce simulation time. Two main hurdles for multi/many-core are preparing sampling points and thread skewing at functional simulation time. This paper proposes a very simple and low-error sampling-based acceleration technique for multi/many-core simulators. For a parallelized application, an iteration of a large loop including a parallelizable program part, is defined as a sampling unit. We apply X-means method to a profile result of the collection of iterations derived from a real machine to form clusters of those iterations. Multiple iterations are exploited as sampling points from these clusters. We execute the simulation along the sampling points and calculate the number of total execution cycles. Results from a 16-core simulation show that our proposed simulation technique gives us a maximum of 443x speedup with a 0.52% error and 218x speedup with 1.50% error on an average.

2-Step Power Scheduling with Adaptive Control Interval for Network Intrusion Detection Systems on Multicores

Tuong, Lau Phi; Kimura, Keiji

Proceedings - IEEE 10th International Symposium on Embedded Multicore/Many-Core Systems-on-Chip, MCSoC 2016p.69 - 762016年12月-2016年12月 

DOIScopus

詳細

概要:© 2016 IEEE.Network intrusion detection system (NIDS) is becoming an important element even in embedded systems as well as in data centers since embedded computers have been increasingly exposed to the Internet. The demand for power budget of these embedded systems is a critical issue in addition to that for performance. In this paper, we propose a technique to minimize power consumption in the NIDS called by 2-step power scheduling with the adaptive control interval. In addition, we also propose a CPU-core controlling algorithm so that our scheduling technique can preserve the performance for other applications and NIDS assuming the cases of multiplexing NIDS and them simultaneously on the same device such as a home server or a mobile platform. We implement our 2-step algorithm into Suricata, which is a popular NIDS, as well as a 1-step algorithm and a simple fixed interval algorithm for evaluations. Experimental results show that our 2-step scheduling with both the adaptive and the fixed 30-millisecond interval achieve 75% power saving comparing with the Ondemand governor and 87% comparing with the Performance governor in Linux, respectively, without affecting their performance capability on four ARM Cortex-A15 cores at the network traffic of 1,000 packets/seconds. In contrast, when the network traffic reaches to 17,000 packets/seconds, our 2-step scheduling and the Ondemand as well as the Performance governor can maintain the packet processing capacity while the fixed 30-milliseconds interval processes only 50% packets with two and three cores, and about 80% packets on four cores.

Automatic local memory management for multicores having global address space

Yamamoto, Kouhei; Shirakawa, Tomoya; Oki, Yoshitake; Yoshida, Akimasa; Yoshida, Akimasa; Kimura, Keiji; Kasahara, Hironori

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)10136 LNCSp.282 - 2962017年01月-2017年01月 

DOIScopus

詳細

ISSN:03029743

概要:© Springer International Publishing AG 2017.Embedded multicore processors for hard real-time applications like automobile engine control require the usage of local memory on each processor core to precisely meet the real-time deadline constraints, since cache memory cannot satisfy the deadline requirements due to cache misses. To utilize local memory, programmers or compilers need to explicitly manage data movement and data replacement for local memory considering the limited size. However, such management is extremely difficult and time consuming for programmers. This paper proposes an automatic local memory management method by compilers through (i) multi-dimensional data decomposition techniques to fit working sets onto limited size local memory (ii) suitable block management structures, called Adjustable Blocks, to create application specific fixed size data transfer blocks (iii) multi-dimensional templates to preserve the original multi-dimensional representations of the decomposed multi-dimensional data that are mapped onto one-dimensional Adjustable Blocks (iv) block replacement policies from liveness analysis of the decomposed data, and (v) code size reduction schemes to generate shorter codes. The proposed local memory management method is implemented on the OSCAR multigrain and multi-platform compiler and evaluated on the Renesas RP2 8 core embedded homogeneous multicore processor equipped with local and shared memory. Evaluations on 5 programs including multimedia and scientific applications show promising results. For instance, speedups on 8 cores compared to single core execution using off-chip shared memory on an AAC encoder program, a MPEG2 encoder program, Tomcatv, and Swim are improved from 7.14 to 20.12, 1.97 to 7.59, 5.73 to 7.38, and 7.40 to 11.30, respectively, when using local memory with the proposed method. These evaluations indicate the usefulness and the validity of the proposed local memory management method on real embedded multicore processors.

Multicore Cache Coherence Control by a Parallelizing Compiler

Kasahara, Hironori; Kimura, Keiji; Adhi, Boma A.; Hosokawa, Yuhei; Kishimoto, Yohei; Mase, Masayoshi

Proceedings - International Computer Software and Applications Conference1p.492 - 4972017年09月-2017年09月 

DOIScopus

詳細

ISSN:07303157

概要:© 2017 IEEE. A recent development in multicore technology has enabled development of hundreds or thousands core processor. However, on such multicore processor, an efficient hardware cache coherence scheme will become very complex and expensive to develop. This paper proposes a parallelizing compiler directed software coherence scheme for shared memory multicore systems without hardware cache coherence control. The general idea of the proposed method is that an automatic parallelizing compiler analyzes the control dependency and data dependency among coarse grain task in the program. Then based on the obtained information, task parallelization, false sharing detection and data restructuration to prevent false sharing are performed. Next the compiler inserts cache control code to handle stale data problem. The proposed method is built on OSCAR automatic parallelizing compiler and evaluated on Renesas RP2 with 8 SH-4A cores processor. The hardware cache coherence scheme on the RP2 processor is only available for up to 4 cores and the hardware cache coherence can be completely turned off for non-coherence cache mode. Performance evaluation is performed using 10 benchmark program from SPEC2000, SPEC2006, NAS Parallel Benchmark (NPB) and Mediabench II. The proposed method performs as good as or better than hardware cache coherence scheme. For example, 4 cores with the hardware coherence mechanism gave us speed up of 2.52 times against 1 core for SPEC2000 'equake', 2.9 times for SPEC2006 'lbm', 3.34 times for NPB 'cg', and 3.17 times for MediaBench II MPEG2 Encoder. The proposed software cache coherence control gave us 2.63 times for 4 cores and 4.37 for 8 cores for 'equake', 3.28 times for 4 cores and 4.76 times for 8 cores for lbm, 3.71 times for 4 cores and 4.92 times for 8 cores for 'MPEG2 Encoder'.

特許

整理番号:25

マルチプロセッサ(日本)

笠原 博徳, 木村 啓二

特願H11-363702、特開2001-175619、特許第4784792号

整理番号:473

マルチプロセッサシステム及びマルチグレイン並列化コンパイラ(日本, PCT, 中華人民共和国, ヨ-ロッパ, 大韓民国, ドイツ, イギリス, アメリカ)

笠原 博徳, 木村 啓二, 白子 準, 伊藤 雅樹, 鹿野 裕明

特願2005-114842、特開2006-293768、特許第4082706号

整理番号:513

ヘテロジニアス・マルチプロセッサシステムの制御方法及びマルチグレイン並列化コンパイラ(日本, アメリカ)

笠原 博徳, 木村 啓二, 白子 準, 和田 康孝, 伊藤 雅樹, 鹿野 裕明

特願2006-157301、特開2007-328415、特許第4936517号

整理番号:604

メモリ管理方法、情報処理装置、プログラムの作成方法及びプログラム(日本, PCT, 中華人民共和国, 大韓民国, イギリス, アメリカ)

笠原 博徳, 木村 啓二, 中野 啓史, 仁藤 拓実, 丸山 貴紀, 三浦 剛, 田川 友博

特願2007- 50269、特開2008-217134、特許第5224498号

整理番号:626

ヘテロジニアスマルチプロセッサ向けグローバルコンパイラ(日本, 中華人民共和国, フランス, ヨ-ロッパ, 大韓民国, イギリス, ドイツ, アメリカ)

笠原 博徳, 木村 啓二, 鹿野 裕明

特願2006-157308、特開2007-328416、特許第4784827号

整理番号:700

プロセッサ及びデータ転送ユニット(日本, アメリカ)

笠原 博徳, 木村 啓二

特願2006-274879、特開2008- 97084、特許第4476267号

整理番号:761

マルチプロセッサシステム及びマルチグレイン並列化コンパイラ(日本)

笠原 博徳, 木村 啓二, 白子 準, 伊藤 雅樹, 鹿野 裕明

特願2007-166280、特開2007-305148

整理番号:800

マルチプロセッサシステムおよびマルチプロセッサシステムの同期方法(日本, PCT, アメリカ, 中華人民共和国)

笠原 博徳, 木村 啓二

特願2008- 15028、特開2009-176116

整理番号:855

マルチプロセッサ及びマルチプロセッサシステム(日本)

笠原 博徳, 木村 啓二

特願2008-090853、特開2008-181558、特許第4784842号

整理番号:856

マルチプロセッサ(日本)

笠原 博徳, 木村 啓二

特願2008-118007、特開2008-217825、特許第4304347号

整理番号:993

マルチプロセッサ(日本)

笠原 博徳, 木村 啓二

特願2009-159744、特開2009-230764

整理番号:1022

プロセッサによって実行可能なコードの生成方法、記憶領域の管理方法及びコード生成プログラム(日本, PCT, 中華人民共和国, ヨ-ロッパ, イギリス, ドイツ, アメリカ)

笠原 博徳, 木村 啓二, 間瀬 正啓

特願2009-285586、特開2011-128803、特許第5283128号

整理番号:1428

マルチプロセッサシステムおよびマルチプロセッサシステムの同期方法(日本)

笠原 博徳, 木村 啓二

特願2013- 80143、特開2013-137833

整理番号:1443

並列化コンパイル方法、並列化コンパイラ、並列化コンパイル装置、及び、車載装置(日本, ドイツ, アメリカ)

笠原 博徳, 木村 啓二, 林 明宏, 見神 広紀, 梅田 弾, 金羽木 洋平

特願2013-125607、特開2015- 1807、特許第6018022号

整理番号:1495

並列性の抽出方法及びプログラムの作成方法(日本)

木村 啓二, 林 明宏, 笠原 博徳, 見神 広紀, 金羽木 洋平, 梅田 弾

特願2014- 6009、特開2014-160453、特許第6319880号

整理番号:1689

マルチプロセッサシステム(日本)

笠原 博徳, 木村 啓二

特願2015- 77599、特開2015-127982

整理番号:1878

マルチプロセッサシステム(日本)

笠原 博徳, 木村 啓二

特願2016-233392、特開2017- 62843、特許第6335253号

整理番号:1974

並列化コンパイラ、並列化コンパイル装置、及び並列プログラムの生成方法(日本)

笠原 博徳, 木村 啓二, 梅田 弾, 見神 広紀

特願2017-178110、特開2018-109943

整理番号:262-JP

プロセッサシステム及びアクセラレータ(日本)

木村 啓二, 笠原 博徳

特願2013-541786、特許第6103647号

外部研究資金

科学研究費採択状況

研究種別:

フラグによりCPUとアクセラレータが連携するヘテロジニアスマルチコアに関する研究

2015年-0月-2018年-0月

配分額:¥4680000

研究種別:

プログラムの大域的構造を利用したメニーコア・シミュレーションの高速化に関する研究

2011年-0月-2014年-0月

配分額:¥4290000

研究種別:

ソフトウェア協調整チップマルチプロセッサにおけるデータ利用最適化に関する研究

配分額:¥3600000

研究種別:

深層学習フレームワークでの利用を目指した完全準同型暗号による行列計算に関する研究

2018年-0月-2020年-0月

配分額:¥6370000

研究種別:

大規模非線形時空間パターン制御の実時間最適化アルゴリズムと応用

2012年-0月-2016年-0月

配分額:¥13910000

学内研究制度

特定課題研究

ソフトウェア協調型チップマルチプロセッサにおけるメモリ最適化に関する研究

2004年度

研究成果概要:本研究ではまず、データローカリティ最適化およびデータ転送最適化の基盤技術となるマルチグレイン並列化コンパイラとチップマルチプロセッサアーキテクチャプラットフォームの選定および評価基盤の整備を行った。コンパイラとしては、経済産業省ミ...本研究ではまず、データローカリティ最適化およびデータ転送最適化の基盤技術となるマルチグレイン並列化コンパイラとチップマルチプロセッサアーキテクチャプラットフォームの選定および評価基盤の整備を行った。コンパイラとしては、経済産業省ミレニアムプロジェクトIT21 アドバンスト並列化コンパイラで開発されたOSCARマルチグレイン並列化コンパイラをコアとした。また、チップマルチプロセッサアーキテクチャとしては、簡素なプロセッサコア、ローカルデータメモリ、2ポート構成の分散共有メモリ、およびデータ転送ユニットを持つプロセッシングエレメント(PE)をPE間ネットワークで接続したOSCAR型チップマルチプロセッサとした。本研究では、OSCARマルチグレイン並列化コンパイラに対してOSCAR型チップマルチプロセッサ用のバックエンド(コード生成器)を追加開発した。データローカリティ最適化およびデータ転送最適化技術開発の第一歩として、ターゲットアプリケーションには、SPECfp95ベンチマークより科学技術計算の典型例であるTomcatvとSwimプログラムを選んだ。本研究では、これらに対してタスク(並列処理の単位)とデータをデータローカリティと並列性の両方を考慮しながらPEへスケジューリングし、さらに共有メモリとプロセッサのローカルメモリ(データローカルメモリおよび分散共有メモリ)とのやり取りをプロセッサと非同期で動作するデータ転送ユニットにより処理させることにより、データローカリティ利用とデータ転送処理の効率化を行った。8PEで評価を行った結果、データローカリティ最適化を適用していない場合に対してTomcatvで1.56倍、Swimで1.38倍の速度向上を得ることができた。

コンパイラ解析情報と実機実行情報を利用したマルチコアシミュレーション高速化の研究

2009年度

研究成果概要:計算機アーキテクチャの研究では、様々な構成のシステム評価を行うため、ソフトウェアによるアーキテクチャシミュレーションが大きな役割を果たしている。しかしながら、ソフトウェアシミュレータはプログラムの実行に実機の数千倍の時間がかかる。...計算機アーキテクチャの研究では、様々な構成のシステム評価を行うため、ソフトウェアによるアーキテクチャシミュレーションが大きな役割を果たしている。しかしながら、ソフトウェアシミュレータはプログラムの実行に実機の数千倍の時間がかかる。このような膨大な評価時間は今後のメニーコアの研究・開発の大きな妨げになる。本研究では、このような問題を克服するための、マルチコア・メニーコアのソフトウェアシミュレーション高速化手法の研究を行う。特に並列アーキテクチャ研究のためのシミュレーション高速化の研究に関しては、これまでミュレーションによる実験対象となる仮想のマルチコアやマルチプロセッサのコアを、シミュレータを実行する実際のマルチプロセッサのコアに割り当てるという方法が提案されてきたが、実機上の並列処理オーバーヘッドが大きく、実用的なシステムはこれまで実現されていない。本研究の特徴は、マルチコア・メニーコアのソフトウェアシミュレーションの高速化に、ループ構造や並列化情報などの並列化コンパイラによる解析情報と、評価対象アプリケーションの実機での実行情報を利用することである。これらの情報を利用し、詳細にシミュレーションする必要がある箇所とそうでない箇所を特定する。従来のソフトウェアシミュレーション高速化手法では利用されてこなかったこれらの付加的な情報を利用することで、精度の高い性能値を最小の実行コストで得ることができる。本年度は、本高速化手法の基本的な適用可能性を検討するための予備実験を行った。具体的には、二種類のマルチコアアーキテクチャのコア数を32コアまで変化させ、ベンチマークプログラムのメインループの回転数を変化させ本研究による性能値推定手法により本来のループ回転数における性能値を再現できるか調査した。ベンチマークプログラムとしてSPEC95ベンチマークのtomcatvとswim、および音声圧縮で標準的に使われているAACエンコーディングプログラムを用いた。評価の結果、いずれのアーキテクチャ、コア数、ベンチマークプログラムの組み合わせにおいても、わずか数回転分の性能値から本来の数百回転分の性能値を高々2%程度の誤差で予測することができた。今後は適用アプリケーションの拡大ならびにシステムの自動化を行う予定である。

フラグによりCPUとアクセラレータが連係するヘテロジニアスマルチコアに関する研究

2014年度

研究成果概要:本研究は、アクセラレータを持つヘテロジニアスマルチコアに対して、アクセラレータの制御やデータ転送に要するオーバーヘッドを削減する技術の開発する。具体的にはCPU、データ転送ユニット(DTU)、及びアクセラレータを同時実行させること...本研究は、アクセラレータを持つヘテロジニアスマルチコアに対して、アクセラレータの制御やデータ転送に要するオーバーヘッドを削減する技術の開発する。具体的にはCPU、データ転送ユニット(DTU)、及びアクセラレータを同時実行させることで上記オーバーヘッドを隠蔽可能とするタスク分割及びスケジューリング手法を開発し、自動並列化コンパイラに実装する。本年度の成果としては、まず本研究が前提とするアクセラレータの基本仕様を決定した。その上で、本アクセラレータ用のコンパイラモジュールを開発し、さらにアクセラレータのアーキテクチャシミュレータを開発することにより、本研究を行う上での基本的な評価環境を整備した。

海外研究活動

研究課題名: 新しいメモリ階層を考慮したソフトウェア・ハードウェアの構成法に関する研究

2017年08月-2018年02月

機関: North Carolina State University(アメリカ)

現在担当している科目

科目名開講学部・研究科開講年度学期
コンピュータアーキテクチャA基幹理工学部2019秋学期
コンピュータアーキテクチャA基幹理工学部2019秋学期
コンピュータアーキテクチャA 【前年度成績S評価者用】基幹理工学部2019秋学期
コンピュータアーキテクチャA 【前年度成績S評価者用】基幹理工学部2019秋学期
情報理工学実験A基幹理工学部2019秋学期
情報理工学実験A 【前年度成績S評価者用】基幹理工学部2019秋学期
情報理工学実験B基幹理工学部2019春学期
情報理工学実験B 【前年度成績S評価者用】基幹理工学部2019春学期
コンピュータアーキテクチャB基幹理工学部2019秋学期
コンピュータアーキテクチャ 13前再基幹理工学部2019秋学期
コンピュータアーキテクチャB基幹理工学部2019秋学期
コンピュータアーキテクチャ 13前再  【前年度成績S評価者用】基幹理工学部2019秋学期
コンピュータアーキテクチャB 【前年度成績S評価者用】基幹理工学部2019秋学期
卒業論文A基幹理工学部2019通年
卒業論文A  【前年度成績S評価者用】基幹理工学部2019通年
卒業論文B基幹理工学部2019通年
卒業論文B  【前年度成績S評価者用】基幹理工学部2019通年
言語処理系基幹理工学部2019春学期
言語処理系基幹理工学部2019春学期
言語処理系  【前年度成績S評価者用】基幹理工学部2019春学期
プロジェクト研究A基幹理工学部2019春学期
情報理工学実験C基幹理工学部2019秋学期
プロジェクト研究B基幹理工学部2019秋学期
Advanced Processor Architecture Technology基幹理工学部2019春学期
Advanced Processor Architecture Technology基幹理工学部2019春学期
Advanced Processor Architecture Technology基幹理工学部2019春学期
先端プロセッサ技術基幹理工学部2019春学期
先端プロセッサ技術基幹理工学部2019春学期
IoTシステム設計基幹理工学部2019春学期
IoTシステム設計基幹理工学部2019春学期
IoTシステム設計基幹理工学部2019春学期
情報通信実験A基幹理工学部2019秋学期
情報通信実験A 【前年度成績S評価者用】基幹理工学部2019秋学期
情報通信実験B基幹理工学部2019春学期
情報通信実験B 【前年度成績S評価者用】基幹理工学部2019春学期
卒業論文A基幹理工学部2019通年
卒業論文A  【前年度成績S評価者用】基幹理工学部2019通年
卒業論文B基幹理工学部2019通年
卒業論文B  【前年度成績S評価者用】基幹理工学部2019通年
プロジェクト研究A基幹理工学部2019春学期
プロジェクト研究B基幹理工学部2019秋学期
Research Project B基幹理工学部2019春学期
Research Project B基幹理工学部2019春学期
Research Project B 【前年度成績S評価者用】基幹理工学部2019春学期
Research Project B 【S Grade】基幹理工学部2019春学期
Research Project C基幹理工学部2019秋学期
Research Project C基幹理工学部2019秋学期
Research Project C 【前年度成績S評価者用】基幹理工学部2019秋学期
Research Project C 【S Grade】基幹理工学部2019秋学期
Computer Systems基幹理工学部2019春学期
Computer Systems基幹理工学部2019春学期
Computer Systems基幹理工学部2019春学期
Computer Systems基幹理工学部2019春学期
Research Project A基幹理工学部2019秋学期
Research Project A基幹理工学部2019秋学期
Research Project D基幹理工学部2019春学期
Research Project D基幹理工学部2019春学期
Communications and Computer Engineering Laboratory基幹理工学部2019秋学期
Computer Science and Communications Engineering Laboratory A基幹理工学部2019秋学期
Computer Science and Engineering Laboratory基幹理工学部2019秋学期
Computer Science and Engineering Laboratory基幹理工学部2019秋学期
Computer Science and Communications Engineering Laboratory A [S Grade]基幹理工学部2019秋学期
Introduction to Computers and Networks基幹理工学部2019春学期
IoTシステム設計大学院基幹理工学研究科2019春学期
IoTシステム設計大学院創造理工学研究科2019春学期
IoTシステム設計大学院先進理工学研究科2019春学期
修士論文(情報・通信)大学院基幹理工学研究科2019通年
Research on Advanced Processor Architecture大学院基幹理工学研究科2019通年
先端プロセッサ構成研究大学院基幹理工学研究科2019通年
Advanced Processor Architecture大学院基幹理工学研究科2019春学期
先端プロセッサ技術大学院基幹理工学研究科2019春学期
Special Laboratory A in Computer Science and Communications Engineering大学院基幹理工学研究科2019春学期
情報理工・情報通信特別実験A大学院基幹理工学研究科2019春学期
Special Laboratory B in Computer Science and Communications Engineering大学院基幹理工学研究科2019秋学期
情報理工・情報通信特別実験B大学院基幹理工学研究科2019秋学期
Seminar on Advanced Processor Architecture A大学院基幹理工学研究科2019春学期
先端プロセッサ構成演習A大学院基幹理工学研究科2019春学期
Seminar on Advanced Processor Architecture B大学院基幹理工学研究科2019秋学期
先端プロセッサ構成演習B大学院基幹理工学研究科2019秋学期
Seminar on Advanced Processor Architecture C大学院基幹理工学研究科2019春学期
先端プロセッサ構成演習C大学院基幹理工学研究科2019春学期
Seminar on Advanced Processor Architecture D大学院基幹理工学研究科2019秋学期
先端プロセッサ構成演習D大学院基幹理工学研究科2019秋学期
Master's Thesis (Department of Computer Science and Communications Engineering)大学院基幹理工学研究科2019通年
先端プロセッサ構成研究大学院基幹理工学研究科2019通年
先端プロセッサ構成研究大学院基幹理工学研究科2019通年
情報理工・情報通信特別演習A大学院基幹理工学研究科2019春学期
情報理工・情報通信特別演習B大学院基幹理工学研究科2019秋学期