氏名

キムラ ケイジ

木村 啓二

職名

教授 (https://researchmap.jp/read0165789/)

所属

(基幹理工学部)

連絡先

メールアドレス

メールアドレス
kimura@apal.cs.waseda.ac.jp

住所・電話番号・fax番号

住所
〒169-8555新宿区 大久保3-4-1 
電話番号
03-5286-3338
fax番号
03-3232-3594

URL等

WebページURL

http://www.apal.cs.waseda.ac.jp/

研究者番号
50318771

本属以外の学内所属

兼担

理工学術院(大学院基幹理工学研究科)

学内研究所等

アドバンストマルチコアプロセッサ研究所

研究員 2009年-2010年

アドバンストチップマルチプロセッサ研究所

研究員 2004年-2008年

ITバイオ・マイニング研究所

研究所員 2010年-2013年

アドバンストマルチコアプロセッサ研究所

研究所員 2010年-2014年

次世代蓄電エネルギー連携研究所

研究所員 2012年-2014年

アドバンストマルチコアプロセッサ研究所

研究所員 2014年-2019年

アドバンストマルチコアプロセッサ研究所

研究所員 2019年-

低消費電力光インターコネクション研究所

研究所員 2015年-

理工学術院総合研究所(理工学研究所)

兼任研究員 2018年-

学歴・学位

学歴

-1996年 早稲田大学 理工学部 電気工学科

学位

博士(工学) 課程 早稲田大学 計算機システム

経歴

1999年-2002年早稲田大学理工学部電気電子情報工学科 助手
2002年-2004年早稲田大学理工学総合研究センター 客員講師(専任扱い)
2004年-2005年早稲田大学理工学部コンピュータ・ネットワーク工学科 専任講師
2005年-2012年早稲田大学理工学部コンピュータ・ネットワーク工学科 助教授
2012年-早稲田大学理工学術院 情報理工学科 教授

所属学協会

情報処理学会

電子情報通信学会

IEEE Computer Society

ACM

委員歴・役員歴(学外)

2001年04月-2005年03月情報処理学会 学会誌編集委員 BWG, (最終年度主査)
2001年04月-2005年03月情報処理学会 システムソフトウェアとオペレーティング・システム研究会運営委員
2003年-2006年並列/分散/協調処理に関するサマーワークショップ(SWoPP)実行委員
2004年-SACSIS 先進的計算基盤システムシンポジウム会計委員長・プログラム委員
2005年-2009年03月情報処理学会論文誌 コンピューティングシステム ACS論文誌編集委員会
2005年04月-2009年03月情報処理学会 システムLSI設計技術研究会(SLDM) 運営委員
2005年04月-2009年03月情報処理学会 学会誌編集委員 SWG
2006年-SACSIS , 2008--2013 - 先進的計算基盤システムシンポジウムプログラム委員
2006年-2008年ComSys - コンピュータシステムシンポジウムプログラム委員
2006年-2008年IEEE Symposium on Low-Power and High-Speed Chips (COOL Chips IX--XI)Program Committee Vice Chair
2007年-SACSIS 先進的計算基盤システムシンポジウムプログラム副委員長
2007年-情報処理学会 DAシンポジウム大学幹事
2008年04月-2010年03月情報処理学会 計算機アーキテクチャ研究会 運営委員
2009年-2013年IEEE Symposium on Low-Power and High-Speed Chips (COOL Chips XII--XVII)Program Committee
2009年-2013年XXVII--XXXII IEEE International Conference on Computer Design (ICCD )Program Committee (Computer System Design and Application Track)
2009年-The 38th International Conference on Parallel Processing (ICPP-2009)Program Committee (Programming Models, Languages and Compilers)
2010年04月-2014年03月情報処理学会 計算機アーキテクチャ研究会 幹事
2010年04月-2013年03月情報処理学会 組込システム研究会 運営委員
2010年-IEEE International Symposium on Workload Characterization (IISWC-2010)Program Committee
2010年-22nd International Symposium on Computer Architecture and High Performance Computing (SBAC PAD )Program Committee (System Software Track)
2011年-The 17th IEEE International Conference on Parallel and Distributed Systems (ICPADS )Program Committee (Multicore Computing and Parallel / Distributed Architecture)
2011年-2014年The 24--27th International Workshop on Languages and Compilers for Parallel Computing (LCPC )Program Committee, Program Chair (2012)
2011年-Advanced Parallel Processing Technology Symposium (APPT )Program Committee
2012年-The 12th International Forum on Embedded MPSoC and Multicore (MPSoC2012)Program Co-Chairs
2013年-The 27th Internationcal Conference on Supercomputing (ICS 2013)Program Committee
2013年-The 13th International Forum on Embedded MPSoC and Multicore (MPSoC2013)Finace Co-Chairs
2014年-The 28th IEEE International Parallel & Distributed Processing Symposium (IPDPS)Program Committee
2015年-15th International Symposium on High-Performance Computer Architecture (HPCA-15)Publicity Co-Chairs
2015年-27th International Symposium on Computer Architecture and High Performance Computing (SBAC PAD 2015)Program Committee (Software Track)
2015年-The 24th International Conference on Parallel Architectures and Compilation Techniques (PACT 2015)Program Committee
2016年-The 3rd International Workshop on Software and Engineering for Parallel Sysmtems (SEPS 2016)Program Committee
2016年-The 45th International Conference on Parallel Processing (ICPP-2016)Program Committee (Programming Models, Languages and Compilers)
2016年-The 22nd IEEE International Conference on Parallel and Distributed Systems (ICPADS 2016)Program Vice Chair (Parallel / Distributed Algorithms and Applications)
2018年-IEEE COMPSAC 2018Computer Architecture and Platforms Co-Chairs
2018年-2020年IEEE International Parallel & Distributed Processing Symposium (IPDPS 2018-2020)Program Committee
2018年-Principles and Practice of Parallel Programming 2018 (PPoPP 2018)Publicity Chair
2019年-24th Asia and South Pacific Design Automation Conference (ASP-DAC 2019)Program Committee (On-chip Communication and Networks-on-Chip)
2019年-The 37th IEEE International Conference on Computer Design (ICCD 2019)Program track Chair (Processor Architecture)
2020年-The 26th IEEE International Symposium on High-Performance Computer ArchitectureProgram Committee

受賞

文部科学大臣表彰科学技術賞(研究部門)

2014年04月授与機関:文部科学省

研究分野

キーワード

並列計算機、並列化コンパイラ、計算機科学

研究テーマ履歴

1998年-2004年マルチグレイン並列化コンパイラ協調チップマルチプロセッサ

研究テーマのキーワード:マルチプロセッサアーキテクチャ、並列化コンパイラ

マルチグレイン並列処理用シングルチップマルチプロセッサ

個人研究

論文

Scalable and Fast Lazy Persistency on GPUs

Ardhi Wiratama Baskara Yudha, Keiji Kimura, Huiyang Zhou, Yan Solihin

2020 IEEE International Symposium on Workload Characterization (IISWC 2020)p.252 - 2632020年10月-

Compiler Software Coherent Control for Embedded High Performance Multicore

Boma A. ADHI, Tomoya KASHIMATA, Ken TAKAHASHI, Keiji KIMURA, Hironori KASAHARA

IEICE TRANSACTIONS on ElectronicsE103-C(3)p.85 - 972020年03月-

Local Memory Mapping of Multicore Processors on an Automatic Parallelizing Compiler

Yoshitake OKI, Yuto ABE, Kazuki YAMAMOTO, Kohei YAMAMOTO, Tomoya SHIRAKAWA, Akimasa YOSHIDA, Keiji KIMURA, Hironori KASAHARA,

IEICE TRANSACTIONS on ElectronicsE103-C(3)p.98 - 1092020年03月-

Compiler-support for Critical Data Persistence in NVM

ACM Transactions on Architecture and Code Optimization (TACO)16(4)2019年12月-

Cascaded DMA Controller for Speedup of Indirect Memory Access in Irregular Applications

Tomoya Kashimata, Toshiaki Kitamura, Keiji Kimura, Hironori Kasahara

9th Workshop on Irregular Applications: Architectures and Algorithmsp.71 - 762019年11月-

Performance of Static and Dynamic Task Scheduling for Real-Time Control System on Embedded Multicore Processor

Yoshitake Oki, Hiroki Mikami, Hikaru Nishida, Dan Umeda, Keiji Kimura, Hironori Kasahara

32nd International Workshop on Languages and Compilers for Parallel Computing(LCPC)2019年10月-

Performance Evaluation on NVMM Emulator Employing Fine-Grain Delay Injection

Yu Omori, Keiji Kimura

The 8th IEEE Non-Volatile Memory Systems and Applications Symposium (IEEE NVMSA 2019)p.1 - 62019年08月-

Fast and Highly Optimizing Separate Compilation for Automatic Parallelization

Tohma Kawasumi, Ryota Tamura, Yuya Asada, Jixin Han, Hiroki Mikami, Keiji Kimura , Hironori Kasahara

The 2019 International Conference on High Performance Computing & Simulation (HPCS 2019)p.478 - 4852019年07月-

Efficient Checkpointing with Recompute Scheme for Non-volatile Main Memory

Mohammad Alshboul, Hussein Elnawawy, Reem Elkhouly, Keiji Kimura, James Tuck, Yan Solihin

ACM Transactions on Architecture and Code Optimization (TACO)16(2)2019年05月-

Software Cache Coherent Control by Parallelizing Compiler

Boma A. Adhi, Masayoshi Mase, Yuhei Hosokawa, Yohei Kishimoto, Taisuke Onishi, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)11403p.17 - 252019年11月-

Multicore Cache Coherence Control by a Parallelizing Compiler

Kasahara, Hironori; Kimura, Keiji; Adhi, Boma A.; Hosokawa, Yuhei; Kishimoto, Yohei; Mase, Masayoshi

Proceedings - International Computer Software and Applications Conference1p.492 - 4972017年09月-2017年09月 

DOIScopus

詳細

ISSN:07303157

概要:© 2017 IEEE. A recent development in multicore technology has enabled development of hundreds or thousands core processor. However, on such multicore processor, an efficient hardware cache coherence scheme will become very complex and expensive to develop. This paper proposes a parallelizing compiler directed software coherence scheme for shared memory multicore systems without hardware cache coherence control. The general idea of the proposed method is that an automatic parallelizing compiler analyzes the control dependency and data dependency among coarse grain task in the program. Then based on the obtained information, task parallelization, false sharing detection and data restructuration to prevent false sharing are performed. Next the compiler inserts cache control code to handle stale data problem. The proposed method is built on OSCAR automatic parallelizing compiler and evaluated on Renesas RP2 with 8 SH-4A cores processor. The hardware cache coherence scheme on the RP2 processor is only available for up to 4 cores and the hardware cache coherence can be completely turned off for non-coherence cache mode. Performance evaluation is performed using 10 benchmark program from SPEC2000, SPEC2006, NAS Parallel Benchmark (NPB) and Mediabench II. The proposed method performs as good as or better than hardware cache coherence scheme. For example, 4 cores with the hardware coherence mechanism gave us speed up of 2.52 times against 1 core for SPEC2000 'equake', 2.9 times for SPEC2006 'lbm', 3.34 times for NPB 'cg', and 3.17 times for MediaBench II MPEG2 Encoder. The proposed software cache coherence control gave us 2.63 times for 4 cores and 4.37 for 8 cores for 'equake', 3.28 times for 4 cores and 4.76 times for 8 cores for lbm, 3.71 times for 4 cores and 4.92 times for 8 cores for 'MPEG2 Encoder'.

Architecture design for the environmental monitoring system over the winter season

Yamashita, Koichiro; Yamashita, Koichiro; Ao, Chen; Suzuki, Takahisa; Xu, Yi; Li, Hongchun; Tian, Jun; Kimura, Keiji; Kasahara, Hironori

MobiWac 2016 - Proceedings of the 14th ACM International Symposium on Mobility Management and Wireless Access, co-located with MSWiM 2016p.27 - 342016年11月-2016年11月 

DOIScopus

詳細

概要:© 2016 ACM.One of the applications as a source of big data, there is a sensor network for the environmental monitoring that is designed to detect the deterioration of the infrastructure, erosion control and so on. The specific targets are bridges, buildings, slopes and embankments due to the natural disasters or aging. Basic requirement of this monitoring system is to collect data over a long period of time from a large number of nodes that installed in a wide area. However, in order to apply a wireless sensor network (WSN), using wireless communication and energy harvesting, there are not many cases in the actual monitoring system design. Because of the system must satisfy various conditions measurement location and time specified by the civil engineering communication quality and topology obtained from the network technology the electrical engineering to solve the balance of weather environment and power consumption that depends on the above-mentioned conditions. We propose the whole WSN design methodology especially for the electrical architecture that is affected by the network behavior and the environmental disturbance. It is characterized by determining recursively mutual trade-off of a wireless simulation and a power architecture simulation of the node devices. Furthermore, the system allows the redundancy of the design. In addition, we deployed the actual slope monitoring WSN that is designed by the proposed method to the snow-covered area. A conventional similar monitoring WSN, with 7 Ah Li-battery, it worked only 129 days in a mild climate area. On the other hand, our proposed system, deployed in the heavy snow area has been working more than 6 months (still working) with 3.2 Ah batteries. Finally, it made a contribution to the civil engineering succeeded in the real time observation of the groundwater level displacement at the time of melting snow in the spring season.

Reducing parallelizing compilation time by removing redundant analysis

Han, Jixin; Fujino, Rina; Tamura, Ryota; Shimaoka, Mamoru; Mikami, Hiroki; Takamura, Moriyuki; Kamiya, Sachio; Suzuki, Kazuhiko; Miyajima, Takahiro; Kimura, Keiji; Kasahara, Hironori

SEPS 2016 - Proceedings of the 3rd International Workshop on Software Engineering for Parallel Systems, co-located with SPLASH 2016p.1 - 92016年10月-2016年10月 

DOIScopus

詳細

概要:© 2016 ACM.Parallelizing compilers employing powerful compiler optimizations are essential tools to fully exploit performance from today's computer systems. These optimizations are supported by both highly sophisticated program analysis techniques and aggressive program restructuring techniques. However, the compilation time for such powerful compilers becomes larger and larger for real commercial application due to these strong program analysis techniques. In this paper, we propose a compilation time reduction technique for parallelizing compilers. The basic idea of the proposed technique is based on an observation that parallelizing compilers apply multiple program analysis passes and restructuring passes to a source program but all program analysis passes do not have to be applied to the whole source program. Thus, there is an opportunity for compilation time reduction by removing redundant program analysis. We describe the removing redundant program analysis techniques considering the inter-procedural propagation of analysis update information in this paper. We implement the proposed technique into OSCAR automatically multigrain parallelizing compiler. We then evaluate the proposed technique by using three proprietary large scale programs. The proposed technique can remove 37.7% of program analysis time on average for basic analysis includes def-use analysis and dependence calculation, and 51.7% for pointer analysis, respectively.

Automatic local memory management for multicores having global address space

Yamamoto, Kouhei; Shirakawa, Tomoya; Oki, Yoshitake; Yoshida, Akimasa; Yoshida, Akimasa; Kimura, Keiji; Kasahara, Hironori

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)10136 LNCSp.282 - 2962017年01月-2017年01月 

DOIScopus

詳細

ISSN:03029743

概要:© Springer International Publishing AG 2017.Embedded multicore processors for hard real-time applications like automobile engine control require the usage of local memory on each processor core to precisely meet the real-time deadline constraints, since cache memory cannot satisfy the deadline requirements due to cache misses. To utilize local memory, programmers or compilers need to explicitly manage data movement and data replacement for local memory considering the limited size. However, such management is extremely difficult and time consuming for programmers. This paper proposes an automatic local memory management method by compilers through (i) multi-dimensional data decomposition techniques to fit working sets onto limited size local memory (ii) suitable block management structures, called Adjustable Blocks, to create application specific fixed size data transfer blocks (iii) multi-dimensional templates to preserve the original multi-dimensional representations of the decomposed multi-dimensional data that are mapped onto one-dimensional Adjustable Blocks (iv) block replacement policies from liveness analysis of the decomposed data, and (v) code size reduction schemes to generate shorter codes. The proposed local memory management method is implemented on the OSCAR multigrain and multi-platform compiler and evaluated on the Renesas RP2 8 core embedded homogeneous multicore processor equipped with local and shared memory. Evaluations on 5 programs including multimedia and scientific applications show promising results. For instance, speedups on 8 cores compared to single core execution using off-chip shared memory on an AAC encoder program, a MPEG2 encoder program, Tomcatv, and Swim are improved from 7.14 to 20.12, 1.97 to 7.59, 5.73 to 7.38, and 7.40 to 11.30, respectively, when using local memory with the proposed method. These evaluations indicate the usefulness and the validity of the proposed local memory management method on real embedded multicore processors.

Accelerating Multicore Architecture Simulation Using Application Profile

Kimura, Keiji; Taguchi, Gakuho; Kasahara, Hironori

Proceedings - IEEE 10th International Symposium on Embedded Multicore/Many-Core Systems-on-Chip, MCSoC 2016p.177 - 1842016年12月-2016年12月 

DOIScopus

詳細

概要:© 2016 IEEE.Architecture simulators play an important role in exploring frontiers in the early stages of the architecture design. However, the execution time of simulators increases with an increase the number of cores. The sampling simulation technique that was originally proposed to simulate single-core processors is a promising approach to reduce simulation time. Two main hurdles for multi/many-core are preparing sampling points and thread skewing at functional simulation time. This paper proposes a very simple and low-error sampling-based acceleration technique for multi/many-core simulators. For a parallelized application, an iteration of a large loop including a parallelizable program part, is defined as a sampling unit. We apply X-means method to a profile result of the collection of iterations derived from a real machine to form clusters of those iterations. Multiple iterations are exploited as sampling points from these clusters. We execute the simulation along the sampling points and calculate the number of total execution cycles. Results from a 16-core simulation show that our proposed simulation technique gives us a maximum of 443x speedup with a 0.52% error and 218x speedup with 1.50% error on an average.

2-Step Power Scheduling with Adaptive Control Interval for Network Intrusion Detection Systems on Multicores

Tuong, Lau Phi; Kimura, Keiji

Proceedings - IEEE 10th International Symposium on Embedded Multicore/Many-Core Systems-on-Chip, MCSoC 2016p.69 - 762016年12月-2016年12月 

DOIScopus

詳細

概要:© 2016 IEEE.Network intrusion detection system (NIDS) is becoming an important element even in embedded systems as well as in data centers since embedded computers have been increasingly exposed to the Internet. The demand for power budget of these embedded systems is a critical issue in addition to that for performance. In this paper, we propose a technique to minimize power consumption in the NIDS called by 2-step power scheduling with the adaptive control interval. In addition, we also propose a CPU-core controlling algorithm so that our scheduling technique can preserve the performance for other applications and NIDS assuming the cases of multiplexing NIDS and them simultaneously on the same device such as a home server or a mobile platform. We implement our 2-step algorithm into Suricata, which is a popular NIDS, as well as a 1-step algorithm and a simple fixed interval algorithm for evaluations. Experimental results show that our 2-step scheduling with both the adaptive and the fixed 30-millisecond interval achieve 75% power saving comparing with the Ondemand governor and 87% comparing with the Performance governor in Linux, respectively, without affecting their performance capability on four ARM Cortex-A15 cores at the network traffic of 1,000 packets/seconds. In contrast, when the network traffic reaches to 17,000 packets/seconds, our 2-step scheduling and the Ondemand as well as the Performance governor can maintain the packet processing capacity while the fixed 30-milliseconds interval processes only 50% packets with two and three cores, and about 80% packets on four cores.

An Android Systrace Extension for Tracing Wakelocks

Bui Duc Binh, Keiji Kimura

IEEE International Conference on Embedded and Ubiquitous Computing (EUC 2016)p.146 - 1492016年08月-

Android video processing system combined with automatically parallelized and power optimized code by OSCAR compiler

Binh, Bui Duc; Hirano, Tomohiro; Mikami, Hiroki; Yamamoto, Hideo; Kimura, Keiji; Kasahara, Hironori

Journal of Information Processing24(3)p.504 - 5112016年01月-2016年01月 

DOIScopus

詳細

ISSN:03875806

概要:© 2016 Information Processing Society of Japan.The emergence of multi-core processors in smart devices promises higher performance and low power consumption. The parallelization of applications enables us to improve their performance. However, simultaneously utilizing many cores would drastically drain the device battery life. This paper shows a demonstration system of realtime video processing combined with power reduction controlled by the OSCAR automatic parallelization compiler on ODROID-X2, an open Android development platform based on Samsung Exynos4412 Prime with 4 ARM Cortext- A9 cores. In this paper, we exploited the DVFS framework, core partitioning, and profiling technique and OSCAR parallelization - power control algorithm to reduce the total consumption in a real-time video application. The demonstration results show that it can cut power consumption by 42.8% for MPEG-2 Decoder application and 59.8% for Optical Flow application by using 3 cores in both applications.

If-Conversion Optimization using Neuro Evolution of Augmenting Topologies

Reem Elkhouly, Keiji Kimura, Ahmed El-Mahdy

CoRR abs/1603.01112 (2016)

組み込み向けモデルベース開発アプリケーションのプロファイル情報を用いたマルチコア用マルチグレイン並列処理

梅田 弾, 鈴木 貴広, 見神 広紀, 木村 啓二, 笠原 博徳

情報処理学会論文誌57(2)p.1 - 122016年02月-

Evaluation of Automatic Power Reduction with OSCAR Compiler on Intel Haswell and ARM Cortex-A9 Multicores

Tomohiro Hirano, Hideo Yamamoto, Shuhei Iizuka, Kohei Muto, Takashi Goto, Tamami Wake, Hiroki Mikami, Moriyuki Takamura, Keiji Kimura, Hironori Kasahara

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)8967p.239 - 2522015年05月-

DOI

Coarse grain task parallelization of earthquake simulator GMS using OSCAR compiler on various Cc-NUMA servers

Shimaoka, Mamoru; Wada, Yasutaka; Wada, Yasutaka; Kimura, Keiji; Kasahara, Hironori

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)9519p.238 - 2532016年01月-2016年01月 

DOIScopus

詳細

ISSN:03029743

概要:© Springer International Publishing Switzerland 2016.This paper proposes coarse grain task parallelization for a earthquake simulation program using Finite Difference Method to solve the wave equations in 3-D heterogeneous structure or the Ground Motion Simulator (GMS) on various cc-NUMA servers using IBM, Intel and Fujitsu multicore processors. The GMS has been developed by the National Research Institute for Earth Science and Disaster Prevention (NIED) in Japan. Earthquake wave propagation simulations are important numerical applications to save lives through damage predictions of residential areas by earthquakes. Parallel processing with strong scaling has been required to precisely calculate the simulations quickly. The proposed method uses the OSCAR compiler for exploiting coarse grain task parallelism efficiently to get scalable speed-ups with strong scaling. The OSCAR compiler can analyze data dependence and control dependence among coarse grain tasks, such as subroutines, loops and basic blocks. Moreover, locality optimizations considering the boundary calculations of FDM and a new static scheduler that enables more efficient task schedulings on cc-NUMA servers are presented. The performance evaluation shows 110 times speed-up using 128 cores against the sequential execution on a POWER7 based 128 cores cc-NUMA server Hitachi SR16000 VM1, 37.2 times speed-up using 64 cores against the sequential execution on a Xeon E7-8830 based 64 cores cc-NUMA server BS2000, 19.8 times speed-up using 32 cores against the sequential execution on a Xeon X7560 based 32 cores cc-NUMA server HA8000/RS440, 99.3 times speed-up using 128 cores against the sequential execution on a SPARC64 VII based 256 cores cc-NUMA server Fujitsu M9000, 9.42 times speed-up using 12 cores against the sequential execution on a POWER8 based 12 cores cc-NUMA server Power System S812L.

Multigrain parallelization for model-based design applications using the OSCAR compiler

Umeda, Dan; Suzuki, Takahiro; Mikami, Hiroki; Kimura, Keiji; Kasahara, Hironori

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)9519p.125 - 1392016年01月-2016年01月 

DOIScopus

詳細

ISSN:03029743

概要:© Springer International Publishing Switzerland 2016.Model-based design is a very popular software development method for developing a wide variety of embedded applications such as automotive systems, aircraft systems, and medical systems. Model-based design tools like MATLAB/Simulink typically allow engineers to graphically build models consisting of connected blocks for the purpose of reducing development time. These tools also support automatic C code generation from models with a special tool such as Embedded Coder to map models onto various kinds of embedded CPUs. Since embedded systems require real-time processing, the use of multi-core CPUs poses more opportunities for accelerating program execution to satisfy the real-time constraints. While prior approaches exploit parallelism among blocks by inspecting MATLAB/Simulink models, this may lose an opportunity for fully exploiting parallelism of the whole program because models potentially have parallelism within a block. To unlock this limitation, this paper presents an automatic parallelization technique for auto-generated C code developed by MATLAB/Simulink with Embedded Coder. Specifically, this work (1) exploits multi-level parallelism including inter-block and intra-block parallelism by analyzing the auto-generated C code, and (2) performs static scheduling to reduce dynamic overheads as much as possible. Also, this paper proposes an automatic profiling framework for the auto-generated code for enhancing static scheduling, which leads to improving the performance of MATLAB/Simulink applications. Performance evaluation shows 4.21 times speedup with six processor cores on Intel Xeon X5670 and 3.38 times speedup with four processor cores on ARM Cortex-A15 compared with uniprocessor execution for a road tracking application.

Annotatable systrace: An extended linux ftrace for tracing a parallelized program

Fukui, Daichi; Shimaoka, Mamoru; Mikami, Hiroki; Hillenbrand, Dominic; Yamamoto, Hideo; Kimura, Keiji; Kasahara, Hironori

SEPS 2015 - Proceedings of the 2nd International Workshop on Software Engineering for Parallel Systemsp.21 - 252015年10月-2015年10月 

DOIScopus

詳細

概要:© 2015 ACM.Investigation of the runtime behavior is one of the most important processes for performance tuning on a computer system. Profiling tools have been widely used to detect hot-spots in a program. In addition to them, tracing tools produce valuable information especially from parallelized programs, such as thread scheduling, barrier synchronizations, context switching, thread migration, and jitter by interrupts. Users can optimize a runtime system and hardware configuration in addition to a program itself by utilizing the attained information. However, existing tools provide information per process or per function. Finer information like task-or loop-granularity should be required to understand the program behavior more precisely. This paper has proposed a tracing tool, Annotatable Systrace, to investigate runtime execution behavior of a parallelized program based on an extended Linux ftrace. The Annotatable Systrace can add arbitrary annotations in a trace of a target program. The proposed tool exploits traces from 183.equake, 179.art, and mpeg2enc on Intel Xeon X7560 and ARMv7 as an evaluation. The evaluation shows that the tool enables us to observe load imbalance along with the program execution. It can also generate a trace with the inserted annotations even on a 32-core machine. The overhead of one annotation on Intel Xeon is 1.07 us and the one on ARMv7 is 4.44 us, respectively.

MATLAB/Simulinkで設計されたエンジン制御Cコードのマルチコア用自動並列化

梅田 弾;金羽木 洋平;見神 広紀;林 明宏;谷 充弘;森 裕司;木村 啓二;笠原 博徳

情報処理学会論文誌55(8)p.1817 - 18292014年08月-2014年08月 

詳細

ISSN:03875806

概要:近年の自動車では安全性・快適性・環境適合性が求められ,これらを実現するために自動車制御系のソフトウェアが年々より高度化している.制御の高度化と同時に,これらを実現するソフトウェアをリアルタイムで動作させるために,プロセッサの高速化が必要である.しかし,シングルコアの動作周波数の向上が困難であることから,1コアによる処理性能向上が限界となり,今後の自動車制御系でマルチコアへの移行が進んでいくと考えられる.また,自動車制御系において開発期間の短縮および信頼性の向上のためにMATLAB/Simulinkによるモデルベース設計が普及している.しかし,現時点でこのようなモデルベース設計で自動的にコード生成されるソースコードはマルチコア上で自動的に並列処理できるまでには至っていない.そこで,本論文ではMATLAB/Simulinkによって設計された制御モデルからEmbedded Coderにより自動生成されたエンジン制御Cコードをマルチコア上で動作するための並列化手法を提案する.提案手法を用いて,従来手動ではタスク粒度が細かく並列化が困難であった条件分岐と算術代入文からなるエンジン制御CコードをOSCAR自動並列化コンパイラにて自動並列化した.RP2やV850E2R等の組み込みマルチコア上で実行したところ,2コアで最大1.91倍,4コアで最大3.76倍の性能向上が得られた.

低消費電力コンピューティングを実現するマルチコア技術

木村啓二, 笠原博徳

電子情報通信学会誌97(2)p.133 - 1392014年02月-

OSCAR Compiler Controlled Multicore Power Reduction on Android Platform

Hideo Yamamoto, Tomohiro Hirano, Kohei Muto, Hiroki Mikami, Takashi Goto, Dominic Hillenbrand, Moriyuki Takamura, Keiji Kimura, and Hironori Kawahara

The 26th International Workshop on Languages and Compilers for Parallel Computing,(LCPC2013)2013年09月-

Reconciling Application Power Control and Operating Systems for Optimal Power and Performance

Dominic Hillenbrand, Yuuki Furuyama, Akihiro Hayashi, Hiroki Mikami, Keiji Kimura and Hironori Kasahara

8th International Workshop on Reconfigurable Communication-centric Systems-on-Chip, ReCoSoC (ReCoSoC2013)2013年07月-

Automatic Parallelization of Hand Written Automotive Engine Control Codes Using OSCAR Compiler

Dan Umeda, Yohei Kanehagi, Hiroki Mikami, Akihiro Hayashi, Keiji Kimura, Hironori Kasahara

17th Workshop on Compilers for Parallel Computing (CPC2013)2013年07月-

OSAR API v2.1: Extensions for an Advanced Accelerator Control Scheme to a Low-Power Multicore API

Keiji Kimura, Cecilia Gonzales-Alvarez, Akihiro Hayashi, Hiroki Mikami, Mamoru Shimaoka, Jun Shirako, Hironori Kasahara

17th Workshop on Compilers for Parallel Computing (CPC2013)2013年07月-

Automatic Parallelization, Performance Predictability and Power Control for Mobile-Applications

Dominic Hillenbrand, Akihiro Hayashi, Hideo Yamamoto, Keiji Kimura, Hironori Kasahara

COOL Chips XVI, IEEE Symposium on Low Power and High-Speed Chips2013年04月-

Parallelization of Automotive Engine Control Software On Embedded Multi-core Processor Using OSCAR Compiler

Yohei Kanehagi, Dan Umeda, Akihiro Hayashi, Keiji Kimura, Hironori Kasahara

COOL Chips XVI, IEEE Symposium on Low Power and High-Speed Chips2013年04月-

Automatic Design Exploration Framework for Multicores with Reconfigurable Accelerators

Cecilia Gonzalez-Alvarez, Haruku Ishikawa, Akihiro Hayashi, Daniel Jimenez-Gonzalez, Carlos Alvarez, Keiji Kimura, Hironori Kasahara

th Workshop on Reconfigurable Computing (WRC) 2013, held in conjuction with HiPEAC conference 20132013年01月-

Enhancing the Performance of a Multiplayer Game by Using a Parallelizing Compiler

Yasir I Al-Dosary, Keiji Kimura, Hironori Kasahara, and Seinosuke Narita

17th International Conference on Computer Games: AI, Animation, Mobile, Educational & Serious Games2012年07月-

OSCAR Parallelizing Compiler and API for Real-time Low Power Heterogeneous Multicores

kihiro Hayashi, Mamoru Shimaoka, Hiroki Mikami, Masayoshi Mase, Yasutaka Wada, Jun Shirako, Keiji Kimura, and Hironori Kasahara

6th Workshop on Compilers for Parallel Computing(CPC2012)2012年01月-

ヘテロジニアスマルチコア向けソフトウェア開発フレームワーク及びAPI

林明宏, 和田康孝, 渡辺岳志, 関口威, 間瀬正啓, 白子準, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステム(ACS36)5(1)p.68 - 792011年11月-

A Parallelizing Compiler Cooperative Heterogeneous Multicore Processor Architecture

Yasutaka Wada, Akihiro Hayashi, Takeshi Masuura, Jun Shirako, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura, and Hironori Kasahara

Lecture Notes in Computer Science6760p.215 - 2332011年11月-

Evaluation of Power Consumption at Execution of Multiple Automatically Parallelized and Power Controlled Media Applications on the RP2 Low-power Multicore

Hiroki Mikami, Shumpei Kitaki, Masayoshi Mase, Akihiro Hayashi, Mamoru Shimaoka, Keiji Kimura, Masato Edahiro, and Hironori Kasahara

Proc. of The 23rd International Workshop on Languages and Compilers for Parallel Computing (LCPC2011)2011年09月-

Parallelizing Compiler Framework and API for Power Reduction and Software Productivity of Real-time Heterogeneous Multicores

A. Hayashi, Y. Wada, T. Watanabe, T. Sekiguchi, M. Mase, J. Shirako, K. Kimura, H. Kasahara

Lecture Notes in Computer Science6548p.184 - 1982011年02月-

A 45-nm37.3 GOPS/W Heterogeneous Multi-Core SOC with 16/32 Bit Instruction-Set General-Purpose Core

Osamu NISHII, Yoichi YUYAMA, Masayuki ITO, Yoshikazu KIYOSHIGE, usuke NITTA, Makoto ISHIKAWA, Tetsuya YAMADA, Junichi MIYAKOSHI, YasutakaWADA, Keiji KIMURA, Hironori KASAHARA, and Hideo MAEJIMA

IEICE TRANSACTIONS on ElectronicsE94-C(4)p.663 - 6692011年04月-

Parallelizing Compiler Framework and API for Power Reduction and Software Productivity of Real-time Heterogeneous Multicores

A. Hayashi, Y. Wada, T. Watanabe, T. Sekiguchi, M. Mase, J. Shirako, K. Kimura, H. Kasahara

Proc. of The 23rd International Workshop on Languages and Compilers for Parallel Computing (LCPC2010)2010年10月-

OSCAR API for Real-time Low-Power Multicores and Its Performance on Multicores and SMP Servers

Keiji Kimura, Masayoshi Mase, Hiroki Mikami, Takamichi Miyamoto, Jun Shirako and Hironori Kasahara

Lecture Notes in Computer Science5898p.188 - 2022010年-

Parallelizable C and Its Performance on Low Power High Performance Multicore Processors

Masayoshi Mase, Yuto Onozaki, Keiji Kimura, Hironori Kasahara

Proc. of 15th Workshop on Compilers for Parallel Computing (CPC 2010)2010年07月-

A 45nm 37.3GOPS/W Heterogeneous Multi-Core SoC

Y. Yuyama, M. Ito, Y. Kiyoshige, Y. Nitta, S. Matsui, O. Nishii, A.Hasegawa, M. Ishikawa, T. Yamada, J. Miyakoshi, K. Terada, T. Nojiri, M. Satoh, H. Mizuno, K. Uchiyama, Y. Wada, K. Kimura, H. Kasahara, H.Maejima

IEEE INTERNATIONAL SOLID-STATE CIRCUITS CONFERENCE (ISSCC 2010)2010年02月-

自動並列化のためのElement-Sensitiveポインタ解析

間瀬正啓, 村田雄太, 木村啓二, 笠原博徳

情報処理学会論文誌プログラミング(PRO)3(2)p.36 - 472010年03月-

OSCAR API for Real-time Low-Power Multicores and Its Performance on Multicores and SMP Servers

Keiji Kimura, Masayoshi Mase, Hiroki Mikami, Takamichi Miyamoto, Jun Shirako and Hironori Kasahara

Proc. of The 22nd International Workshop on Languages and Compilers for Parallel Computing (LCPC2009)2009年10月-

Green Multicore-SoC Software-Execution Framework with Timely-Power-Gating Scheme

Masafumi Onouchi, Keisuke Toyama, Toru Nojiri, Makoto Sato, Masayoshi Mase, Jun Shirako, Mikiko Sato, Masashi Takada, Masayuki Ito, Hiroyuki Mizuno, Mitaro Namiki, Keiji Kimura, Hironori Kasahara

Proc. of 2009 International Conference on Parallel Processingp.510 - 5172009年09月-

マルチコア上でのOSCAR APIを用いた並列化コンパイラによる低消費電力化手法

間瀬正啓, 中川亮, 大國直人, 白子準, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステム(ACS)2(3)p.96 - 1062009年09月-

マルチコアプロセッサ上での粗粒度タスク並列処理のためのコンパイラによるローカルメモリ管理手法

中野啓史, 桃園拓, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステム(ACS)2(2)p.63 - 742009年07月-

Performance of OSCAR Multigrain Parallelizing Compiler on Multicore Processors

Hiroki Mikami, Jun Shirako, Masayoshi Mase, Takamichi Miyamoto, Hirofumi Nakano, Fumiyo Takano, Akihiro Hayashi, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

Proc. of 14th Workshop on Compilers for Parallel Computing(CPC 2009)2009年01月-

Parallelization with Automatic Parallelizing Compiler Generating Consumer Electronics Multicore API

akamichi Miyamoto, Saori Asaka, Hiroki Mikami, Masayoshi Mase, Yasutaka Wada, Hirofumi Nakano, Keiji Kimura, Hironori Kasahara

Proc. of IEEE International Symposium on Advances in Parallel and Distributed Computing Techniques (APDCT-08)2008年12月-

情報家電用マルチコア並列化APIを生成する自動並列化コンパイラによる並列化の評価

宮本孝道, 浅香沙織, 見神広紀, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会論文誌 コンピューティングシステム(ACS)1(3)p.83 - 952008年12月-

Power Reduction Controll for Multicores in OSCAR Multigrain Parallelizing Compiler

Jun Shirako, Keiji Kimura, Hironori Kasahara

Proc. of International SoC Design Conference (ISOCC 2008)2008年11月-

ヘテロジニアスマルチコア上でのスタティックスケジューリングを用いた MP3エンコーダの並列化

和田康孝, 林明宏, 益浦健, 白子準, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステム1(1)p.105 - 1192008年06月-

Parallelizing Compiler Cooperative Heterogeneous Multicore

Yasutaka Wada, Akihiro Hayashi, Takeshi Masuura, Jun Shirako, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Proc. of Workshop on Software and Hardware Challenges of Manycore Platforms (SHCMP 2008)2008年06月-

An 8 CPU SoC with Independent Power-off Control of CPUs and Multicore Software Debug Function

Yutaka Yoshida, Masayuki Ito, Kiyoshi Hayase, Tomoichi Hayashi, Osamu Nishii, Toshihiro Hattori, Jun Sakiyama, Masashi Takada, Kunio Uchiyama, Jun Shirako, Masayoshi Mase, Keiji Kimura, Hironori Kasahara

Proc. of IEEE Cool Chips XI: Symposium on Low-Power and High-Speed Chips 20082008年04月-

Heterogeneous Multi-core Architecture that Enables 54x AAC-LC Stereo Encoding

Hiroaki Shikano, Masaki Ito, Takashi Todaka, Takanobu Tsunoda, Tomoyuki Kodama, Masafumi Onouchi, Kunio Uchiyama, Toshihiko Odaka, Tatsuya Kamei, Ei Nagahama, Manabu Kusaoke, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

IEEE Journal of Solid-State Circuits43(4)p.902 - 9102008年04月-

Power-Aware Compiler Controllable Chip Multiprocessor

Hiroaki Shikano, Jun Shirako, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

Hiroaki Shikano, Jun Shirako, Yasutaka Wada, Keiji Kimura, Hironori KasaharaE91-C(4)p.432 - 4392008年04月-

A 600MHz SoC with Compiler Power-off Control of 8 CPUs and 8 Onchip-RAMs

Masayuki Ito, Toshihiro Hattori, Yutaka Yoshida, Kiyoshi Hayase, Tomoichi Hayashi, Osamu Nishii, Yoshihiko Yasu, Atsushi Hasegawa, Masashi Takada, Masaki Ito, Hiroyuki Mizuno, Kunio Uchiyama, Toshihiko Odaka, Jun Shirako, Masayoshi Mase, Keiji Kimura, Hironori Kasahara

Proc. of International Solid State Circuits Conference (ISSCC2008)p.90 - 912008年02月-

Software-Cooperative Power-Efficient Heterogeneous Multi-Core for Media Processing

Hiroaki Shikano, Masaki Ito, Kunio Uchiyama, Toshihiko Odaka, Akihiro Hayashi, Takeshi Masuura, Masayoshi Mase, Jun Shirako, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

Proc. of 13th Asia and South Pacific Design Automation Conference (ASP-DAC 2008)p.736 - 7412008年01月-

Performance Evaluation of Compiler Controlled Power Saving Scheme

Jun Shirako, Munehiro Yoshida, Naoto Oshiyama, Yasutaka Wada, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Lecture Notes in Computer Science4759p.480 - 4932008年01月-

Heterogeneous Multiprocessor on a Chip Which Enables 54x AAC-LC Stereo Encoding

Masaki Ito, Takashi Todaka, Takanobu Tsunoda, Hiroshi Tanaka, Tomoyuki Kodama, Hiroaki Shikano, Masafumi Onouchi, Kunio Uchiyama, Toshihiko Odaka, Tatsuya Kamei, Ei Nagahama, Manabu Kusaoke, Yusuke Nitta, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

Proc. of 2007 Symposia on VLSI TEchnology and Circuits2007年06月-

MP3エンコーダを用いたOSCARヘテロジニアスチップマルチプロセッサの性能評価

鹿野裕明, 鈴木裕貴, 和田康孝, 白子準, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステムVol. 48, No. SIG8(ACS18),p.141 - 1522007年05月-

Compiler Control Power Saving Scheme for Multi Core Processors

Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Lecture Notes in Computer ScienceVol. 4339p.362 - 3762007年05月-

A 4320MIPS Four-Processor Core SMP/AMP with Individually Managed Clock Frequency for Low Power Consumption

Y. Yoshida, T. Kamei, K. Hayase, S. Shibahara, O. Nishii, T. Hattori, A. Hasegawa, M. Takada, N. Irie, K. Uchiyama, T. Odaka, K. Takada, K. Kimura, H. Kasahara

2007 IEEE International Solid-State Circuits Conference(ISSCC2007)p.100 - 1012007年02月-

マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法

白子準, 吉田宗弘, 押山直人, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会論文誌コンピューティングシステムVol. 47(ACS15)2006年09月-

Performance Evaluation of Compiler Controlled Power Saving Scheme

Jun Shirako, Munehiro Yoshida, Naoto Oshiyama, Yasutaka Wada, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura Hironori Kasahara

Proc. of 20th ACM International Conference on Supercomputing Workshop on Advanced Low Power Systems (ALPS2006)2006年07月-

Performance Evaluation of Heterogeneous Chip Multi-Processor with MP3 Audio Encoder

Hiroaki Shikano, Yuki Suzuki, Yasutaka Wada, Jun Shirako, Keiji Kimura, Hironori Kasahara

Proc. of IEEE Symposium on Low-Power and High-Speed Chips (COOL Chips IX)p.349 - 3632006年05月-

Parallelizing Compilation Scheme for Reduction of Power Consumption of Chip Multiprocessors

Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Proc. of 12th Workshop on Compilers for Parallel Computers (CPC 2006),2006年01月-

マルチコア化するマイクロプロセッサ

笠原博徳, 木村啓二

情報処理47(1)p.10 - 162006年01月-

マルチコアにおけるプログラミング

木村啓二, 笠原博徳

情報処理47(1)p.17 - 232006年01月-

Compiler Control Power Saving Scheme for Multi Core Processors

Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

Proc. of The 18th International Workshop on Languages and Compilers for Parallel Computing (LCPC2005),2005年10月-

チップマルチプロセッサ上でのMPEG2エンコードの並列処理

小高剛, 中野啓文, 木村啓二, 笠原博徳

情報処理学会論文誌46(9)p.2311 - 23252005年09月-

Performance of OSCAR Multigrain Parallelizing Compiler on SMP Servers

Kazuhisa Ishizaka, Takamichi Miyamoto, Jun Shirako, Motoki Obata, Keiji Kimura, Hironori Kasahara

Lecture Notes in Computer Science3602p.3192005年12月-

Multigrain Parallel Processing on Compiler Cooperative Chip Multiprocessor

Keiji Kimura, Yasutaka Wada, Hirofumi Nakano, Takeshi Kodaka, Jun Shirako, Kazuhisa Ishizaka, Hironori Kasahara

Proc. of 9th Workshop on Interaction between Compilers and Computer Architectures (INTERACT-9)p.11 - 202005年02月-

Performance of OSCAR Multigrain Parallelizing Compiler on SMP Servers

Kazuhisa Ishizaka, Takamichi Miyamoto, Jun Shirako, Keiji Kimura, Hironori Kasahara

Proc. of 17th International Workshop on Languages and Compilers for Parallel Computing (LCPC2004)2004年09月-

Multigrain Parallel Processing on Compiler Cooperative OSCAR Chip Multiprocessor Architecture 'Jointly Worked'

Keiji Kimura, Yasutaka Wada, Hirofumi Nakano, Takeshi Kodaka, Jun Shirako, Kazuhisa Ishizaka, Hironori Kasahara

The IEICE Transactions on Electronics, Special Issue on High-Performance and Low-Power System LSIs and Related TechnologiesE86-C(4)p.570 - 5792003年02月-

Static Coarse Grain Task Scheduling with Cache Optimization Using OpenMP

Hirofumi Nakano, Kazuhisa Ishizaka, Motoki Obata, Keiji Kimura, Hironori Kasahara

International Journal of Parallel Programming31(3)p.211 - 2232003年06月-

Parallel Processing using Data Localization for MPEG2 Encoding on OSCAR Chip Multiprocessor

Takeshi Kodaka, Hirofumi Nakano, Keiji Kimura, Hironori Kasahara

Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'04)2004年01月-

Memory Management for Data Localication on OSCAR Chip Multiprocessor

Hirofumi Nakano, Takeshi Kodaka, Keiji Kimura Hironori Kasahara

Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'04)2004年01月-

Multigrain Parallel Processing on OSCAR CMP

Keiji Kimura, Takeshi Kodaka, Motoki Obata, Hironori Kasahara

IEEE Computer Society Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'03)p.56 - 652003年01月-

Performance of Multigrain Parallelization in Japanese Millennium Project IT21 Advanced Parallelizing Compiler

Hironori Kasahara, Motoki Obata, Kazuhisa Ishizaka, Keiji Kimura, Hiroki Kaminaga, Hirofumi Nakano, Kouhei Nagasawa, Akiko Murai, HIroki Itagaki, Jun Shirako

Proc. of 10th International Workshop on Compilers for Parallel Computers (CPC) Amsterdam Netherland2003年01月-

シングルチップマルチプロセッサにおけるJPEGエンコーディングのマルチグレイン並列処理

小高剛, 内田貴之, 木村啓二, 笠原博徳

情報処理学会ハイパフォーマンスコンピューティングシステム論文誌43(Sig 6(HPS5))p.153 - 1622002年09月-

近細粒度並列処理用シングルチップマルチプロセッサにおけるプロセッサコアの評価

木村啓二, 加藤孝幸, 笠原博徳

情報処理学会論文誌42(4)p.692 - 7032001年04月-

Static Coarse Grain Task Scheduling with Cache Optimization Using OpenMP

Hirofumi Nakano, Kazuhisa Ishizaka, Motoki Obata, Keiji Kimura, Hironori Kasahara

Springer Lecture Notes in Computer Science 2327 High Performance Computing (Proc. of ISHPC WOMPEI)p.479 - 4892002年12月-

Multigrain Parallel Processing for JPEG Encoding on a Single Chip Multiprocessor

T. Kodaka, K. Kimura, H. Kasahara

IEEE Computer Society Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'02)p.57 - 632002年01月-

Evaluation of Single Chip Multiprocessor Core Architecture with Near Fine Grain Parallel Processing

Keiji Kimura, Hironori Kasahara

Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'01)2001年01月-

シングルチップマルチプロセッサ上での近細粒度並列処理

木村啓二, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会論文誌40(5)p.1924 - 19341999年05月-

Near Fine Grain Parallel Processing Using Static Scheduling on Single Chip Multiprocessors

Keiji Kimura, Hironori Kasahara

IEEE Computer Society Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'99)p.23 - 311999年11月-

Data-Localization among Doall and Sequential Loops in Coarse Grain Parallel Processing

Akimasa Yoshida, Yasushi Ujigawa, Motoki Obata, Keiji Kimura, Hironori Kasahara

Seventh Workshop on Compilers for Parallel Computers Linkoping Swedenp.266 - 2771998年01月-

OSCAR Multi-grain Architecture and Its Evaluation

Hironori Kasahara, Masami Okamoto, Akimasa Yoshida, Wataru Ogata, Keiji Kimura, Gantetsu Matsui, Hidenori Matsuzaki, Hiroki Honda

IEEE Computer Society Proc. International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems, (IWIA'97)p.106 - 1151997年11月-

Near Fine Grain Parallel Processing without Explicit Synchronization on a Multiprocessor System

Wataru Ogata, Akimasa Yoshida, Masami Okamoto, Keiji Kimura, Hironori Kasahara

Proc. of Sixth Workshop on Compilers for Parallel Computers (Aachen Germany)1996年12月-

講演・口頭発表等

マクロタスク最早実行可能条件解析を用いたキャッシュ最適化手法

稲石大祐, 木村啓二, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会第56回全国大会(情報処理学会)1998年03月

マルチグレイン並列処理用シングルチップマルチプロセッサアーキテクチャ

木村啓二, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会第56回全国大会(情報処理学会)1998年03月

最早実行可能条件解析を用いたキャッシュ最適化手法

稲石大祐, 木村啓二, 藤本謙作, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会第58回全国大会(情報処理学会)1999年03月

シングルチップマルチプロセッサの近細粒度並列処理に対する性能評価

加藤考幸, 尾形航, 木村啓二,内田貴之, 笠原博徳

情報処理学会第60回全国大会(情報処理学会)2000年03月

マルチグレイン並列処理用シングルチップマルチプロセッサにおけるデータ転送ユニットの検討

宮下直久, 木村啓二, 小高剛, 笠原博徳

情報処理学会第62回全国大会(情報処理学会)2001年03月

近細粒度並列処理に適したシングルチップマルチプロセッサのメモリアーキテクチャの評価

松元信介, 木村啓二, 笠原博徳

情報処理学会第62回全国大会(情報処理学会)2001年03月

マルチメディアアプリケーションのシングルチップマルチプロセッサ上での近細粒度並列処理

小高剛, 木村啓二, 宮下直久, 笠原博徳

情報処理学会第62回全国大会(情報処理学会)2001年03月

マルチプロセッサシステム上でのキャッシュ最適化を考慮した粗粒度タスクスタティックスケジューリング手法 (共著)

中野啓文, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

情報処理学会第62回全国大会(情報処理学会)2001年03月

IBM pSeries 690上でのOSCARマルチグレイン自動並列化コンパイラの性能評価

石坂一久, 白子準, 小幡元樹, 木村啓二, 笠原博徳

情報処理学会第66回全国大会(情報処理学会)2004年03月

OSCARベクトルアクセラレータのFPGA上での性能評価

柏俣智哉,Boma A. ADHI,狩野哲史,宮本一輝,河田 巧,高橋 健,牧田哲也,北村俊明,木村啓二,笠原博徳

情報処理学会第80回全国大会(情報処理学会)2017年03月

OSCARベクトルマルチコアアーキテクチャのコンパイルフロー構築及び評価

高橋 健,狩野哲史,宮本一輝,河田 巧,柏俣智哉,牧田哲也,北村俊明,木村啓二,笠原博徳

情報処理学会第80回全国大会(情報処理学会)2017年03月

Cascaded DMAC Enabling Efficient Data Transfer for Indirect Memory Access Applications

Keiji Kimura

4th International Symposium on Research and Education of Computational Science (RECS)(RECS)2019年11月

A Latency Reduction Technique for Network Intrusion Detection System on Multicores

Keiji Kimura

14th International Forum on Embedded MPSoC and Multicore(MPSoC)2014年07月

マルチコア用並列化アプリケーション開発の基礎と実例

木村啓二

ESEC 2013 専門セミナー(Reed Exhibition Japan)2013年05月

OSCAR API v2.1 with Flexible Accelerator Control Facilities

Keiji Kimura

13th International Forum on Embedded MPSoC and Multicore(MPSoC)2013年07月

並列化コンパイラを考慮したコーディング作法と並列化APIの現在

木村啓二

ESEC 2012 専門セミナー(Reed Exhibition Japan)2012年05月

OSCAR API for Low-Power Multicores and Manycores, and API Standard Translator

Keiji Kimura

12th International Forum on Embedded MPSoC and Multicore(MPSoC)2012年07月

並列化APIとコンパイラによるマルチコア用アプリケーションの開発

木村啓二

ESEC 2011 専門セミナー(Reed Exhibition Japan)2011年05月

組込みマルチコア用並列化APIと並列化コンパイラの現在

木村啓二

ESEC 2010 専門セミナー(Reed Exhibition Japan)2010年05月

メニーコア・プロセッサとそれを支える要素技術

井上 弘士(九州大学)、木村 啓二(早稲田大学)、松谷 宏紀(東京大学)

組込システムシンポジウム 2009(情報処理学会)2009年10月

組込みソフトウェアの信頼性,開発効率向上のためのコーディングガイドライン

木村啓二

平成21年度 INSTAC成果報告会2009年07月

最新の組込みマルチコア用コンパイラ技術と並列API

木村啓二

ESEC 2009 専門セミナー(Reed Exhibition Japan)2009年05月

マルチコアのソフトウェア開発

木村啓二

CEATEC JAPAN 2008 インダストリアルセッション(IS)(JEITA)2008年10月

マルチコア用コンパイル技術の現在

木村啓二

第10回 組み込みシステム技術に関するサマーワークショップ (SWEST10)(情報処理学会)2008年09月

マルチコアプロセッサのソフトウェア

木村啓二

第31回STARCアドバンスト講座 システムアーキテクチャ セミナー - SoCシステムアーキテクチャ -(STARC)2008年07月

最新の組み込みマルチコア用コンパイラ技術

木村啓二

システムLSIワークショップ(情報処理学会)2007年11月

マルチコア用コンパイラ技術

木村啓二

165委員会主催研究会第46回研究会 「マルチコアプロセッサSoCの現状と今後の展望」2007年07月

組込マルチコアの動向

木村啓二

JEITA 情報端末フェスティバル 2007(JEITA)2007年06月

マルチコアプロセッサ活用の勘所

木村啓二

組み込みプロセッサ&プラットホームワークショップ2007年04月

ソフトウェアもおもしろいこれからのプロセッサアーキテクチャ

木村啓二

FIT2006イベント企画「これからが面白いプロセッサアーキテクチャ」(パネル)(情報処理学会)2006年09月

結果に再現性のある計算機システムエミュレータ

清水勇希, 高井峰生, 木村 啓二

マルチメディア、分散、協調とモバイル(DICOMO2017)シンポジウム(情報処理学会)2017年07月

計算機システムエミュレーションにおける再現性の評価

福意大智 水本旭洋 西本真介 金田茂 高井峰生 木村啓二

マルチメディア、分散、協調とモバイル(DICOMO2015)シンポジウム(情報処理学会)2015年07月

モデルベース設計により自動生成されたエンジン制御Cコードのマルチコア用自動並列化

梅田弾, 金羽木洋平, 見神広紀, 谷充弘(デンソー), 森裕司(デンソー), 木村啓二, 笠原博徳

組み込みシステムシンポジウム(ESS2013)(情報処理学会)2013年10月

組込マルチコア用OSCAR APIを用いたTILEPro64上でのマルチメディアアプリケーションの 並列処理

岸本耀平, 見神広紀, 中野恵一, 林明宏, 木村啓二, 笠原博徳

組み込みシステムシンポジウム(ESS2012)(情報処理学会)2012年10月

重粒子線がん治療用線量計算エンジンの自動並列化

林明宏, 松本卓司, 見神広紀, 木村啓二, 山本啓二, 崎浩典, 高谷保行, 笠原博徳

HPCS2012 - ハイパフォーマンスコンピューティングと計算科学シンポジウム(情報処理学会)2012年01月

マルチコア上でのOSCAR APIを用いた並列化コンパイラによる低消費電力化手法

中川亮, 間瀬正啓, 大國直人, 白子準, 木村啓二, 笠原博徳

先進的計算基盤システムシンポジウム(SACSIS2009)(情報処理学会)2009年05月

情報家電用マルチコア上におけるマルチメディア処理のコンパイラによる並列化

宮本孝道, 浅香沙織, 見神広紀, 間瀬正啓, 木村啓二, 笠原博徳

SACSIS2008 - 先進的計算基盤システムシンポジウム(情報処理学会)2008年05月

情報家電用マルチコアSMP実行モードにおける制約付きCプログラムのマルチグレイン並列化

間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 宮本孝道, 白子準, 中野啓史, 木村啓二, 笠原博徳

組込みシステムシンポジウム (ESS2007)(情報処理学会)2007年10月

マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法

白子準, 吉田宗広, 押山直人, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

先進的計算基盤システムシンポジウム(SACSIS2006)(情報処理学会)2006年05月

シングルチップマルチプロセッサにおける JPEGエンコーディングのマルチグレイン並列処理 (共著)

小高剛, 内田貴之, 木村啓二, 笠原博徳

情報処理学会並列処理シンポジウム(JSPP2002)(情報処理学会)2002年05月

準同型暗号による行列積の高速化の検討

牧田 哲也, 宍戸 哲平, 和田 康孝, 木村 啓二

電子通信情報学会技術報告 CPSY2019-96(電子情報通信学会)2020年03月

NDCKPT:不揮発性メインメモリを用いたOSによる透過的なプロセスチェックポインティングの実現

西田 耀, 木村 啓二

電子通信情報学会技術報告 CPSY2019-102(電子情報通信学会)2020年03月

OSCARコンパイラのC++プログラム対応の検討

川角 冬馬, TilmanPriesner, 野口 真聖, 韓 吉新, 見神 広紀, 川島 慧大, 田中啓士郎, 木村 啓二, 笠原 博徳

情報処理学会研究報告 2020-ARC-240(情報処理学会)2020年03月

マルチターゲット自動並列化コンパイラにおけるアクセラレータコスト推定手法の検討

山本 一貴, 藤田 一輝, 柏俣 智哉, 高橋 健, Boma A. Adhi, 北村 俊明, 川島 慧大, 納富 昭, 森 裕司, 木村 啓二, 笠原 博徳

情報処理学会研究報告 2020-ARC-240(情報処理学会)2020年03月

OSCAR自動並列化コンパイラとNECベクトル化コンパイラの協調によるベクトル・パーソナルスパコン上での自動ベクトル並列化

田處 雄大, 見神 広紀, 細見 岳生, 木村 啓二, 笠原 博徳

情報処理学会研究報告 2020-ARC-240(情報処理学会)2020年03月

OSCARベクトルマルチコアプロセッサのための自動並列ベクトル化コンパイラフレームワーク

宮本一輝,牧田哲也,高橋健,柏俣智哉,河田巧,狩野哲史,北村俊明,木村啓二,笠原博徳

情報処理学会研究報告 2018-ARC-230(情報処理学会)2018年03月

階層アジャスタブルブロックを用いた自動マルチコア・ローカルメモリ管理とその性能評価

白川智也, 阿部佑人, 大木吉健, 吉田明正, 木村啓二, 笠原博徳

情報処理学会研究報告 2017-ARC-220(情報処理学会)2017年11月

自動並列化コンパイラのコンパイル時間短縮のための実行プロファイル・フィードバックを用いたコード生成手法

藤野里奈, 韓吉新, 島岡護, 見神広紀, 宮島崇浩, 高村守幸, 木村啓二, 笠原博徳

情報処理学会研究報告 2017-ARC-217(情報処理学会)2017年03月

自動車リアルタイム制御計算の複数クラスタ構成マルチコア上での並列処理

宮田仁, 島岡護,見神広紀, 西博史, 鈴木均, 木村啓二,笠原博徳

情報処理学会研究報告 2017-ARC-217(情報処理学会)2017年03月

大規模システムを想定したGem5 シミュレータの階層的インターコネクションネットワーク拡張

小野口達也,林綾音,宇高勝之,松島裕一,木村啓二,笠原博徳

情報処理学会研究報告 2017-ARC-217(情報処理学会)2017年03月

LLVMを用いたベクトルアクセラレータ用コードのコンパイル手法

丸岡晃,無州祐也,狩野哲史,持山貴司,北村俊明,神谷幸男,高村守幸,木村啓二,笠原博徳

情報処理学会研究報告 2016-ARC-221(情報処理学会)2016年08月

OSCAR自動並列化コンパイラにおける解析時データ構造変換による並列性抽出手法

影浦直人,和気珠実,韓吉新,木村啓二,笠原博徳

情報処理学会研究報告 2016-HPC-153(情報処理学会)2016年03月

OSCARコンパイラを用いた医用画像3Dノイズリダクションの自動マルチグレイン並列処理

柴崎大侑,桑島昂平,奥村万里子,見神広紀,木村啓二,門下康平,中野恵一,笠原博徳

情報処理学会研究報告 2016-HPC-153(情報処理学会)2016年03月

OSCARコンパイラを用いた医用画像フィルタリングのマルチグレイン並列処理

奥村万里子, 柴崎大侑, 桑島昂平, 見神広紀, 木村啓二, 門下康平, 中野恵一,笠原博徳

情報処理学会研究報告 2016-HPC-153(情報処理学会)2016年03月

データ多次元整合分割によるマルチコア・ローカルメモリ管理手法

山本康平,白川智也,吉田明正,木村啓二,笠原博徳

情報処理学会研究報告 2016-SLDM-174(情報処理学会)2016年01月

OSCAR自動並列化コンパイラを用いたリアルタイム動画像アプリケーションのHaswellマルチコア上での低消費電力化

飯塚 修平,山本 英雄,平野 智大,岸本 耀平,後藤 隆志,見神 広紀,木村 啓二,笠原 博徳

情報処理学会研究報告 2015-EMB-36(情報処理学会)2015年03月

自動並列化・低消費電力化された複数アプリケーションに対するマルチコア用ダイナミックスケジューリング手法

後藤隆志, 武藤康平, 平野智大, 見神広紀, 高橋宇一郎(富士通), 井上 栄(富士通), 木村啓二,笠原博徳

情報処理学会研究報告 2015-SLDM-170(情報処理学会)2015年03月

動画像デコーディングのIntelおよびARMマルチコア上での並列処理の評価

和気珠実, 飯塚修平,見神広紀,木村啓二,笠原博徳

情報処理学会研究報告 2015-EMB-36(情報処理学会)2015年03月

自動並列化コンパイラによるソフトウェアキャッシュコヒーレンシ制御手法の評価

岸本耀平, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会研究報告 2014-ARC-213(情報処理学会)2014年12月

Linux ftrace を用いたマルチコアプロセッサ上での並列化プログラムのトレース手法

福意大智,島岡護,見神広紀,Dominic Hillenbrand,木村啓二,笠原博徳

情報処理学会研究報告 2014-ARC-211(情報処理学会)2014年07月

Android Demonstration System of Automatic Parallelization and Power Optimization by OSCAR Compiler

Bui Duc Binh,Tomohiro Hirano,Hiroki Mikami,Dominic Hillenbrand,Keiji Kimura, Hironori Kasahara

情報処理学会研究報告 2014-ARC-211(情報処理学会)2014年07月

統計的手法を用いた並列化コンパイラ協調マルチコアアーキテクチャシミュレータ高速化手法

田口学豊, 木村啓二, 笠原博徳

電子通信情報学会技術報告 ETNET2014(電子情報通信学会)2014年03月

不正侵入検知システムにおけるマルチコア上でのシグネチャ割当によるレイテンシ削減手法

山田正平, 木村啓二, 笠原博徳

情報処理学会研究報告 2013-ARC-201(情報処理学会)2014年03月

小ポイントFFTのマルチコア上での自動並列化手法

古山祐樹, 見神広紀, 木村啓二, 笠原博徳

情報処理学会研究報告 2013-ARC-201(情報処理学会)2014年03月

プロファイル情報を用いたAndroid 2D描画ライブラリSKIAのOSCARコンパイラによる並列化

後藤隆志, 武藤康平, 山本英雄, 平野智大, 見神広紀, 木村啓二, 笠原博徳

情報処理学会研究報告 2013-ARC-207-12(情報処理学会)2013年12月

Androidベースマルチコア上での自動電力制御

平野智大, 武藤康平, 後藤隆志, 見神広紀, 山本英雄, 木村啓二, 笠原博徳

情報処理学会研究報告 2013-ARC-206-23(情報処理学会)2013年08月

OSCAR API標準解釈系を用いた階層グルーピング対応ハードウェアバリア同期機構の評価

川島慧大, 金羽木洋平, 林明宏, 木村啓二, 笠原博徳

情報処理学会研究報告 2013-ARC-206-16(情報処理学会)2013年08月

Enhancing the Performance of a Multiplayer Game by Using a Parallelizing Compiler

アルドーサリー ヤーセル, 古山祐樹, ドミニク ヒレンブランド, 木村啓二, 笠原博徳, 成田誠之助

情報処理学会研究報告 2013-OS-125(情報処理学会)2013年04月

マルチコア商用スマートディバイスの評価と並列化の試み

山本英雄, 後藤隆志, 平野智大, 武藤康平, 見神広紀, Hillenbrand Dominic, 林 明宏, 木村啓二, 笠原博徳

情報処理学会研究報告 2013-OS-124(情報処理学会)2013年02月

コンパイラと協調したシミュレー ション精度切り換え可能な マルチコアアーキテクチャシミュレータ

田口学豊, 阿部洋一, 木村啓二, 笠原博徳

情報処理学会研究報告 2012-ARC-203-14(情報処理学会)2013年01月

並列化アプリケーションを対象とした統計的手法によるメニーコア アーキテクチャシミュレーションの高速化

阿部洋一, 田口学豊, 木村啓二, 笠原博徳

情報処理学会研究報告 2012-ARC-203-13(情報処理学会)2013年01月

自動車エンジン制御ソフトウェアにおけるマルチコア上での並列処理

金羽木洋平, 梅田弾, 見神広紀, 林明宏, 沢田光男(トヨタ自動車(株)), 木村 啓二, 笠原博徳

情報処理学会研究報告 2013-ARC-203-2(情報処理学会)2013年01月

Opportunities and Challenges of Application-Power Control in the Age of Dark Silicon

Dominic Hillenbrand, Yuuki Furuyama, Akihiro Hayashi, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

情報処理学会研究報告 2012-ARC-202 HPC137-26(情報処理学会)2012年12月

地震動シミュレータGMSのOSCARコンパイラによる自動並列化

島岡護, 見神広紀, 林明宏, 和田康孝, 木村啓二, 森田秀和(株日立製作所), 内山 邦男(株日立製作所), 笠原博徳

情報処理学会研究報告 2012-ARC-202HPC137-11(情報処理学会)2012年12月

Automatic parallelization with OSCAR API Analyzer: a cross-platform performance evaluation

Gonzalez-Alvarez Cecilia, 金羽木洋平, 竹本昂生, 岸本耀平, 武藤康平, 見神広紀, 林明宏, 木村啓二, 笠原博徳

情報処理学会研究報告 2012-ARC-202HPC137-10(情報処理学会)2012年12月

低消費電力マルチコ アRP-Xを用いた1ワットWebサービスの実現

古山祐樹, 島岡護, 見神広紀, 林明宏, 木村啓二, 笠原博徳

情報処理学会研究報告 2012-ARC-201-24(情報処理学会)2012年08月

エンジン基本制御ソフトウェアモデルのマルチコア上での並列処理

梅田弾, 金羽木洋平, 見神広紀, 林明宏 谷充弘, 森裕司, 木村啓二, 笠原博徳

情報処理学会研究報告 2012-ARC-201-22(情報処理学会)2012年08月

並列化メディアアプリケーションを対象としたメニーコアアーキテクチャシミュレーションの 高速化の検討

阿部洋一, 石塚亮, 大胡亮太, 田口学豊, 木村啓二, 笠原博徳

情報処理学会研究報告 2012-ARC-199-3(情報処理学会)2012年03月

Javaの自動並列化における例外フローのイン ライニング解析とメソッドディスパッチの高速化

田端啓一, 木村啓二, 笠原博徳

情報処理学会研究報告 2012-ARC-199-9(情報処理学会)2012年03月

JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」を用いた Parallelizable Cの定義

木村啓二, 間瀬正啓, 笠原博徳

情報処理学会研究報告 ETNET2012(情報処理学会)2012年03月

SMPサーバー上での粒子線がん治療用線量計算エンジンの自動並列化

林明宏, 松本卓司, 見神広紀, 木村啓二, 山本啓二, 崎浩典, 高谷保行, 笠原博徳

情報処理学会研究報告 2011-ARC189HPC132-2(情報処理学会)2011年11月

科学技術計算プログラムの構造を利用したメニーコアアーキテクチャシミュレーション高速化手法の評価

石塚亮, 阿部洋一, 大胡亮太, 木村啓二, 笠原博徳

情報処理学会研究報告 2011-ARC-196-14(情報処理学会)2011年07月

SPECベンチマークプログラムのCUDAによる並列化の検討

平勇樹, 木村啓二, 笠原博徳

情報処理学会研究報告 2011-HPC-130-16(情報処理学会)2011年07月

メディアアプリケーションにおけるコンパイラによるI/Oオーバーヘッド隠蔽手法

林明宏, 関口威, 間瀬正啓, 和田康孝, 木村啓二, 笠原博徳

情報処理学会研究報告 2011-ARC-195-14(情報処理学会)2011年04月

低消費電力マルチコアRP2上での複数メディアアプリケーション実行時の消費電力評価

見神広紀, 北基俊平, 佐藤崇文, 間瀬正啓, 木村啓二, 石坂一久, 酒井淳嗣, 枝廣正人, 笠原博徳

情報処理学会研究報告 2011-ARC-194-1(情報処理学会)2011年03月

OSCAR API標準解釈系を用いたParallelizable Cプログラムの評価

佐藤卓也, 見神広紀, 林明宏, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会研究報告 2011-ARC-191-2(情報処理学会)2010年10月

情報家電用ヘテロジニアスマルチコア用自動並列化コンパイラフレームワーク

林明宏, 和田康孝, 渡辺岳志, 関口威, 間瀬正啓, 木村啓二, 伊藤雅之, 長谷川淳, 佐藤真琴, 野尻徹, 内山邦男, 笠原博徳

情報処理学会研究会報告 2010-ARC-190-7(SWoPP2010)(情報処理学会)2010年08月

情報家電用ヘテロジニアスマルチコアRP-Xにおけるコンパイラ低消費電力制御性能

和田康孝, 林明宏, 渡辺岳志, 関口威, 間瀬正啓, 白子準, 木村啓二, 伊藤雅之, 長谷川淳, 佐藤真琴, 野尻徹, 内山邦男, 笠原博徳

情報処理学会研究会報告 2010-ARC-190-8(SWoPP2010)(情報処理学会)2010年08月

プログラム構造に着目したメニーコアアーキテクチャシミュレータの高速化手法

石塚亮, 大友俊也, 大胡亮太, 木村啓二, 笠原博徳

情報処理学会研究会報告 2010-ARC-190-20(SWoPP2010)(情報処理学会)2010年08月

並列化コンパイラによるソフトウェアコヒーレンシ制御

間瀬 正啓;木村 啓二;笠原 博徳

情報処理学会研究会報告 2010-ARC-189, 2010-OS-114(情報処理学会)2010年04月

組込み向けマルチコア上での複数アプリケーション動作時の自動並列化されたアプリケーションの処理性能

宮本孝道, 間瀬正啓, 木村啓二, 石坂一久, 酒井淳嗣, 枝廣正人, 笠原博徳

情報処理学会研究会報告 2010-ARC-188(情報処理学会)2010年03月

自動並列化技術を用いたメディア処理オフロード

石坂 一久;酒井 淳嗣;枝廣 正人;宮本 孝道;間瀬 正啓;木村 啓二;笠原 博徳

情報処理学会研究会報告 2010-SLDM144, 2010-EMB16(情報処理学会)2010年03月

H.264/AVCエンコーダのマルチコアプロセッサにおける階層的並列処理

見神広紀, 宮本孝道, 木村啓二, 笠原博徳

情報処理学会研究会報告 2010-ARC-187(情報処理学会)2010年01月

自動並列化のためのElement-Sensitiveポインタ解析

間瀬 正啓, 村田 雄太, 木村 啓二, 笠原 博徳

情報処理学会研究報告(情報処理学会)2009年10月

マルチコアにおけるParallelizable Cプログラムの自動並列化

間瀬正啓, 木村啓二, 笠原博徳

情報処理学会研究報告 2009-ARC-174-15(SWoPP2009)(情報処理学会)2009年08月

並列度・タスク実行時間の偏りを考慮した標準タスクグラフセットSTG Ver3を用いたスケジューリングアルゴリズムの評価

島岡護, 今泉和浩,鷹野芙美代,木村啓二,笠原博徳

情報処理学会研究報告(情報処理学会)2009年02月

メディアアプリケーションを用いた並列化コンパイラ協調型ヘテロジニアスマルチコアアーキテクチャのシミュレーション評価

神山輝壮, 和田康孝, 林 明宏, 間瀬正啓, 中野啓史, 渡辺岳志, 木村啓二, 笠原博徳

電子通信情報学会技術報告 ICD2008-140(電子情報通信学会)2009年01月

マルチコアのためのコンパイラにおけるローカルメモリ管理手法

桃園拓, 中野啓史, 間瀬正啓, 木村啓二, 笠原博徳

電子通信情報学会技術報告 ICD2008-141(電子情報通信学会)2009年01月

マルチコア上でのOSCAR API を用いた低消費電力化手法

中川亮, 間瀬正啓, 白子準, 木村啓二, 笠原博徳

電子通信情報学会技術報告 ICD2008-145(電子情報通信学会)2009年01月

ポインタ解析を用いた制約付きCプログラムの自動並列化

間瀬正啓, 馬場大介, 長山晴美, 村田雄太, 木村啓二, 笠原博徳,

情報処理学会研究報告 2007-ARC-178-14(情報処理学会)2008年05月

階層グルーピング対応バリア同期機構の評価

山田海斗, 間瀬正啓, 白子準, 木村啓二, 伊藤雅之, 服部俊洋, 水野弘之, 内山邦男, 笠原博徳

情報処理学会研究報告 2007-ARC-178-4(情報処理学会)2008年05月

マルチコアプロセッサ上でのマルチメディア処理の並列化

宮本孝道, 田村圭, 田野裕秋, 見神広紀, 浅香沙織, 間瀬正啓, 木村啓二, 笠原博徳

情報処理学会研究報告 2007-ARC-175-15(デザインガイア2007)(情報処理学会)2007年11月

54倍速AACエンコードを実現するヘテロジニアスマルチコアアーキテクチャの検討

鹿野裕明, 伊藤雅樹, 戸高貴司, 津野田賢伸, 兒玉征之, 小野内雅文, 内山邦男, 小高俊彦, 亀井達也, 永濱 衛, 草桶 学, 新田祐介, 和田康孝, 木村啓二, 笠原博徳

電子通信情報学会技術報告 ICD2007-71, Vol. 107(電子情報通信学会)2007年08月

ヘテロジニアスマルチコア上での階層的粗粒度タスクスタティックスケジューリング手法

和田康孝, 林明宏, 伊能健人, 白子準, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会研究報告 2007-ARC-174-17(SWoPP2007)(情報処理学会)2007年08月

ヘテロジニアスマルチコア上でのコンパイラによる低消費電力制御

林明宏, 伊能健人, 中川亮, 松本繁, 山田海斗, 押山直人, 白子準, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会研究報告 2007-ARC-174-18(SWoPP2007)(情報処理学会)2007年08月

情報家電用マルチコアSMP実行モードにおけるマルチグレイン並列処理

間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 深津幸 二, 宮本孝道, 白子準, 中野啓史, 木村啓二, 亀井達也, 服部俊洋, 長谷川淳, 佐藤真琴, 伊藤雅樹, 内山 邦男, 小高俊彦, 笠原博徳

情報処理学会研究報告 2007-ARC-173-05(情報処理学会)2007年05月

独立に周波数制御可能な 4320MIPS、SMP/AMP対応 4プロセッサLSIの開発

早瀬 清, 吉田 裕, 亀井達也, 芝原真一, 西井 修, 服部俊洋, 長谷川 淳, 高田雅士, 入江直彦, 内山邦男, 小高俊彦, 高田 究, 木村啓二, 笠原博徳

情報処理学会研究報告 2007-ARC-173-06(情報処理学会)2007年05月

マルチグレイン並列化コンパイラにおけるローカルメモリ管理手法

三浦 剛, 田川友博, 村松裕介, 池見明紀, 中川正洋, 中野啓史, 白子 準, 木村啓二, 笠原博徳

情報処理学会研究報告 2007-ARC-172/HPC-109-11 (HOKKE2007)(情報処理学会)2007年03月

マルチコア上でのマルチメディアアプリケーションの自動並列化

宮本孝道, 浅香沙織, 鎌倉信仁, 山内宏真, 間瀬正啓, 白子準, 中野啓史, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2007-171-13(情報処理学会)2007年01月

SMPサーバ及び組み込み用マルチコア上でのOSCARマルチグレイン自動並列化コンパイラの性能

白子準, 田川友博, 三浦剛, 宮本孝道, 中野啓史, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2006-170-02 (デザインガイア2006)(情報処理学会)2006年11月

OSCARコンパイラにおける制約付きCプログラムの自動並列化

間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 深津幸二, 宮本孝道, 白子準, 中野啓史, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2006-170-01 (デザインガイア2006)(情報処理学会)2006年11月

OSCARマルチコア上でのローカルメモリ管理手法

中野啓史, 仁藤拓実, 丸山貴紀, 中川正洋, 鈴木裕貴, 内藤陽介, 宮本孝道, 和田康孝, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2006-169-28(情報処理学会)2006年08月

マルチコアプロセッサ上での粗粒度タスク並列処理におけるデータ転送オーバラップ方式

宮本孝道, 中川正洋, 浅野尚一郎, 内藤陽介, 仁藤拓実, 中野啓史, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC-2006-167, HPC-2006-105(情報処理学会)2006年02月

MP3エンコーダを用いたヘテロジニアスチップマルチプロセッサの性能評価

鹿野裕明, 鈴木裕貴, 和田康孝, 白子準, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC-2006-166(情報処理学会)2006年01月

ヘテロジニアスチップマルチプロセッサにおける粗粒度タスクスタティックスケジューリング手法

和田康孝, 押山直人, 鈴木裕貴, 内藤陽介, 白子準, 中野啓史,鹿野裕明, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC-2006-166(情報処理学会)2006年01月

マルチコアプロセッサ上でのデータローカライゼーション

中野啓文, 浅野尚一郎, 内藤陽介, 仁藤拓実, 田川友博, 宮本孝道, 小高剛, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2005-165-10(情報処理学会)2005年12月

ホモジニアスマルチコアにおけるコンパイラ制御低消費電力化手法

白子準, 押山直人, 和田康孝, 鹿野裕明, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2005-164-10 (SWoPP205)(情報処理学会)2005年08月

配列間接アクセスを用いないコード生成法を用いた電子回路シミュレーション

黒田亮, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2005-161-1 (SHINING2005)(情報処理学会)2005年01月

共有メモリ型マルチプロセッササーバ上におけるOSCARマルチグレイン自動並列化コンパイラの性能評価

白子準, 宮本孝道, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2005-161-5 (SHINING2005)(情報処理学会)2005年01月

OSCARチップマルチプロセッサ上でのMPEG2エンコードの並列処理

小高剛, 中野啓文, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC02004-160-10(情報処理学会)2004年12月

OSCARチップマルチプロセッサ上でのマルチグレイン並列性評価

和田康孝, 白子準, 石坂一久, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2004-159-11 (SWoPP2004)(情報処理学会)2004年08月

OSCARチップマルチプロセッサ上でのデータ転送ユニットを用いたデータローカライゼーション

中野啓文, 内藤陽介, 鈴木貴久, 小高剛, 石坂一久, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2004-159-20 (SWoPP2004)(情報処理学会)2004年08月

OSCAR チップマルチプロセッサ上でのMPEG2エンコーディングの並列処理

小高剛, 中野啓文, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2003-154-10 (SWoPP2003)(情報処理学会)2003年08月

OSCAR CMP 上でのスタティックスケジューリングを用いたデータローカライゼーション手法

中野啓文, 内藤陽介, 鈴木貴久, 小高剛, 石坂一久, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2003-154-14 (SWoPP2003)(情報処理学会)2003年08月

SMPマシン上での粗粒度タスク並列処理におけるデータプリフェッチ手法

宮本孝道, 山口高弘, 飛田高雄, 石坂一久, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2003-155-06(情報処理学会)2003年11月

データローカライゼーションを伴うMPEG2エンコーディングの並列処理

小高剛, 中野啓文, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2004-156-3(情報処理学会)2004年02月

チップマルチプロセッサ上での粗粒度タスク並列処理によるデータローカライゼーション

中野啓文, 小高剛, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2003-151-3 (SHINING2003)(情報処理学会)2003年01月

OSCAR チップマルチプロセッサ上でのマルチグレイン並列処理

木村啓二, 小高剛, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2002-150-7(情報処理学会)2002年11月

OSCAR 型シングルチップマルチプロセッサにおける動きベクトル探索処理

小高剛, 鈴木貴久, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2002-150-6(情報処理学会)2002年11月

SMPマシン上での粗粒度タスク並列処理オーバーへッドの解析

和田康孝, 中野啓文, 木村啓二, 小幡元樹, 笠原博徳

情報処理学会研究報告 ARC2002-148-3(情報処理学会)2002年05月

シングルチップマルチプロセッサにおけるマルチグレイン並列処理

内田貴之, 小高剛, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2002-146-3(情報処理学会)2002年02月

OSCAR型シングルチップマルチプロセッサ上でのJPEGエンコーディングプログラムのマルチグレイン並列処理

小高剛, 内田貴之, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2002-146-4(情報処理学会)2002年02月

シングルチップマルチプロセッサ上でのマルチメディアアプリケーションの近細粒度並列処理

小高剛, 宮下直久, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2001-144-11(情報処理学会)2001年11月

キャッシュ最適化を考慮したマルチプロセッサシステム上での粗粒度タスクスタティックスケジューリング手法

中野啓文, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

情報処理学会研究報告 ARC2001-144-12(情報処理学会)2001年08月

近細粒度並列処理用シングルチップマルチプロセッサにおけるプロセッサコアの構成

木村啓二, 内田貴之, 加藤孝幸, 笠原博徳

情報処理学会研究報告 ARC139-16(SWoPP2000)(情報処理学会)2000年08月

シングルチップマルチプロセッサ上での近細粒度並列処理の性能評価

木村啓二, 間中邦之, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会研究報告 ARC134-4(情報処理学会)1999年08月

マルチグレイン並列化コンパイラのメモリアクセスアナライザ

岩井啓輔, 小幡元樹, 木村啓二, 天野英晴, 笠原博徳

電子通信情報学会技術報告 CPSY99-62(電子情報通信学会)1999年08月

マルチグレイン並列化コンパイラとそのアーキテクチャ支援

笠原博徳, 尾形航, 木村啓二, 小幡元樹, 飛田高雄, 稲石大祐

電子通信情報学会技術報告 ICD98-10 CPSY98-10 FTS98-10(電子情報通信学会)1998年04月

シングルチップマルチプロセッサ上でのマルチグレイン並列処理

木村啓二, 尾形航, 岡本雅巳, 笠原博徳

情報処理学会研究報告 ARC98-130-5(情報処理学会)1998年08月

最早実行可能条件解析を用いたキャッシュ利用の最適化

稲石大祐, 木村啓二, 藤本謙作, 尾形航, 笠原博徳

情報処理学会研究報告 ARC98-130-6(情報処理学会)1998年08月

処理とデータ転送のオーバーラッピングを考慮したダイナミックスケジューリングアルゴリズム

木村啓二, 橋本茂, 古郷誠, 尾形航, 笠原博徳

電子情報通信学会研究報告 CPSY97-40(電子情報通信学会)1997年08月

マルチグレイン並列処理用マルチプロセッサシステム

岩井啓輔, 藤原崇, 森村知弘, 天野英晴, 木村啓二, 尾形航, 笠原博徳

電子情報通信学会研究報告 CPSY97-46(電子情報通信学会)1997年08月

FPGAを用いたマルチプロセッサシステムテストベッドの実装

尾形航, 山本泰平, 水尾学, 木村啓二, 笠原博徳

情報処理学会研究報告ARC128-14 HPC70-14(情報処理学会)1998年03月

特許

整理番号:25

マルチプロセッサ(日本)

笠原 博徳, 木村 啓二

特願H11-363702、特開2001-175619、特許第4784792号

整理番号:473

マルチプロセッサシステム及びマルチグレイン並列化コンパイラ(日本, PCT, 中華人民共和国, ヨ-ロッパ, 大韓民国, ドイツ, イギリス, アメリカ)

笠原 博徳, 木村 啓二, 白子 準, 伊藤 雅樹, 鹿野 裕明

特願2005-114842、特開2006-293768、特許第4082706号

整理番号:513

ヘテロジニアス・マルチプロセッサシステムの制御方法及びマルチグレイン並列化コンパイラ(日本, アメリカ)

笠原 博徳, 木村 啓二, 白子 準, 和田 康孝, 伊藤 雅樹, 鹿野 裕明

特願2006-157301、特開2007-328415、特許第4936517号

整理番号:604

メモリ管理方法、情報処理装置、プログラムの作成方法及びプログラム(日本, PCT, 中華人民共和国, 大韓民国, イギリス, アメリカ)

笠原 博徳, 木村 啓二, 中野 啓史, 仁藤 拓実, 丸山 貴紀, 三浦 剛, 田川 友博

特願2007- 50269、特開2008-217134、特許第5224498号

整理番号:626

ヘテロジニアスマルチプロセッサ向けグローバルコンパイラ(日本, 中華人民共和国, フランス, ヨ-ロッパ, 大韓民国, イギリス, ドイツ, アメリカ)

笠原 博徳, 木村 啓二, 鹿野 裕明

特願2006-157308、特開2007-328416、特許第4784827号

整理番号:700

プロセッサ及びデータ転送ユニット(日本, アメリカ)

笠原 博徳, 木村 啓二

特願2006-274879、特開2008- 97084、特許第4476267号

整理番号:761

マルチプロセッサシステム及びマルチグレイン並列化コンパイラ(日本)

笠原 博徳, 木村 啓二, 白子 準, 伊藤 雅樹, 鹿野 裕明

特願2007-166280、特開2007-305148

整理番号:800

マルチプロセッサシステムおよびマルチプロセッサシステムの同期方法(日本, PCT, アメリカ, 中華人民共和国)

笠原 博徳, 木村 啓二

特願2008- 15028、特開2009-176116

整理番号:855

マルチプロセッサ及びマルチプロセッサシステム(日本)

笠原 博徳, 木村 啓二

特願2008-090853、特開2008-181558、特許第4784842号

整理番号:856

マルチプロセッサ(日本)

笠原 博徳, 木村 啓二

特願2008-118007、特開2008-217825、特許第4304347号

整理番号:993

マルチプロセッサ(日本)

笠原 博徳, 木村 啓二

特願2009-159744、特開2009-230764

整理番号:1022

プロセッサによって実行可能なコードの生成方法、記憶領域の管理方法及びコード生成プログラム(日本, PCT, 中華人民共和国, ヨ-ロッパ, イギリス, ドイツ, アメリカ)

笠原 博徳, 木村 啓二, 間瀬 正啓

特願2009-285586、特開2011-128803、特許第5283128号

整理番号:1428

マルチプロセッサシステムおよびマルチプロセッサシステムの同期方法(日本)

笠原 博徳, 木村 啓二

特願2013- 80143、特開2013-137833

整理番号:1443

並列化コンパイル方法、並列化コンパイラ、並列化コンパイル装置、及び、車載装置(日本, ドイツ, アメリカ)

笠原 博徳, 木村 啓二, 林 明宏, 見神 広紀, 梅田 弾, 金羽木 洋平

特願2013-125607、特開2015- 1807、特許第6018022号

整理番号:1495

並列性の抽出方法及びプログラムの作成方法(日本)

木村 啓二, 林 明宏, 笠原 博徳, 見神 広紀, 金羽木 洋平, 梅田 弾

特願2014- 6009、特開2014-160453、特許第6319880号

整理番号:1689

マルチプロセッサシステム(日本)

笠原 博徳, 木村 啓二

特願2015- 77599、特開2015-127982

整理番号:1878

マルチプロセッサシステム(日本)

笠原 博徳, 木村 啓二

特願2016-233392、特開2017- 62843、特許第6335253号

整理番号:1974

並列化コンパイラ、並列化コンパイル装置、及び並列プログラムの生成方法(日本)

笠原 博徳, 木村 啓二, 梅田 弾, 見神 広紀

特願2017-178110、特開2018-109943、特許第6600888号

整理番号:262-JP

プロセッサシステム及びアクセラレータ(日本)

木村 啓二, 笠原 博徳

特願2013-541786、特許第6103647号

外部研究資金

科学研究費採択状況

研究種別:

フラグによりCPUとアクセラレータが連携するヘテロジニアスマルチコアに関する研究

2015年-0月-2018年-0月

配分額:¥4680000

研究種別:

プログラムの大域的構造を利用したメニーコア・シミュレーションの高速化に関する研究

2011年-0月-2014年-0月

配分額:¥4290000

研究種別:

ソフトウェア協調整チップマルチプロセッサにおけるデータ利用最適化に関する研究

配分額:¥3600000

研究種別:

深層学習フレームワークでの利用を目指した完全準同型暗号による行列計算に関する研究

2018年-0月-2020年-0月

配分額:¥6370000

研究種別:

大規模非線形時空間パターン制御の実時間最適化アルゴリズムと応用

2012年-0月-2016年-0月

配分額:¥13910000

学内研究制度

特定課題研究

コンパイラ解析情報と実機実行情報を利用したマルチコアシミュレーション高速化の研究

2009年度

研究成果概要:計算機アーキテクチャの研究では、様々な構成のシステム評価を行うため、ソフトウェアによるアーキテクチャシミュレーションが大きな役割を果たしている。しかしながら、ソフトウェアシミュレータはプログラムの実行に実機の数千倍の時間がかかる。...計算機アーキテクチャの研究では、様々な構成のシステム評価を行うため、ソフトウェアによるアーキテクチャシミュレーションが大きな役割を果たしている。しかしながら、ソフトウェアシミュレータはプログラムの実行に実機の数千倍の時間がかかる。このような膨大な評価時間は今後のメニーコアの研究・開発の大きな妨げになる。本研究では、このような問題を克服するための、マルチコア・メニーコアのソフトウェアシミュレーション高速化手法の研究を行う。特に並列アーキテクチャ研究のためのシミュレーション高速化の研究に関しては、これまでミュレーションによる実験対象となる仮想のマルチコアやマルチプロセッサのコアを、シミュレータを実行する実際のマルチプロセッサのコアに割り当てるという方法が提案されてきたが、実機上の並列処理オーバーヘッドが大きく、実用的なシステムはこれまで実現されていない。本研究の特徴は、マルチコア・メニーコアのソフトウェアシミュレーションの高速化に、ループ構造や並列化情報などの並列化コンパイラによる解析情報と、評価対象アプリケーションの実機での実行情報を利用することである。これらの情報を利用し、詳細にシミュレーションする必要がある箇所とそうでない箇所を特定する。従来のソフトウェアシミュレーション高速化手法では利用されてこなかったこれらの付加的な情報を利用することで、精度の高い性能値を最小の実行コストで得ることができる。本年度は、本高速化手法の基本的な適用可能性を検討するための予備実験を行った。具体的には、二種類のマルチコアアーキテクチャのコア数を32コアまで変化させ、ベンチマークプログラムのメインループの回転数を変化させ本研究による性能値推定手法により本来のループ回転数における性能値を再現できるか調査した。ベンチマークプログラムとしてSPEC95ベンチマークのtomcatvとswim、および音声圧縮で標準的に使われているAACエンコーディングプログラムを用いた。評価の結果、いずれのアーキテクチャ、コア数、ベンチマークプログラムの組み合わせにおいても、わずか数回転分の性能値から本来の数百回転分の性能値を高々2%程度の誤差で予測することができた。今後は適用アプリケーションの拡大ならびにシステムの自動化を行う予定である。

フラグによりCPUとアクセラレータが連係するヘテロジニアスマルチコアに関する研究

2014年度

研究成果概要:本研究は、アクセラレータを持つヘテロジニアスマルチコアに対して、アクセラレータの制御やデータ転送に要するオーバーヘッドを削減する技術の開発する。具体的にはCPU、データ転送ユニット(DTU)、及びアクセラレータを同時実行させること...本研究は、アクセラレータを持つヘテロジニアスマルチコアに対して、アクセラレータの制御やデータ転送に要するオーバーヘッドを削減する技術の開発する。具体的にはCPU、データ転送ユニット(DTU)、及びアクセラレータを同時実行させることで上記オーバーヘッドを隠蔽可能とするタスク分割及びスケジューリング手法を開発し、自動並列化コンパイラに実装する。本年度の成果としては、まず本研究が前提とするアクセラレータの基本仕様を決定した。その上で、本アクセラレータ用のコンパイラモジュールを開発し、さらにアクセラレータのアーキテクチャシミュレータを開発することにより、本研究を行う上での基本的な評価環境を整備した。

ソフトウェア協調型チップマルチプロセッサにおけるメモリ最適化に関する研究

2004年度

研究成果概要:本研究ではまず、データローカリティ最適化およびデータ転送最適化の基盤技術となるマルチグレイン並列化コンパイラとチップマルチプロセッサアーキテクチャプラットフォームの選定および評価基盤の整備を行った。コンパイラとしては、経済産業省ミ...本研究ではまず、データローカリティ最適化およびデータ転送最適化の基盤技術となるマルチグレイン並列化コンパイラとチップマルチプロセッサアーキテクチャプラットフォームの選定および評価基盤の整備を行った。コンパイラとしては、経済産業省ミレニアムプロジェクトIT21 アドバンスト並列化コンパイラで開発されたOSCARマルチグレイン並列化コンパイラをコアとした。また、チップマルチプロセッサアーキテクチャとしては、簡素なプロセッサコア、ローカルデータメモリ、2ポート構成の分散共有メモリ、およびデータ転送ユニットを持つプロセッシングエレメント(PE)をPE間ネットワークで接続したOSCAR型チップマルチプロセッサとした。本研究では、OSCARマルチグレイン並列化コンパイラに対してOSCAR型チップマルチプロセッサ用のバックエンド(コード生成器)を追加開発した。データローカリティ最適化およびデータ転送最適化技術開発の第一歩として、ターゲットアプリケーションには、SPECfp95ベンチマークより科学技術計算の典型例であるTomcatvとSwimプログラムを選んだ。本研究では、これらに対してタスク(並列処理の単位)とデータをデータローカリティと並列性の両方を考慮しながらPEへスケジューリングし、さらに共有メモリとプロセッサのローカルメモリ(データローカルメモリおよび分散共有メモリ)とのやり取りをプロセッサと非同期で動作するデータ転送ユニットにより処理させることにより、データローカリティ利用とデータ転送処理の効率化を行った。8PEで評価を行った結果、データローカリティ最適化を適用していない場合に対してTomcatvで1.56倍、Swimで1.38倍の速度向上を得ることができた。

海外研究活動

研究課題名: 新しいメモリ階層を考慮したソフトウェア・ハードウェアの構成法に関する研究

2017年08月-2018年02月

機関: North Carolina State University(アメリカ)

現在担当している科目

科目名開講学部・研究科開講年度学期
コンピュータアーキテクチャA基幹理工学部2020秋学期
コンピュータアーキテクチャA基幹理工学部2020秋学期
コンピュータアーキテクチャA 【前年度成績S評価者用】基幹理工学部2020秋学期
コンピュータアーキテクチャA 【前年度成績S評価者用】基幹理工学部2020秋学期
情報理工学実験A基幹理工学部2020秋学期
情報理工学実験A 【前年度成績S評価者用】基幹理工学部2020秋学期
情報理工学実験B基幹理工学部2020春学期
情報理工学実験B 【前年度成績S評価者用】基幹理工学部2020春学期
コンピュータアーキテクチャB基幹理工学部2020秋学期
コンピュータアーキテクチャ 13前再基幹理工学部2020秋学期
コンピュータアーキテクチャB基幹理工学部2020秋学期
コンピュータアーキテクチャ 13前再  【前年度成績S評価者用】基幹理工学部2020秋学期
コンピュータアーキテクチャB 【前年度成績S評価者用】基幹理工学部2020秋学期
卒業論文A基幹理工学部2020通年
卒業論文A  【前年度成績S評価者用】基幹理工学部2020通年
卒業論文B基幹理工学部2020通年
卒業論文B  【前年度成績S評価者用】基幹理工学部2020通年
言語処理系基幹理工学部2020春学期
言語処理系基幹理工学部2020春学期
言語処理系  【前年度成績S評価者用】基幹理工学部2020春学期
プロジェクト研究A基幹理工学部2020春学期
情報理工学実験C基幹理工学部2020秋学期
情報理工学実験C 【前年度成績S評価者用】基幹理工学部2020秋学期
プロジェクト研究B基幹理工学部2020秋学期
Advanced Processor Architecture Technology基幹理工学部2020春学期
Advanced Processor Architecture Technology基幹理工学部2020春学期
Advanced Processor Architecture Technology基幹理工学部2020春学期
先端プロセッサ技術基幹理工学部2020春学期
先端プロセッサ技術基幹理工学部2020春学期
IoTシステム設計基幹理工学部2020春学期
IoTシステム設計基幹理工学部2020春学期
IoTシステム設計基幹理工学部2020春学期
情報通信実験A基幹理工学部2020秋学期
情報通信実験A 【前年度成績S評価者用】基幹理工学部2020秋学期
情報通信実験B基幹理工学部2020春学期
情報通信実験B 【前年度成績S評価者用】基幹理工学部2020春学期
卒業論文A基幹理工学部2020通年
卒業論文A  【前年度成績S評価者用】基幹理工学部2020通年
卒業論文B基幹理工学部2020通年
卒業論文B  【前年度成績S評価者用】基幹理工学部2020通年
プロジェクト研究A基幹理工学部2020春学期
プロジェクト研究B基幹理工学部2020秋学期
Research Project B基幹理工学部2020春学期
Research Project B基幹理工学部2020春学期
Research Project B 【前年度成績S評価者用】基幹理工学部2020春学期
Research Project B 【S Grade】基幹理工学部2020春学期
Research Project C基幹理工学部2020秋学期
Research Project C基幹理工学部2020秋学期
Research Project C 【前年度成績S評価者用】基幹理工学部2020秋学期
Research Project C 【S Grade】基幹理工学部2020秋学期
Research Project A基幹理工学部2020秋学期
Research Project A基幹理工学部2020秋学期
Research Project D基幹理工学部2020春学期
Research Project D基幹理工学部2020春学期
Communications and Computer Engineering Laboratory基幹理工学部2020秋学期
Computer Science and Communications Engineering Laboratory A基幹理工学部2020秋学期
Computer Science and Engineering Laboratory基幹理工学部2020秋学期
Computer Science and Engineering Laboratory基幹理工学部2020秋学期
Computer Science and Communications Engineering Laboratory A [S Grade]基幹理工学部2020秋学期
Introduction to Computers and Networks基幹理工学部2020春学期
Project Research基幹理工学部2020春学期
Computer Science and Communications Engineering Laboratory B基幹理工学部2020春学期
Computer Language Processors基幹理工学部2020春学期
IoTシステム設計大学院基幹理工学研究科2020春学期
IoTシステム設計大学院創造理工学研究科2020春学期
IoTシステム設計大学院先進理工学研究科2020春学期
修士論文(情報・通信)大学院基幹理工学研究科2020通年
Research on Advanced Processor Architecture大学院基幹理工学研究科2020通年
先端プロセッサ構成研究大学院基幹理工学研究科2020通年
Advanced Processor Architecture大学院基幹理工学研究科2020春学期
先端プロセッサ技術大学院基幹理工学研究科2020春学期
Special Laboratory A in Computer Science and Communications Engineering大学院基幹理工学研究科2020春学期
情報理工・情報通信特別実験A大学院基幹理工学研究科2020春学期
Special Laboratory B in Computer Science and Communications Engineering大学院基幹理工学研究科2020秋学期
情報理工・情報通信特別実験B大学院基幹理工学研究科2020秋学期
Seminar on Advanced Processor Architecture A大学院基幹理工学研究科2020春学期
先端プロセッサ構成演習A大学院基幹理工学研究科2020春学期
Seminar on Advanced Processor Architecture B大学院基幹理工学研究科2020秋学期
先端プロセッサ構成演習B大学院基幹理工学研究科2020秋学期
Seminar on Advanced Processor Architecture C大学院基幹理工学研究科2020春学期
先端プロセッサ構成演習C大学院基幹理工学研究科2020春学期
Seminar on Advanced Processor Architecture D大学院基幹理工学研究科2020秋学期
先端プロセッサ構成演習D大学院基幹理工学研究科2020秋学期
Master's Thesis (Department of Computer Science and Communications Engineering)大学院基幹理工学研究科2020通年
先端プロセッサ構成研究大学院基幹理工学研究科2020通年
先端プロセッサ構成研究大学院基幹理工学研究科2020通年
情報理工・情報通信特別演習A大学院基幹理工学研究科2020春学期
情報理工・情報通信特別演習B大学院基幹理工学研究科2020秋学期