DDSP-Based Neural Vehicle Sound Synthesis from Driving Signals

Minsuk Choi¹, Dabin Kim¹, Daehun Song², Juhan Nam¹

¹ Graduate School of Culture Technology, KAIST, South Korea

² Hyundai Motor Group, South Korea

Supporting Webpage for the 6th AES International Conference on Automotive Audio, 2026.

Abstract

This paper presents a DDSP-based neural vehicle sound synthesis framework conditioned on driving signals collected from the CAN bus of an internal combustion engine (ICE) vehicle, and demonstrates the feasibility of realistic and coherent vehicle sound synthesis within this framework. We investigate three design choices for synthesis configuration: the definition of the fundamental frequency (F0), the configuration of driving signal inputs, and the conditioning representation. Specifically, we compare crank-based and firing-based F0 definitions, multiple driving signal combinations constructed from engine RPM, gear level, accelerator pedal position, vehicle speed, and longitudinal acceleration, and two conditioning representations: direct and encoded conditioning. The framework is evaluated using objective and subjective measures together with qualitative spectrogram observation. The results show that the crank-based F0 provides more accurate synthesis than the firing-based F0 in the present four-cylinder four-stroke vehicle setting. Richer driving signal configurations generally improve synthesis quality, while the contribution of individual signals depends on their redundancy and complementarity. Encoded conditioning yields better objective performance, especially when the available driving signals are limited, whereas direct conditioning achieves the best perceptual results under full driving signal configuration and offers practical advantages in simplicity and efficiency. These findings provide practical guidelines for DDSP-based neural vehicle sound synthesis and highlight the potential of driving-signal-conditioned neural audio synthesis for automotive audio applications such as vehicle sound design and driving simulation.

Demo A: F₀ Definition

Compares synthesized vehicle sounds using crank-based and firing-based F₀ definitions under direct and encoded conditioning.

Demo B: Driving Signal Configuration

Compares synthesized vehicle sounds across driving signal configurations: (RPM), (RPM, Gear Level, Pedal Position) and (RPM, Gear Level, Pedal Position, Speed, Acceleration), under direct and encoded conditioning.

Demo A: F₀ Definition

Compares synthesized vehicle sounds using crank-based and firing-based F₀ definitions under direct and encoded conditioning.

Candidate	Description
Ground Truth	The reference audio.
Direct Firing-based	Synthesized audio using direct conditioning with the firing-based F₀ definition.
Direct Crank-based	Synthesized audio using direct conditioning with the crank-based F₀ definition.
Encoded Firing-based	Synthesized audio using encoded conditioning with the firing-based F₀ definition.
Encoded Crank-based	Synthesized audio using encoded conditioning with the crank-based F₀ definition.

Sample 01

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 02

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 03

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 04

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 05

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 06

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 07

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 08

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 09

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based

Sample 10

Reference

Ground Truth

Direct

Direct
Firing-based

Direct
Crank-based

Encoded

Encoded
Firing-based

Encoded
Crank-based