RAFT/train.py

from __future__ import print_function, division
import sys
sys.path.append('core')

import argparse
import os
import cv2
import time
import numpy as np
import matplotlib.pyplot as plt

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

from torch.utils.data import DataLoader
from raft import RAFT
import evaluate
import datasets

from torch.utils.tensorboard import SummaryWriter

try:
    from torch.cuda.amp import GradScaler
except:
    # dummy GradScaler for PyTorch < 1.6
    class GradScaler:
        def __init__(self):
            pass
        def scale(self, loss):
            return loss
        def unscale_(self, optimizer):
            pass
        def step(self, optimizer):
            optimizer.step()
        def update(self):
            pass


# exclude extremly large displacements
MAX_FLOW = 400
SUM_FREQ = 100
VAL_FREQ = 5000


def sequence_loss(flow_preds, flow_gt, valid, gamma=0.8, max_flow=MAX_FLOW):
    """ Loss function defined over sequence of flow predictions """

    n_predictions = len(flow_preds)    
    flow_loss = 0.0

    # exlude invalid pixels and extremely large diplacements
    mag = torch.sum(flow_gt**2, dim=1).sqrt()
    valid = (valid >= 0.5) & (mag < max_flow)

    for i in range(n_predictions):
        i_weight = gamma**(n_predictions - i - 1)
        i_loss = (flow_preds[i] - flow_gt).abs()
        flow_loss += i_weight * (valid[:, None] * i_loss).mean()

    epe = torch.sum((flow_preds[-1] - flow_gt)**2, dim=1).sqrt()
    epe = epe.view(-1)[valid.view(-1)]

    metrics = {
        'epe': epe.mean().item(),
        '1px': (epe < 1).float().mean().item(),
        '3px': (epe < 3).float().mean().item(),
        '5px': (epe < 5).float().mean().item(),
    }

    return flow_loss, metrics


def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)


def fetch_optimizer(args, model):
    """ Create the optimizer and learning rate scheduler """
    optimizer = optim.AdamW(model.parameters(), lr=args.lr, weight_decay=args.wdecay, eps=args.epsilon)

    scheduler = optim.lr_scheduler.OneCycleLR(optimizer, args.lr, args.num_steps+100,
        pct_start=0.05, cycle_momentum=False, anneal_strategy='linear')

    return optimizer, scheduler
    

class Logger:
    def __init__(self, model, scheduler):
        self.model = model
        self.scheduler = scheduler
        self.total_steps = 0
        self.running_loss = {}
        self.writer = None

    def _print_training_status(self):
        metrics_data = [self.running_loss[k]/SUM_FREQ for k in sorted(self.running_loss.keys())]
        training_str = "[{:6d}, {:10.7f}] ".format(self.total_steps+1, self.scheduler.get_last_lr()[0])
        metrics_str = ("{:10.4f}, "*len(metrics_data)).format(*metrics_data)
        
        # print the training status
        print(training_str + metrics_str)

        if self.writer is None:
            self.writer = SummaryWriter()

        for k in self.running_loss:
            self.writer.add_scalar(k, self.running_loss[k]/SUM_FREQ, self.total_steps)
            self.running_loss[k] = 0.0

    def push(self, metrics):
        self.total_steps += 1

        for key in metrics:
            if key not in self.running_loss:
                self.running_loss[key] = 0.0

            self.running_loss[key] += metrics[key]

        if self.total_steps % SUM_FREQ == SUM_FREQ-1:
            self._print_training_status()
            self.running_loss = {}

    def write_dict(self, results):
        if self.writer is None:
            self.writer = SummaryWriter()

        for key in results:
            self.writer.add_scalar(key, results[key], self.total_steps)

    def close(self):
        self.writer.close()


def train(args):

    model = nn.DataParallel(RAFT(args), device_ids=args.gpus)
    print("Parameter Count: %d" % count_parameters(model))

    if args.restore_ckpt is not None:
        model.load_state_dict(torch.load(args.restore_ckpt), strict=False)

    model.cuda()
    model.train()

    if args.stage != 'chairs':
        model.module.freeze_bn()

    train_loader = datasets.fetch_dataloader(args)
    optimizer, scheduler = fetch_optimizer(args, model)

    total_steps = 0
    scaler = GradScaler(enabled=args.mixed_precision)
    logger = Logger(model, scheduler)

    VAL_FREQ = 5000
    add_noise = True

    should_keep_training = True
    while should_keep_training:

        for i_batch, data_blob in enumerate(train_loader):
            optimizer.zero_grad()
            image1, image2, flow, valid = [x.cuda() for x in data_blob]

            if args.add_noise:
                stdv = np.random.uniform(0.0, 5.0)
                image1 = (image1 + stdv * torch.randn(*image1.shape).cuda()).clamp(0.0, 255.0)
                image2 = (image2 + stdv * torch.randn(*image2.shape).cuda()).clamp(0.0, 255.0)

            flow_predictions = model(image1, image2, iters=args.iters)            

            loss, metrics = sequence_loss(flow_predictions, flow, valid, args.gamma)
            scaler.scale(loss).backward()
            scaler.unscale_(optimizer)                
            torch.nn.utils.clip_grad_norm_(model.parameters(), args.clip)
            
            scaler.step(optimizer)
            scheduler.step()
            scaler.update()

            logger.push(metrics)

            if total_steps % VAL_FREQ == VAL_FREQ - 1:
                PATH = 'checkpoints/%d_%s.pth' % (total_steps+1, args.name)
                torch.save(model.state_dict(), PATH)

                results = {}
                for val_dataset in args.validation:
                    if val_dataset == 'chairs':
                        results.update(evaluate.validate_chairs(model.module))
                    elif val_dataset == 'sintel':
                        results.update(evaluate.validate_sintel(model.module))
                    elif val_dataset == 'kitti':
                        results.update(evaluate.validate_kitti(model.module))

                logger.write_dict(results)
                
                model.train()
                if args.stage != 'chairs':
                    model.module.freeze_bn()
            
            total_steps += 1

            if total_steps > args.num_steps:
                should_keep_training = False
                break

    logger.close()
    PATH = 'checkpoints/%s.pth' % args.name
    torch.save(model.state_dict(), PATH)

    return PATH


if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--name', default='raft', help="name your experiment")
    parser.add_argument('--stage', help="determines which dataset to use for training") 
    parser.add_argument('--restore_ckpt', help="restore checkpoint")
    parser.add_argument('--small', action='store_true', help='use small model')
    parser.add_argument('--validation', type=str, nargs='+')

    parser.add_argument('--lr', type=float, default=0.00002)
    parser.add_argument('--num_steps', type=int, default=100000)
    parser.add_argument('--batch_size', type=int, default=6)
    parser.add_argument('--image_size', type=int, nargs='+', default=[384, 512])
    parser.add_argument('--gpus', type=int, nargs='+', default=[0,1])
    parser.add_argument('--mixed_precision', action='store_true', help='use mixed precision')

    parser.add_argument('--iters', type=int, default=12)
    parser.add_argument('--wdecay', type=float, default=.00005)
    parser.add_argument('--epsilon', type=float, default=1e-8)
    parser.add_argument('--clip', type=float, default=1.0)
    parser.add_argument('--dropout', type=float, default=0.0)
    parser.add_argument('--gamma', type=float, default=0.8, help='exponential weighting')
    parser.add_argument('--add_noise', action='store_true')
    args = parser.parse_args()

    torch.manual_seed(1234)
    np.random.seed(1234)

    if not os.path.isdir('checkpoints'):
        os.mkdir('checkpoints')

    train(args)
initial commit 2020-03-27 04:19:08 +01:00			`from __future__ import print_function, division`
			`import sys`
			`sys.path.append('core')`

			`import argparse`
			`import os`
			`import cv2`
			`import time`
			`import numpy as np`
			`import matplotlib.pyplot as plt`

			`import torch`
			`import torch.nn as nn`
			`import torch.optim as optim`
			`import torch.nn.functional as F`

			`from torch.utils.data import DataLoader`
			`from raft import RAFT`
added upsampling module 2020-07-26 01:36:17 +02:00			`import evaluate`
initial commit 2020-03-27 04:19:08 +01:00			`import datasets`

added upsampling module 2020-07-26 01:36:17 +02:00			`from torch.utils.tensorboard import SummaryWriter`

			`try:`
			`from torch.cuda.amp import GradScaler`
			`except:`
			`# dummy GradScaler for PyTorch < 1.6`
			`class GradScaler:`
			`def __init__(self):`
			`pass`
			`def scale(self, loss):`
			`return loss`
			`def unscale_(self, optimizer):`
			`pass`
			`def step(self, optimizer):`
			`optimizer.step()`
			`def update(self):`
			`pass`


initial commit 2020-03-27 04:19:08 +01:00			`# exclude extremly large displacements`
added training code 2020-07-31 05:25:36 +02:00			`MAX_FLOW = 400`
added upsampling module 2020-07-26 01:36:17 +02:00			`SUM_FREQ = 100`
initial commit 2020-03-27 04:19:08 +01:00			`VAL_FREQ = 5000`


added small 1M paramter model 2020-08-24 06:40:47 +02:00			`def sequence_loss(flow_preds, flow_gt, valid, gamma=0.8, max_flow=MAX_FLOW):`
initial commit 2020-03-27 04:19:08 +01:00			`""" Loss function defined over sequence of flow predictions """`

			`n_predictions = len(flow_preds)`
			`flow_loss = 0.0`

			`# exlude invalid pixels and extremely large diplacements`
added upsampling module 2020-07-26 01:36:17 +02:00			`mag = torch.sum(flow_gt**2, dim=1).sqrt()`
			`valid = (valid >= 0.5) & (mag < max_flow)`
initial commit 2020-03-27 04:19:08 +01:00
			`for i in range(n_predictions):`
added small 1M paramter model 2020-08-24 06:40:47 +02:00			`i_weight = gamma**(n_predictions - i - 1)`
initial commit 2020-03-27 04:19:08 +01:00			`i_loss = (flow_preds[i] - flow_gt).abs()`
			`flow_loss += i_weight * (valid[:, None] * i_loss).mean()`

			`epe = torch.sum((flow_preds[-1] - flow_gt)**2, dim=1).sqrt()`
			`epe = epe.view(-1)[valid.view(-1)]`

			`metrics = {`
			`'epe': epe.mean().item(),`
			`'1px': (epe < 1).float().mean().item(),`
			`'3px': (epe < 3).float().mean().item(),`
			`'5px': (epe < 5).float().mean().item(),`
			`}`

			`return flow_loss, metrics`


added upsampling module 2020-07-26 01:36:17 +02:00			`def count_parameters(model):`
			`return sum(p.numel() for p in model.parameters() if p.requires_grad)`
initial commit 2020-03-27 04:19:08 +01:00
added small 1M paramter model 2020-08-24 06:40:47 +02:00
initial commit 2020-03-27 04:19:08 +01:00			`def fetch_optimizer(args, model):`
			`""" Create the optimizer and learning rate scheduler """`
			`optimizer = optim.AdamW(model.parameters(), lr=args.lr, weight_decay=args.wdecay, eps=args.epsilon)`

added upsampling module 2020-07-26 01:36:17 +02:00			`scheduler = optim.lr_scheduler.OneCycleLR(optimizer, args.lr, args.num_steps+100,`
			`pct_start=0.05, cycle_momentum=False, anneal_strategy='linear')`
initial commit 2020-03-27 04:19:08 +01:00
			`return optimizer, scheduler`


			`class Logger:`
			`def __init__(self, model, scheduler):`
			`self.model = model`
			`self.scheduler = scheduler`
			`self.total_steps = 0`
			`self.running_loss = {}`
added upsampling module 2020-07-26 01:36:17 +02:00			`self.writer = None`
initial commit 2020-03-27 04:19:08 +01:00
			`def _print_training_status(self):`
			`metrics_data = [self.running_loss[k]/SUM_FREQ for k in sorted(self.running_loss.keys())]`
added upsampling module 2020-07-26 01:36:17 +02:00			`training_str = "[{:6d}, {:10.7f}] ".format(self.total_steps+1, self.scheduler.get_last_lr()[0])`
initial commit 2020-03-27 04:19:08 +01:00			`metrics_str = ("{:10.4f}, "len(metrics_data)).format(metrics_data)`

			`# print the training status`
			`print(training_str + metrics_str)`

added upsampling module 2020-07-26 01:36:17 +02:00			`if self.writer is None:`
			`self.writer = SummaryWriter()`

			`for k in self.running_loss:`
			`self.writer.add_scalar(k, self.running_loss[k]/SUM_FREQ, self.total_steps)`
			`self.running_loss[k] = 0.0`
initial commit 2020-03-27 04:19:08 +01:00
			`def push(self, metrics):`
			`self.total_steps += 1`

			`for key in metrics:`
			`if key not in self.running_loss:`
			`self.running_loss[key] = 0.0`

			`self.running_loss[key] += metrics[key]`

			`if self.total_steps % SUM_FREQ == SUM_FREQ-1:`
			`self._print_training_status()`
			`self.running_loss = {}`

added upsampling module 2020-07-26 01:36:17 +02:00			`def write_dict(self, results):`
			`if self.writer is None:`
			`self.writer = SummaryWriter()`

			`for key in results:`
			`self.writer.add_scalar(key, results[key], self.total_steps)`

			`def close(self):`
			`self.writer.close()`

initial commit 2020-03-27 04:19:08 +01:00
			`def train(args):`

added upsampling module 2020-07-26 01:36:17 +02:00			`model = nn.DataParallel(RAFT(args), device_ids=args.gpus)`
initial commit 2020-03-27 04:19:08 +01:00			`print("Parameter Count: %d" % count_parameters(model))`

			`if args.restore_ckpt is not None:`
added upsampling module 2020-07-26 01:36:17 +02:00			`model.load_state_dict(torch.load(args.restore_ckpt), strict=False)`
initial commit 2020-03-27 04:19:08 +01:00
			`model.cuda()`
			`model.train()`
added upsampling module 2020-07-26 01:36:17 +02:00
			`if args.stage != 'chairs':`
initial commit 2020-03-27 04:19:08 +01:00			`model.module.freeze_bn()`

added upsampling module 2020-07-26 01:36:17 +02:00			`train_loader = datasets.fetch_dataloader(args)`
initial commit 2020-03-27 04:19:08 +01:00			`optimizer, scheduler = fetch_optimizer(args, model)`

			`total_steps = 0`
added upsampling module 2020-07-26 01:36:17 +02:00			`scaler = GradScaler(enabled=args.mixed_precision)`
initial commit 2020-03-27 04:19:08 +01:00			`logger = Logger(model, scheduler)`

added upsampling module 2020-07-26 01:36:17 +02:00			`VAL_FREQ = 5000`
			`add_noise = True`

initial commit 2020-03-27 04:19:08 +01:00			`should_keep_training = True`
			`while should_keep_training:`

			`for i_batch, data_blob in enumerate(train_loader):`
added upsampling module 2020-07-26 01:36:17 +02:00			`optimizer.zero_grad()`
initial commit 2020-03-27 04:19:08 +01:00			`image1, image2, flow, valid = [x.cuda() for x in data_blob]`

added upsampling module 2020-07-26 01:36:17 +02:00			`if args.add_noise:`
			`stdv = np.random.uniform(0.0, 5.0)`
			`image1 = (image1 + stdv * torch.randn(*image1.shape).cuda()).clamp(0.0, 255.0)`
			`image2 = (image2 + stdv * torch.randn(*image2.shape).cuda()).clamp(0.0, 255.0)`

			`flow_predictions = model(image1, image2, iters=args.iters)`

added small 1M paramter model 2020-08-24 06:40:47 +02:00			`loss, metrics = sequence_loss(flow_predictions, flow, valid, args.gamma)`
added upsampling module 2020-07-26 01:36:17 +02:00			`scaler.scale(loss).backward()`
added training code 2020-07-31 05:25:36 +02:00			`scaler.unscale_(optimizer)`
initial commit 2020-03-27 04:19:08 +01:00			`torch.nn.utils.clip_grad_norm_(model.parameters(), args.clip)`
added upsampling module 2020-07-26 01:36:17 +02:00
			`scaler.step(optimizer)`
initial commit 2020-03-27 04:19:08 +01:00			`scheduler.step()`
added upsampling module 2020-07-26 01:36:17 +02:00			`scaler.update()`
added training code 2020-07-31 05:25:36 +02:00
initial commit 2020-03-27 04:19:08 +01:00			`logger.push(metrics)`

added upsampling module 2020-07-26 01:36:17 +02:00			`if total_steps % VAL_FREQ == VAL_FREQ - 1:`
initial commit 2020-03-27 04:19:08 +01:00			`PATH = 'checkpoints/%d_%s.pth' % (total_steps+1, args.name)`
			`torch.save(model.state_dict(), PATH)`

added upsampling module 2020-07-26 01:36:17 +02:00			`results = {}`
			`for val_dataset in args.validation:`
			`if val_dataset == 'chairs':`
			`results.update(evaluate.validate_chairs(model.module))`
			`elif val_dataset == 'sintel':`
			`results.update(evaluate.validate_sintel(model.module))`
			`elif val_dataset == 'kitti':`
			`results.update(evaluate.validate_kitti(model.module))`

			`logger.write_dict(results)`

			`model.train()`
			`if args.stage != 'chairs':`
			`model.module.freeze_bn()`

			`total_steps += 1`

			`if total_steps > args.num_steps:`
initial commit 2020-03-27 04:19:08 +01:00			`should_keep_training = False`
			`break`

added upsampling module 2020-07-26 01:36:17 +02:00			`logger.close()`
initial commit 2020-03-27 04:19:08 +01:00			`PATH = 'checkpoints/%s.pth' % args.name`
			`torch.save(model.state_dict(), PATH)`

			`return PATH`


			`if __name__ == '__main__':`
			`parser = argparse.ArgumentParser()`
added upsampling module 2020-07-26 01:36:17 +02:00			`parser.add_argument('--name', default='raft', help="name your experiment")`
			`parser.add_argument('--stage', help="determines which dataset to use for training")`
initial commit 2020-03-27 04:19:08 +01:00			`parser.add_argument('--restore_ckpt', help="restore checkpoint")`
			`parser.add_argument('--small', action='store_true', help='use small model')`
added upsampling module 2020-07-26 01:36:17 +02:00			`parser.add_argument('--validation', type=str, nargs='+')`
initial commit 2020-03-27 04:19:08 +01:00
			`parser.add_argument('--lr', type=float, default=0.00002)`
			`parser.add_argument('--num_steps', type=int, default=100000)`
			`parser.add_argument('--batch_size', type=int, default=6)`
			`parser.add_argument('--image_size', type=int, nargs='+', default=[384, 512])`
added upsampling module 2020-07-26 01:36:17 +02:00			`parser.add_argument('--gpus', type=int, nargs='+', default=[0,1])`
			`parser.add_argument('--mixed_precision', action='store_true', help='use mixed precision')`
initial commit 2020-03-27 04:19:08 +01:00
			`parser.add_argument('--iters', type=int, default=12)`
			`parser.add_argument('--wdecay', type=float, default=.00005)`
			`parser.add_argument('--epsilon', type=float, default=1e-8)`
			`parser.add_argument('--clip', type=float, default=1.0)`
			`parser.add_argument('--dropout', type=float, default=0.0)`
added small 1M paramter model 2020-08-24 06:40:47 +02:00			`parser.add_argument('--gamma', type=float, default=0.8, help='exponential weighting')`
added upsampling module 2020-07-26 01:36:17 +02:00			`parser.add_argument('--add_noise', action='store_true')`
initial commit 2020-03-27 04:19:08 +01:00			`args = parser.parse_args()`

			`torch.manual_seed(1234)`
			`np.random.seed(1234)`

			`if not os.path.isdir('checkpoints'):`
			`os.mkdir('checkpoints')`

added upsampling module 2020-07-26 01:36:17 +02:00			`train(args)`