diff libavcodec/arm/fft_neon.S @ 2:897f711a7157

rearrange to work with autoconf
author Nina Engelhardt <nengel@mailbox.tu-berlin.de>
date Tue, 25 Sep 2012 15:55:33 +0200
parents
children
line diff
     1.1 --- /dev/null	Thu Jan 01 00:00:00 1970 +0000
     1.2 +++ b/libavcodec/arm/fft_neon.S	Tue Sep 25 15:55:33 2012 +0200
     1.3 @@ -0,0 +1,371 @@
     1.4 +/*
     1.5 + * ARM NEON optimised FFT
     1.6 + *
     1.7 + * Copyright (c) 2009 Mans Rullgard <mans@mansr.com>
     1.8 + * Copyright (c) 2009 Naotoshi Nojiri
     1.9 + *
    1.10 + * This file is part of FFmpeg.
    1.11 + *
    1.12 + * FFmpeg is free software; you can redistribute it and/or
    1.13 + * modify it under the terms of the GNU Lesser General Public
    1.14 + * License as published by the Free Software Foundation; either
    1.15 + * version 2.1 of the License, or (at your option) any later version.
    1.16 + *
    1.17 + * FFmpeg is distributed in the hope that it will be useful,
    1.18 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
    1.19 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
    1.20 + * Lesser General Public License for more details.
    1.21 + *
    1.22 + * You should have received a copy of the GNU Lesser General Public
    1.23 + * License along with FFmpeg; if not, write to the Free Software
    1.24 + * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
    1.25 + */
    1.26 +
    1.27 +#include "asm.S"
    1.28 +
    1.29 +#define M_SQRT1_2 0.70710678118654752440
    1.30 +
    1.31 +        .text
    1.32 +
    1.33 +function fft4_neon
    1.34 +        vld1.32         {d0-d3}, [r0,:128]
    1.35 +
    1.36 +        vext.32         q8,  q1,  q1,  #1       @ i2,r3 d3=i3,r2
    1.37 +        vsub.f32        d6,  d0,  d1            @ r0-r1,i0-i1
    1.38 +        vsub.f32        d7,  d16, d17           @ r3-r2,i2-i3
    1.39 +        vadd.f32        d4,  d0,  d1            @ r0+r1,i0+i1
    1.40 +        vadd.f32        d5,  d2,  d3            @ i2+i3,r2+r3
    1.41 +        vadd.f32        d1,  d6,  d7
    1.42 +        vsub.f32        d3,  d6,  d7
    1.43 +        vadd.f32        d0,  d4,  d5
    1.44 +        vsub.f32        d2,  d4,  d5
    1.45 +
    1.46 +        vst1.32         {d0-d3}, [r0,:128]
    1.47 +
    1.48 +        bx              lr
    1.49 +endfunc
    1.50 +
    1.51 +function fft8_neon
    1.52 +        mov             r1,  r0
    1.53 +        vld1.32         {d0-d3},   [r1,:128]!
    1.54 +        vld1.32         {d16-d19}, [r1,:128]
    1.55 +
    1.56 +        movw            r2,  #0x04f3            @ sqrt(1/2)
    1.57 +        movt            r2,  #0x3f35
    1.58 +        eor             r3,  r2,  #1<<31
    1.59 +        vdup.32         d31, r2
    1.60 +
    1.61 +        vext.32         q11, q1,  q1,  #1       @ i2,r3,i3,r2
    1.62 +        vadd.f32        d4,  d16, d17           @ r4+r5,i4+i5
    1.63 +        vmov            d28, r3,  r2
    1.64 +        vadd.f32        d5,  d18, d19           @ r6+r7,i6+i7
    1.65 +        vsub.f32        d17, d16, d17           @ r4-r5,i4-i5
    1.66 +        vsub.f32        d19, d18, d19           @ r6-r7,i6-i7
    1.67 +        vrev64.32       d29, d28
    1.68 +        vadd.f32        d20, d0,  d1            @ r0+r1,i0+i1
    1.69 +        vadd.f32        d21, d2,  d3            @ r2+r3,i2+i3
    1.70 +        vmul.f32        d26, d17, d28           @ -a2r*w,a2i*w
    1.71 +        vext.32         q3,  q2,  q2,  #1
    1.72 +        vmul.f32        d27, d19, d29           @ a3r*w,-a3i*w
    1.73 +        vsub.f32        d23, d22, d23           @ i2-i3,r3-r2
    1.74 +        vsub.f32        d22, d0,  d1            @ r0-r1,i0-i1
    1.75 +        vmul.f32        d24, d17, d31           @ a2r*w,a2i*w
    1.76 +        vmul.f32        d25, d19, d31           @ a3r*w,a3i*w
    1.77 +        vadd.f32        d0,  d20, d21
    1.78 +        vsub.f32        d2,  d20, d21
    1.79 +        vadd.f32        d1,  d22, d23
    1.80 +        vrev64.32       q13, q13
    1.81 +        vsub.f32        d3,  d22, d23
    1.82 +        vsub.f32        d6,  d6,  d7
    1.83 +        vadd.f32        d24, d24, d26           @ a2r+a2i,a2i-a2r   t1,t2
    1.84 +        vadd.f32        d25, d25, d27           @ a3r-a3i,a3i+a3r   t5,t6
    1.85 +        vadd.f32        d7,  d4,  d5
    1.86 +        vsub.f32        d18, d2,  d6
    1.87 +        vext.32         q13, q12, q12, #1
    1.88 +        vadd.f32        d2,  d2,  d6
    1.89 +        vsub.f32        d16, d0,  d7
    1.90 +        vadd.f32        d5,  d25, d24
    1.91 +        vsub.f32        d4,  d26, d27
    1.92 +        vadd.f32        d0,  d0,  d7
    1.93 +        vsub.f32        d17, d1,  d5
    1.94 +        vsub.f32        d19, d3,  d4
    1.95 +        vadd.f32        d3,  d3,  d4
    1.96 +        vadd.f32        d1,  d1,  d5
    1.97 +
    1.98 +        vst1.32         {d16-d19}, [r1,:128]
    1.99 +        vst1.32         {d0-d3},   [r0,:128]
   1.100 +
   1.101 +        bx              lr
   1.102 +endfunc
   1.103 +
   1.104 +function fft16_neon
   1.105 +        movrel          r1, mppm
   1.106 +        vld1.32         {d16-d19}, [r0,:128]!   @ q8{r0,i0,r1,i1} q9{r2,i2,r3,i3}
   1.107 +        pld             [r0, #32]
   1.108 +        vld1.32         {d2-d3}, [r1,:128]
   1.109 +        vext.32         q13, q9,  q9,  #1
   1.110 +        vld1.32         {d22-d25}, [r0,:128]!   @ q11{r4,i4,r5,i5} q12{r6,i5,r7,i7}
   1.111 +        vadd.f32        d4,  d16, d17
   1.112 +        vsub.f32        d5,  d16, d17
   1.113 +        vadd.f32        d18, d18, d19
   1.114 +        vsub.f32        d19, d26, d27
   1.115 +
   1.116 +        vadd.f32        d20, d22, d23
   1.117 +        vsub.f32        d22, d22, d23
   1.118 +        vsub.f32        d23, d24, d25
   1.119 +        vadd.f32        q8,  q2,  q9            @ {r0,i0,r1,i1}
   1.120 +        vadd.f32        d21, d24, d25
   1.121 +        vmul.f32        d24, d22, d2
   1.122 +        vsub.f32        q9,  q2,  q9            @ {r2,i2,r3,i3}
   1.123 +        vmul.f32        d25, d23, d3
   1.124 +        vuzp.32         d16, d17                @ {r0,r1,i0,i1}
   1.125 +        vmul.f32        q1,  q11, d2[1]
   1.126 +        vuzp.32         d18, d19                @ {r2,r3,i2,i3}
   1.127 +        vrev64.32       q12, q12
   1.128 +        vadd.f32        q11, q12, q1            @ {t1a,t2a,t5,t6}
   1.129 +        vld1.32         {d24-d27}, [r0,:128]!   @ q12{r8,i8,r9,i9} q13{r10,i10,r11,i11}
   1.130 +        vzip.32         q10, q11
   1.131 +        vld1.32         {d28-d31}, [r0,:128]    @ q14{r12,i12,r13,i13} q15{r14,i14,r15,i15}
   1.132 +        vadd.f32        d0,  d22, d20
   1.133 +        vadd.f32        d1,  d21, d23
   1.134 +        vsub.f32        d2,  d21, d23
   1.135 +        vsub.f32        d3,  d22, d20
   1.136 +        sub             r0,  r0,  #96
   1.137 +        vext.32         q13, q13, q13, #1
   1.138 +        vsub.f32        q10, q8,  q0            @ {r4,r5,i4,i5}
   1.139 +        vadd.f32        q8,  q8,  q0            @ {r0,r1,i0,i1}
   1.140 +        vext.32         q15, q15, q15, #1
   1.141 +        vsub.f32        q11, q9,  q1            @ {r6,r7,i6,i7}
   1.142 +        vswp            d25, d26                @ q12{r8,i8,i10,r11} q13{r9,i9,i11,r10}
   1.143 +        vadd.f32        q9,  q9,  q1            @ {r2,r3,i2,i3}
   1.144 +        vswp            d29, d30                @ q14{r12,i12,i14,r15} q15{r13,i13,i15,r14}
   1.145 +        vadd.f32        q0,  q12, q13           @ {t1,t2,t5,t6}
   1.146 +        vadd.f32        q1,  q14, q15           @ {t1a,t2a,t5a,t6a}
   1.147 +        movrel          r2,  X(ff_cos_16)
   1.148 +        vsub.f32        q13, q12, q13           @ {t3,t4,t7,t8}
   1.149 +        vrev64.32       d1,  d1
   1.150 +        vsub.f32        q15, q14, q15           @ {t3a,t4a,t7a,t8a}
   1.151 +        vrev64.32       d3,  d3
   1.152 +        movrel          r3,  pmmp
   1.153 +        vswp            d1,  d26                @ q0{t1,t2,t3,t4} q13{t6,t5,t7,t8}
   1.154 +        vswp            d3,  d30                @ q1{t1a,t2a,t3a,t4a} q15{t6a,t5a,t7a,t8a}
   1.155 +        vadd.f32        q12, q0,  q13           @ {r8,i8,r9,i9}
   1.156 +        vadd.f32        q14, q1,  q15           @ {r12,i12,r13,i13}
   1.157 +        vld1.32         {d4-d5},  [r2,:64]
   1.158 +        vsub.f32        q13, q0,  q13           @ {r10,i10,r11,i11}
   1.159 +        vsub.f32        q15, q1,  q15           @ {r14,i14,r15,i15}
   1.160 +        vswp            d25, d28                @ q12{r8,i8,r12,i12} q14{r9,i9,r13,i13}
   1.161 +        vld1.32         {d6-d7},  [r3,:128]
   1.162 +        vrev64.32       q1,  q14
   1.163 +        vmul.f32        q14, q14, d4[1]
   1.164 +        vmul.f32        q1,  q1,  q3
   1.165 +        vmla.f32        q14, q1,  d5[1]         @ {t1a,t2a,t5a,t6a}
   1.166 +        vswp            d27, d30                @ q13{r10,i10,r14,i14} q15{r11,i11,r15,i15}
   1.167 +        vzip.32         q12, q14
   1.168 +        vadd.f32        d0,  d28, d24
   1.169 +        vadd.f32        d1,  d25, d29
   1.170 +        vsub.f32        d2,  d25, d29
   1.171 +        vsub.f32        d3,  d28, d24
   1.172 +        vsub.f32        q12, q8,  q0            @ {r8,r9,i8,i9}
   1.173 +        vadd.f32        q8,  q8,  q0            @ {r0,r1,i0,i1}
   1.174 +        vsub.f32        q14, q10, q1            @ {r12,r13,i12,i13}
   1.175 +        mov             r1,  #32
   1.176 +        vadd.f32        q10, q10, q1            @ {r4,r5,i4,i5}
   1.177 +        vrev64.32       q0,  q13
   1.178 +        vmul.f32        q13, q13, d5[0]
   1.179 +        vrev64.32       q1,  q15
   1.180 +        vmul.f32        q15, q15, d5[1]
   1.181 +        vst2.32         {d16-d17},[r0,:128], r1
   1.182 +        vmul.f32        q0,  q0,  q3
   1.183 +        vst2.32         {d20-d21},[r0,:128], r1
   1.184 +        vmul.f32        q1,  q1,  q3
   1.185 +        vmla.f32        q13, q0,  d5[0]         @ {t1,t2,t5,t6}
   1.186 +        vmla.f32        q15, q1,  d4[1]         @ {t1a,t2a,t5a,t6a}
   1.187 +        vst2.32         {d24-d25},[r0,:128], r1
   1.188 +        vst2.32         {d28-d29},[r0,:128]
   1.189 +        vzip.32         q13, q15
   1.190 +        sub             r0, r0, #80
   1.191 +        vadd.f32        d0,  d30, d26
   1.192 +        vadd.f32        d1,  d27, d31
   1.193 +        vsub.f32        d2,  d27, d31
   1.194 +        vsub.f32        d3,  d30, d26
   1.195 +        vsub.f32        q13, q9,  q0            @ {r10,r11,i10,i11}
   1.196 +        vadd.f32        q9,  q9,  q0            @ {r2,r3,i2,i3}
   1.197 +        vsub.f32        q15, q11, q1            @ {r14,r15,i14,i15}
   1.198 +        vadd.f32        q11, q11, q1            @ {r6,r7,i6,i7}
   1.199 +        vst2.32         {d18-d19},[r0,:128], r1
   1.200 +        vst2.32         {d22-d23},[r0,:128], r1
   1.201 +        vst2.32         {d26-d27},[r0,:128], r1
   1.202 +        vst2.32         {d30-d31},[r0,:128]
   1.203 +        bx              lr
   1.204 +endfunc
   1.205 +
   1.206 +function fft_pass_neon
   1.207 +        push            {r4-r6,lr}
   1.208 +        mov             r6,  r2                 @ n
   1.209 +        lsl             r5,  r2,  #3            @ 2 * n * sizeof FFTSample
   1.210 +        lsl             r4,  r2,  #4            @ 2 * n * sizeof FFTComplex
   1.211 +        lsl             r2,  r2,  #5            @ 4 * n * sizeof FFTComplex
   1.212 +        add             r3,  r2,  r4
   1.213 +        add             r4,  r4,  r0            @ &z[o1]
   1.214 +        add             r2,  r2,  r0            @ &z[o2]
   1.215 +        add             r3,  r3,  r0            @ &z[o3]
   1.216 +        vld1.32         {d20-d21},[r2,:128]     @ {z[o2],z[o2+1]}
   1.217 +        movrel          r12, pmmp
   1.218 +        vld1.32         {d22-d23},[r3,:128]     @ {z[o3],z[o3+1]}
   1.219 +        add             r5,  r5,  r1            @ wim
   1.220 +        vld1.32         {d6-d7},  [r12,:128]    @ pmmp
   1.221 +        vswp            d21, d22
   1.222 +        vld1.32         {d4},     [r1,:64]!     @ {wre[0],wre[1]}
   1.223 +        sub             r5,  r5,  #4            @ wim--
   1.224 +        vrev64.32       q1,  q11
   1.225 +        vmul.f32        q11, q11, d4[1]
   1.226 +        vmul.f32        q1,  q1,  q3
   1.227 +        vld1.32         {d5[0]},  [r5,:32]      @ d5[0] = wim[-1]
   1.228 +        vmla.f32        q11, q1,  d5[0]         @ {t1a,t2a,t5a,t6a}
   1.229 +        vld2.32         {d16-d17},[r0,:128]     @ {z[0],z[1]}
   1.230 +        sub             r6, r6, #1              @ n--
   1.231 +        vld2.32         {d18-d19},[r4,:128]     @ {z[o1],z[o1+1]}
   1.232 +        vzip.32         q10, q11
   1.233 +        vadd.f32        d0,  d22, d20
   1.234 +        vadd.f32        d1,  d21, d23
   1.235 +        vsub.f32        d2,  d21, d23
   1.236 +        vsub.f32        d3,  d22, d20
   1.237 +        vsub.f32        q10, q8,  q0
   1.238 +        vadd.f32        q8,  q8,  q0
   1.239 +        vsub.f32        q11, q9,  q1
   1.240 +        vadd.f32        q9,  q9,  q1
   1.241 +        vst2.32         {d20-d21},[r2,:128]!    @ {z[o2],z[o2+1]}
   1.242 +        vst2.32         {d16-d17},[r0,:128]!    @ {z[0],z[1]}
   1.243 +        vst2.32         {d22-d23},[r3,:128]!    @ {z[o3],z[o3+1]}
   1.244 +        vst2.32         {d18-d19},[r4,:128]!    @ {z[o1],z[o1+1]}
   1.245 +        sub             r5,  r5,  #8            @ wim -= 2
   1.246 +1:
   1.247 +        vld1.32         {d20-d21},[r2,:128]     @ {z[o2],z[o2+1]}
   1.248 +        vld1.32         {d22-d23},[r3,:128]     @ {z[o3],z[o3+1]}
   1.249 +        vswp            d21, d22
   1.250 +        vld1.32         {d4}, [r1]!             @ {wre[0],wre[1]}
   1.251 +        vrev64.32       q0,  q10
   1.252 +        vmul.f32        q10, q10, d4[0]
   1.253 +        vrev64.32       q1,  q11
   1.254 +        vmul.f32        q11, q11, d4[1]
   1.255 +        vld1.32         {d5}, [r5]              @ {wim[-1],wim[0]}
   1.256 +        vmul.f32        q0,  q0,  q3
   1.257 +        sub             r5,  r5,  #8            @ wim -= 2
   1.258 +        vmul.f32        q1,  q1,  q3
   1.259 +        vmla.f32        q10, q0,  d5[1]         @ {t1,t2,t5,t6}
   1.260 +        vmla.f32        q11, q1,  d5[0]         @ {t1a,t2a,t5a,t6a}
   1.261 +        vld2.32         {d16-d17},[r0,:128]     @ {z[0],z[1]}
   1.262 +        subs            r6,  r6,  #1            @ n--
   1.263 +        vld2.32         {d18-d19},[r4,:128]     @ {z[o1],z[o1+1]}
   1.264 +        vzip.32         q10, q11
   1.265 +        vadd.f32        d0,  d22, d20
   1.266 +        vadd.f32        d1,  d21, d23
   1.267 +        vsub.f32        d2,  d21, d23
   1.268 +        vsub.f32        d3,  d22, d20
   1.269 +        vsub.f32        q10, q8,  q0
   1.270 +        vadd.f32        q8,  q8,  q0
   1.271 +        vsub.f32        q11, q9,  q1
   1.272 +        vadd.f32        q9,  q9,  q1
   1.273 +        vst2.32         {d20-d21}, [r2,:128]!   @ {z[o2],z[o2+1]}
   1.274 +        vst2.32         {d16-d17}, [r0,:128]!   @ {z[0],z[1]}
   1.275 +        vst2.32         {d22-d23}, [r3,:128]!   @ {z[o3],z[o3+1]}
   1.276 +        vst2.32         {d18-d19}, [r4,:128]!   @ {z[o1],z[o1+1]}
   1.277 +        bne             1b
   1.278 +
   1.279 +        pop             {r4-r6,pc}
   1.280 +endfunc
   1.281 +
   1.282 +.macro  def_fft n, n2, n4
   1.283 +        .align 6
   1.284 +function fft\n\()_neon
   1.285 +        push            {r4, lr}
   1.286 +        mov             r4,  r0
   1.287 +        bl              fft\n2\()_neon
   1.288 +        add             r0,  r4,  #\n4*2*8
   1.289 +        bl              fft\n4\()_neon
   1.290 +        add             r0,  r4,  #\n4*3*8
   1.291 +        bl              fft\n4\()_neon
   1.292 +        mov             r0,  r4
   1.293 +        pop             {r4, lr}
   1.294 +        movrel          r1,  X(ff_cos_\n)
   1.295 +        mov             r2,  #\n4/2
   1.296 +        b               fft_pass_neon
   1.297 +endfunc
   1.298 +.endm
   1.299 +
   1.300 +        def_fft    32,    16,     8
   1.301 +        def_fft    64,    32,    16
   1.302 +        def_fft   128,    64,    32
   1.303 +        def_fft   256,   128,    64
   1.304 +        def_fft   512,   256,   128
   1.305 +        def_fft  1024,   512,   256
   1.306 +        def_fft  2048,  1024,   512
   1.307 +        def_fft  4096,  2048,  1024
   1.308 +        def_fft  8192,  4096,  2048
   1.309 +        def_fft 16384,  8192,  4096
   1.310 +        def_fft 32768, 16384,  8192
   1.311 +        def_fft 65536, 32768, 16384
   1.312 +
   1.313 +function ff_fft_calc_neon, export=1
   1.314 +        ldr             r2,  [r0]
   1.315 +        sub             r2,  r2,  #2
   1.316 +        movrel          r3,  fft_tab_neon
   1.317 +        ldr             r3,  [r3, r2, lsl #2]
   1.318 +        mov             r0,  r1
   1.319 +        bx              r3
   1.320 +endfunc
   1.321 +
   1.322 +function ff_fft_permute_neon, export=1
   1.323 +        push            {r4,lr}
   1.324 +        mov             r12, #1
   1.325 +        ldr             r2,  [r0]       @ nbits
   1.326 +        ldr             r3,  [r0, #20]  @ tmp_buf
   1.327 +        ldr             r0,  [r0, #8]   @ revtab
   1.328 +        lsl             r12, r12, r2
   1.329 +        mov             r2,  r12
   1.330 +1:
   1.331 +        vld1.32         {d0-d1}, [r1,:128]!
   1.332 +        ldr             r4,  [r0], #4
   1.333 +        uxth            lr,  r4
   1.334 +        uxth            r4,  r4,  ror #16
   1.335 +        add             lr,  r3,  lr,  lsl #3
   1.336 +        add             r4,  r3,  r4,  lsl #3
   1.337 +        vst1.32         {d0}, [lr,:64]
   1.338 +        vst1.32         {d1}, [r4,:64]
   1.339 +        subs            r12, r12, #2
   1.340 +        bgt             1b
   1.341 +
   1.342 +        sub             r1,  r1,  r2,  lsl #3
   1.343 +1:
   1.344 +        vld1.32         {d0-d3}, [r3,:128]!
   1.345 +        vst1.32         {d0-d3}, [r1,:128]!
   1.346 +        subs            r2,  r2,  #4
   1.347 +        bgt             1b
   1.348 +
   1.349 +        pop             {r4,pc}
   1.350 +endfunc
   1.351 +
   1.352 +        .section .rodata
   1.353 +        .align 4
   1.354 +fft_tab_neon:
   1.355 +        .word fft4_neon
   1.356 +        .word fft8_neon
   1.357 +        .word fft16_neon
   1.358 +        .word fft32_neon
   1.359 +        .word fft64_neon
   1.360 +        .word fft128_neon
   1.361 +        .word fft256_neon
   1.362 +        .word fft512_neon
   1.363 +        .word fft1024_neon
   1.364 +        .word fft2048_neon
   1.365 +        .word fft4096_neon
   1.366 +        .word fft8192_neon
   1.367 +        .word fft16384_neon
   1.368 +        .word fft32768_neon
   1.369 +        .word fft65536_neon
   1.370 +        .size fft_tab_neon, . - fft_tab_neon
   1.371 +
   1.372 +        .align 4
   1.373 +pmmp:   .float  +1.0, -1.0, -1.0, +1.0
   1.374 +mppm:   .float  -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, -M_SQRT1_2