audlegacy-plugins: src/ffmpeg/libavcodec/ppc/dsputil

annotate src/ffmpeg/libavcodec/ppc/dsputil_altivec.c @ 854:aac49941ee8f trunk

[svn] statusicon 0.3: alternative right-click menu with simple playback control commands

author	giacomo
date	Wed, 14 Mar 2007 07:44:00 -0700
parents	e8776388b02a
children

rev	line source
808 e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	2 * Copyright (c) 2002 Brian Foley
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	3 * Copyright (c) 2002 Dieter Shirley
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	4 * Copyright (c) 2003-2004 Romain Dolbeau <romain@dolbeau.org>
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	5 *
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	6 * This file is part of FFmpeg.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	7 *
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	8 * FFmpeg is free software; you can redistribute it and/or
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	9 * modify it under the terms of the GNU Lesser General Public
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	10 * License as published by the Free Software Foundation; either
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	11 * version 2.1 of the License, or (at your option) any later version.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	12 *
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	13 * FFmpeg is distributed in the hope that it will be useful,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	14 * but WITHOUT ANY WARRANTY; without even the implied warranty of
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	15 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	16 * Lesser General Public License for more details.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	17 *
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	18 * You should have received a copy of the GNU Lesser General Public
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	19 * License along with FFmpeg; if not, write to the Free Software
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	20 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	21 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	22
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	23 #include "../dsputil.h"
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	24
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	25 #include "gcc_fixes.h"
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	26
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	27 #include "dsputil_altivec.h"
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	28
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	29 #ifdef CONFIG_DARWIN
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	30 #include <sys/sysctl.h>
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	31 #else /* CONFIG_DARWIN */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	32 #ifdef __AMIGAOS4__
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	33 #include <exec/exec.h>
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	34 #include <interfaces/exec.h>
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	35 #include <proto/exec.h>
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	36 #else /* __AMIGAOS4__ */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	37 #include <signal.h>
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	38 #include <setjmp.h>
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	39
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	40 static sigjmp_buf jmpbuf;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	41 static volatile sig_atomic_t canjump = 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	42
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	43 static void sigill_handler (int sig)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	44 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	45 if (!canjump) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	46 signal (sig, SIG_DFL);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	47 raise (sig);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	48 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	49
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	50 canjump = 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	51 siglongjmp (jmpbuf, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	52 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	53 #endif /* CONFIG_DARWIN */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	54 #endif /* __AMIGAOS4__ */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	55
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	56 int sad16_x2_altivec(void v, uint8_t pix1, uint8_t *pix2, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	57 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	58 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	59 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	60 const_vector unsigned char zero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	61 vector unsigned char *tv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	62 vector unsigned char pix1v, pix2v, pix2iv, avgv, t5;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	63 vector unsigned int sad;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	64 vector signed int sumdiffs;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	65
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	66 s = 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	67 sad = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	68 for(i=0;i<h;i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	69 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	70 Read unaligned pixels into our vectors. The vectors are as follows:
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	71 pix1v: pix1[0]-pix1[15]
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	72 pix2v: pix2[0]-pix2[15] pix2iv: pix2[1]-pix2[16]
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	73 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	74 tv = (vector unsigned char *) pix1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	75 pix1v = vec_perm(tv[0], tv[1], vec_lvsl(0, pix1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	76
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	77 tv = (vector unsigned char *) &pix2[0];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	78 pix2v = vec_perm(tv[0], tv[1], vec_lvsl(0, &pix2[0]));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	79
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	80 tv = (vector unsigned char *) &pix2[1];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	81 pix2iv = vec_perm(tv[0], tv[1], vec_lvsl(0, &pix2[1]));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	82
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	83 /* Calculate the average vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	84 avgv = vec_avg(pix2v, pix2iv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	85
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	86 /* Calculate a sum of abs differences vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	87 t5 = vec_sub(vec_max(pix1v, avgv), vec_min(pix1v, avgv));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	88
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	89 /* Add each 4 pixel group together and put 4 results into sad */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	90 sad = vec_sum4s(t5, sad);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	91
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	92 pix1 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	93 pix2 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	94 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	95 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	96 sumdiffs = vec_sums((vector signed int) sad, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	97 sumdiffs = vec_splat(sumdiffs, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	98 vec_ste(sumdiffs, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	99
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	100 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	101 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	102
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	103 int sad16_y2_altivec(void v, uint8_t pix1, uint8_t *pix2, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	104 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	105 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	106 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	107 const_vector unsigned char zero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	108 vector unsigned char *tv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	109 vector unsigned char pix1v, pix2v, pix3v, avgv, t5;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	110 vector unsigned int sad;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	111 vector signed int sumdiffs;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	112 uint8_t *pix3 = pix2 + line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	113
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	114 s = 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	115 sad = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	116
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	117 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	118 Due to the fact that pix3 = pix2 + line_size, the pix3 of one
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	119 iteration becomes pix2 in the next iteration. We can use this
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	120 fact to avoid a potentially expensive unaligned read, each
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	121 time around the loop.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	122 Read unaligned pixels into our vectors. The vectors are as follows:
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	123 pix2v: pix2[0]-pix2[15]
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	124 Split the pixel vectors into shorts
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	125 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	126 tv = (vector unsigned char *) &pix2[0];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	127 pix2v = vec_perm(tv[0], tv[1], vec_lvsl(0, &pix2[0]));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	128
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	129 for(i=0;i<h;i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	130 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	131 Read unaligned pixels into our vectors. The vectors are as follows:
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	132 pix1v: pix1[0]-pix1[15]
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	133 pix3v: pix3[0]-pix3[15]
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	134 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	135 tv = (vector unsigned char *) pix1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	136 pix1v = vec_perm(tv[0], tv[1], vec_lvsl(0, pix1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	137
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	138 tv = (vector unsigned char *) &pix3[0];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	139 pix3v = vec_perm(tv[0], tv[1], vec_lvsl(0, &pix3[0]));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	140
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	141 /* Calculate the average vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	142 avgv = vec_avg(pix2v, pix3v);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	143
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	144 /* Calculate a sum of abs differences vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	145 t5 = vec_sub(vec_max(pix1v, avgv), vec_min(pix1v, avgv));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	146
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	147 /* Add each 4 pixel group together and put 4 results into sad */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	148 sad = vec_sum4s(t5, sad);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	149
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	150 pix1 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	151 pix2v = pix3v;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	152 pix3 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	153
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	154 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	155
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	156 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	157 sumdiffs = vec_sums((vector signed int) sad, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	158 sumdiffs = vec_splat(sumdiffs, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	159 vec_ste(sumdiffs, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	160 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	161 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	162
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	163 int sad16_xy2_altivec(void v, uint8_t pix1, uint8_t *pix2, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	164 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	165 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	166 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	167 uint8_t *pix3 = pix2 + line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	168 const_vector unsigned char zero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	169 const_vector unsigned short two = (const_vector unsigned short)vec_splat_u16(2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	170 vector unsigned char *tv, avgv, t5;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	171 vector unsigned char pix1v, pix2v, pix3v, pix2iv, pix3iv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	172 vector unsigned short pix2lv, pix2hv, pix2ilv, pix2ihv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	173 vector unsigned short pix3lv, pix3hv, pix3ilv, pix3ihv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	174 vector unsigned short avghv, avglv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	175 vector unsigned short t1, t2, t3, t4;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	176 vector unsigned int sad;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	177 vector signed int sumdiffs;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	178
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	179 sad = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	180
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	181 s = 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	182
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	183 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	184 Due to the fact that pix3 = pix2 + line_size, the pix3 of one
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	185 iteration becomes pix2 in the next iteration. We can use this
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	186 fact to avoid a potentially expensive unaligned read, as well
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	187 as some splitting, and vector addition each time around the loop.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	188 Read unaligned pixels into our vectors. The vectors are as follows:
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	189 pix2v: pix2[0]-pix2[15] pix2iv: pix2[1]-pix2[16]
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	190 Split the pixel vectors into shorts
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	191 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	192 tv = (vector unsigned char *) &pix2[0];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	193 pix2v = vec_perm(tv[0], tv[1], vec_lvsl(0, &pix2[0]));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	194
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	195 tv = (vector unsigned char *) &pix2[1];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	196 pix2iv = vec_perm(tv[0], tv[1], vec_lvsl(0, &pix2[1]));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	197
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	198 pix2hv = (vector unsigned short) vec_mergeh(zero, pix2v);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	199 pix2lv = (vector unsigned short) vec_mergel(zero, pix2v);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	200 pix2ihv = (vector unsigned short) vec_mergeh(zero, pix2iv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	201 pix2ilv = (vector unsigned short) vec_mergel(zero, pix2iv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	202 t1 = vec_add(pix2hv, pix2ihv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	203 t2 = vec_add(pix2lv, pix2ilv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	204
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	205 for(i=0;i<h;i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	206 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	207 Read unaligned pixels into our vectors. The vectors are as follows:
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	208 pix1v: pix1[0]-pix1[15]
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	209 pix3v: pix3[0]-pix3[15] pix3iv: pix3[1]-pix3[16]
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	210 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	211 tv = (vector unsigned char *) pix1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	212 pix1v = vec_perm(tv[0], tv[1], vec_lvsl(0, pix1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	213
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	214 tv = (vector unsigned char *) &pix3[0];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	215 pix3v = vec_perm(tv[0], tv[1], vec_lvsl(0, &pix3[0]));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	216
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	217 tv = (vector unsigned char *) &pix3[1];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	218 pix3iv = vec_perm(tv[0], tv[1], vec_lvsl(0, &pix3[1]));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	219
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	220 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	221 Note that Altivec does have vec_avg, but this works on vector pairs
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	222 and rounds up. We could do avg(avg(a,b),avg(c,d)), but the rounding
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	223 would mean that, for example, avg(3,0,0,1) = 2, when it should be 1.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	224 Instead, we have to split the pixel vectors into vectors of shorts,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	225 and do the averaging by hand.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	226 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	227
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	228 /* Split the pixel vectors into shorts */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	229 pix3hv = (vector unsigned short) vec_mergeh(zero, pix3v);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	230 pix3lv = (vector unsigned short) vec_mergel(zero, pix3v);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	231 pix3ihv = (vector unsigned short) vec_mergeh(zero, pix3iv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	232 pix3ilv = (vector unsigned short) vec_mergel(zero, pix3iv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	233
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	234 /* Do the averaging on them */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	235 t3 = vec_add(pix3hv, pix3ihv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	236 t4 = vec_add(pix3lv, pix3ilv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	237
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	238 avghv = vec_sr(vec_add(vec_add(t1, t3), two), two);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	239 avglv = vec_sr(vec_add(vec_add(t2, t4), two), two);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	240
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	241 /* Pack the shorts back into a result */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	242 avgv = vec_pack(avghv, avglv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	243
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	244 /* Calculate a sum of abs differences vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	245 t5 = vec_sub(vec_max(pix1v, avgv), vec_min(pix1v, avgv));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	246
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	247 /* Add each 4 pixel group together and put 4 results into sad */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	248 sad = vec_sum4s(t5, sad);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	249
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	250 pix1 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	251 pix3 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	252 /* Transfer the calculated values for pix3 into pix2 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	253 t1 = t3;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	254 t2 = t4;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	255 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	256 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	257 sumdiffs = vec_sums((vector signed int) sad, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	258 sumdiffs = vec_splat(sumdiffs, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	259 vec_ste(sumdiffs, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	260
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	261 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	262 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	263
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	264 int sad16_altivec(void v, uint8_t pix1, uint8_t *pix2, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	265 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	266 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	267 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	268 const_vector unsigned int zero = (const_vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	269 vector unsigned char perm1, perm2, pix1v, pix2v;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	270 vector unsigned char t1, t2, t3,t4, t5;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	271 vector unsigned int sad;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	272 vector signed int sumdiffs;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	273
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	274 sad = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	275
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	276
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	277 for(i=0;i<h;i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	278 /* Read potentially unaligned pixels into t1 and t2 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	279 perm1 = vec_lvsl(0, pix1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	280 pix1v = (vector unsigned char *) pix1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	281 perm2 = vec_lvsl(0, pix2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	282 pix2v = (vector unsigned char *) pix2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	283 t1 = vec_perm(pix1v[0], pix1v[1], perm1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	284 t2 = vec_perm(pix2v[0], pix2v[1], perm2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	285
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	286 /* Calculate a sum of abs differences vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	287 t3 = vec_max(t1, t2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	288 t4 = vec_min(t1, t2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	289 t5 = vec_sub(t3, t4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	290
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	291 /* Add each 4 pixel group together and put 4 results into sad */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	292 sad = vec_sum4s(t5, sad);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	293
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	294 pix1 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	295 pix2 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	296 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	297
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	298 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	299 sumdiffs = vec_sums((vector signed int) sad, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	300 sumdiffs = vec_splat(sumdiffs, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	301 vec_ste(sumdiffs, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	302
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	303 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	304 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	305
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	306 int sad8_altivec(void v, uint8_t pix1, uint8_t *pix2, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	307 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	308 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	309 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	310 const_vector unsigned int zero = (const_vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	311 vector unsigned char perm1, perm2, permclear, pix1v, pix2v;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	312 vector unsigned char t1, t2, t3,t4, t5;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	313 vector unsigned int sad;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	314 vector signed int sumdiffs;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	315
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	316 sad = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	317
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	318 permclear = (vector unsigned char)AVV(255,255,255,255,255,255,255,255,0,0,0,0,0,0,0,0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	319
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	320 for(i=0;i<h;i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	321 /* Read potentially unaligned pixels into t1 and t2
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	322 Since we're reading 16 pixels, and actually only want 8,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	323 mask out the last 8 pixels. The 0s don't change the sum. */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	324 perm1 = vec_lvsl(0, pix1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	325 pix1v = (vector unsigned char *) pix1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	326 perm2 = vec_lvsl(0, pix2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	327 pix2v = (vector unsigned char *) pix2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	328 t1 = vec_and(vec_perm(pix1v[0], pix1v[1], perm1), permclear);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	329 t2 = vec_and(vec_perm(pix2v[0], pix2v[1], perm2), permclear);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	330
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	331 /* Calculate a sum of abs differences vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	332 t3 = vec_max(t1, t2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	333 t4 = vec_min(t1, t2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	334 t5 = vec_sub(t3, t4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	335
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	336 /* Add each 4 pixel group together and put 4 results into sad */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	337 sad = vec_sum4s(t5, sad);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	338
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	339 pix1 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	340 pix2 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	341 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	342
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	343 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	344 sumdiffs = vec_sums((vector signed int) sad, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	345 sumdiffs = vec_splat(sumdiffs, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	346 vec_ste(sumdiffs, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	347
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	348 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	349 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	350
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	351 int pix_norm1_altivec(uint8_t *pix, int line_size)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	352 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	353 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	354 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	355 const_vector unsigned int zero = (const_vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	356 vector unsigned char *tv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	357 vector unsigned char pixv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	358 vector unsigned int sv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	359 vector signed int sum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	360
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	361 sv = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	362
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	363 s = 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	364 for (i = 0; i < 16; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	365 /* Read in the potentially unaligned pixels */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	366 tv = (vector unsigned char *) pix;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	367 pixv = vec_perm(tv[0], tv[1], vec_lvsl(0, pix));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	368
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	369 /* Square the values, and add them to our sum */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	370 sv = vec_msum(pixv, pixv, sv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	371
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	372 pix += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	373 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	374 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	375 sum = vec_sums((vector signed int) sv, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	376 sum = vec_splat(sum, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	377 vec_ste(sum, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	378
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	379 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	380 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	381
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	382 /**
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	383 * Sum of Squared Errors for a 8x8 block.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	384 * AltiVec-enhanced.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	385 * It's the sad8_altivec code above w/ squaring added.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	386 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	387 int sse8_altivec(void v, uint8_t pix1, uint8_t *pix2, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	388 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	389 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	390 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	391 const_vector unsigned int zero = (const_vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	392 vector unsigned char perm1, perm2, permclear, pix1v, pix2v;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	393 vector unsigned char t1, t2, t3,t4, t5;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	394 vector unsigned int sum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	395 vector signed int sumsqr;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	396
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	397 sum = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	398
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	399 permclear = (vector unsigned char)AVV(255,255,255,255,255,255,255,255,0,0,0,0,0,0,0,0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	400
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	401
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	402 for(i=0;i<h;i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	403 /* Read potentially unaligned pixels into t1 and t2
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	404 Since we're reading 16 pixels, and actually only want 8,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	405 mask out the last 8 pixels. The 0s don't change the sum. */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	406 perm1 = vec_lvsl(0, pix1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	407 pix1v = (vector unsigned char *) pix1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	408 perm2 = vec_lvsl(0, pix2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	409 pix2v = (vector unsigned char *) pix2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	410 t1 = vec_and(vec_perm(pix1v[0], pix1v[1], perm1), permclear);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	411 t2 = vec_and(vec_perm(pix2v[0], pix2v[1], perm2), permclear);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	412
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	413 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	414 Since we want to use unsigned chars, we can take advantage
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	415 of the fact that abs(a-b)^2 = (a-b)^2.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	416 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	417
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	418 /* Calculate abs differences vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	419 t3 = vec_max(t1, t2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	420 t4 = vec_min(t1, t2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	421 t5 = vec_sub(t3, t4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	422
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	423 /* Square the values and add them to our sum */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	424 sum = vec_msum(t5, t5, sum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	425
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	426 pix1 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	427 pix2 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	428 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	429
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	430 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	431 sumsqr = vec_sums((vector signed int) sum, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	432 sumsqr = vec_splat(sumsqr, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	433 vec_ste(sumsqr, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	434
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	435 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	436 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	437
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	438 /**
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	439 * Sum of Squared Errors for a 16x16 block.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	440 * AltiVec-enhanced.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	441 * It's the sad16_altivec code above w/ squaring added.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	442 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	443 int sse16_altivec(void v, uint8_t pix1, uint8_t *pix2, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	444 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	445 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	446 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	447 const_vector unsigned int zero = (const_vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	448 vector unsigned char perm1, perm2, pix1v, pix2v;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	449 vector unsigned char t1, t2, t3,t4, t5;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	450 vector unsigned int sum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	451 vector signed int sumsqr;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	452
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	453 sum = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	454
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	455 for(i=0;i<h;i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	456 /* Read potentially unaligned pixels into t1 and t2 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	457 perm1 = vec_lvsl(0, pix1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	458 pix1v = (vector unsigned char *) pix1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	459 perm2 = vec_lvsl(0, pix2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	460 pix2v = (vector unsigned char *) pix2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	461 t1 = vec_perm(pix1v[0], pix1v[1], perm1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	462 t2 = vec_perm(pix2v[0], pix2v[1], perm2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	463
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	464 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	465 Since we want to use unsigned chars, we can take advantage
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	466 of the fact that abs(a-b)^2 = (a-b)^2.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	467 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	468
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	469 /* Calculate abs differences vector */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	470 t3 = vec_max(t1, t2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	471 t4 = vec_min(t1, t2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	472 t5 = vec_sub(t3, t4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	473
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	474 /* Square the values and add them to our sum */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	475 sum = vec_msum(t5, t5, sum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	476
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	477 pix1 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	478 pix2 += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	479 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	480
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	481 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	482 sumsqr = vec_sums((vector signed int) sum, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	483 sumsqr = vec_splat(sumsqr, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	484 vec_ste(sumsqr, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	485
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	486 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	487 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	488
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	489 int pix_sum_altivec(uint8_t * pix, int line_size)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	490 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	491 const_vector unsigned int zero = (const_vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	492 vector unsigned char perm, *pixv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	493 vector unsigned char t1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	494 vector unsigned int sad;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	495 vector signed int sumdiffs;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	496
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	497 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	498 int s __attribute__((aligned(16)));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	499
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	500 sad = (vector unsigned int)vec_splat_u32(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	501
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	502 for (i = 0; i < 16; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	503 /* Read the potentially unaligned 16 pixels into t1 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	504 perm = vec_lvsl(0, pix);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	505 pixv = (vector unsigned char *) pix;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	506 t1 = vec_perm(pixv[0], pixv[1], perm);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	507
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	508 /* Add each 4 pixel group together and put 4 results into sad */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	509 sad = vec_sum4s(t1, sad);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	510
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	511 pix += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	512 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	513
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	514 /* Sum up the four partial sums, and put the result into s */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	515 sumdiffs = vec_sums((vector signed int) sad, (vector signed int) zero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	516 sumdiffs = vec_splat(sumdiffs, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	517 vec_ste(sumdiffs, 0, &s);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	518
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	519 return s;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	520 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	521
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	522 void get_pixels_altivec(DCTELEM restrict block, const uint8_t pixels, int line_size)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	523 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	524 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	525 vector unsigned char perm, bytes, *pixv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	526 const_vector unsigned char zero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	527 vector signed short shorts;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	528
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	529 for(i=0;i<8;i++)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	530 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	531 // Read potentially unaligned pixels.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	532 // We're reading 16 pixels, and actually only want 8,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	533 // but we simply ignore the extras.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	534 perm = vec_lvsl(0, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	535 pixv = (vector unsigned char *) pixels;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	536 bytes = vec_perm(pixv[0], pixv[1], perm);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	537
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	538 // convert the bytes into shorts
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	539 shorts = (vector signed short)vec_mergeh(zero, bytes);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	540
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	541 // save the data to the block, we assume the block is 16-byte aligned
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	542 vec_st(shorts, i16, (vector signed short)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	543
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	544 pixels += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	545 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	546 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	547
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	548 void diff_pixels_altivec(DCTELEM restrict block, const uint8_t s1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	549 const uint8_t *s2, int stride)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	550 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	551 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	552 vector unsigned char perm, bytes, *pixv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	553 const_vector unsigned char zero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	554 vector signed short shorts1, shorts2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	555
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	556 for(i=0;i<4;i++)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	557 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	558 // Read potentially unaligned pixels
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	559 // We're reading 16 pixels, and actually only want 8,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	560 // but we simply ignore the extras.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	561 perm = vec_lvsl(0, s1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	562 pixv = (vector unsigned char *) s1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	563 bytes = vec_perm(pixv[0], pixv[1], perm);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	564
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	565 // convert the bytes into shorts
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	566 shorts1 = (vector signed short)vec_mergeh(zero, bytes);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	567
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	568 // Do the same for the second block of pixels
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	569 perm = vec_lvsl(0, s2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	570 pixv = (vector unsigned char *) s2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	571 bytes = vec_perm(pixv[0], pixv[1], perm);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	572
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	573 // convert the bytes into shorts
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	574 shorts2 = (vector signed short)vec_mergeh(zero, bytes);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	575
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	576 // Do the subtraction
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	577 shorts1 = vec_sub(shorts1, shorts2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	578
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	579 // save the data to the block, we assume the block is 16-byte aligned
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	580 vec_st(shorts1, 0, (vector signed short*)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	581
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	582 s1 += stride;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	583 s2 += stride;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	584 block += 8;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	585
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	586
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	587 // The code below is a copy of the code above... This is a manual
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	588 // unroll.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	589
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	590 // Read potentially unaligned pixels
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	591 // We're reading 16 pixels, and actually only want 8,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	592 // but we simply ignore the extras.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	593 perm = vec_lvsl(0, s1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	594 pixv = (vector unsigned char *) s1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	595 bytes = vec_perm(pixv[0], pixv[1], perm);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	596
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	597 // convert the bytes into shorts
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	598 shorts1 = (vector signed short)vec_mergeh(zero, bytes);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	599
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	600 // Do the same for the second block of pixels
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	601 perm = vec_lvsl(0, s2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	602 pixv = (vector unsigned char *) s2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	603 bytes = vec_perm(pixv[0], pixv[1], perm);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	604
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	605 // convert the bytes into shorts
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	606 shorts2 = (vector signed short)vec_mergeh(zero, bytes);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	607
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	608 // Do the subtraction
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	609 shorts1 = vec_sub(shorts1, shorts2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	610
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	611 // save the data to the block, we assume the block is 16-byte aligned
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	612 vec_st(shorts1, 0, (vector signed short*)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	613
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	614 s1 += stride;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	615 s2 += stride;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	616 block += 8;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	617 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	618 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	619
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	620 void add_bytes_altivec(uint8_t dst, uint8_t src, int w) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	621 register int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	622 register vector unsigned char vdst, vsrc;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	623
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	624 /* dst and src are 16 bytes-aligned (guaranteed) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	625 for(i = 0 ; (i + 15) < w ; i+=16)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	626 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	627 vdst = vec_ld(i, (unsigned char*)dst);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	628 vsrc = vec_ld(i, (unsigned char*)src);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	629 vdst = vec_add(vsrc, vdst);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	630 vec_st(vdst, i, (unsigned char*)dst);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	631 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	632 /* if w is not a multiple of 16 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	633 for (; (i < w) ; i++)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	634 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	635 dst[i] = src[i];
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	636 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	637 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	638
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	639 /* next one assumes that ((line_size % 16) == 0) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	640 void put_pixels16_altivec(uint8_t block, const uint8_t pixels, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	641 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	642 POWERPC_PERF_DECLARE(altivec_put_pixels16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	643 register vector unsigned char pixelsv1, pixelsv2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	644 register vector unsigned char pixelsv1B, pixelsv2B;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	645 register vector unsigned char pixelsv1C, pixelsv2C;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	646 register vector unsigned char pixelsv1D, pixelsv2D;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	647
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	648 register vector unsigned char perm = vec_lvsl(0, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	649 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	650 register int line_size_2 = line_size << 1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	651 register int line_size_3 = line_size + line_size_2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	652 register int line_size_4 = line_size << 2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	653
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	654 POWERPC_PERF_START_COUNT(altivec_put_pixels16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	655 // hand-unrolling the loop by 4 gains about 15%
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	656 // mininum execution time goes from 74 to 60 cycles
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	657 // it's faster than -funroll-loops, but using
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	658 // -funroll-loops w/ this is bad - 74 cycles again.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	659 // all this is on a 7450, tuning for the 7450
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	660 #if 0
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	661 for(i=0; i<h; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	662 pixelsv1 = vec_ld(0, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	663 pixelsv2 = vec_ld(16, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	664 vec_st(vec_perm(pixelsv1, pixelsv2, perm),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	665 0, (unsigned char*)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	666 pixels+=line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	667 block +=line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	668 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	669 #else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	670 for(i=0; i<h; i+=4) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	671 pixelsv1 = vec_ld(0, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	672 pixelsv2 = vec_ld(15, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	673 pixelsv1B = vec_ld(line_size, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	674 pixelsv2B = vec_ld(15 + line_size, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	675 pixelsv1C = vec_ld(line_size_2, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	676 pixelsv2C = vec_ld(15 + line_size_2, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	677 pixelsv1D = vec_ld(line_size_3, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	678 pixelsv2D = vec_ld(15 + line_size_3, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	679 vec_st(vec_perm(pixelsv1, pixelsv2, perm),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	680 0, (unsigned char*)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	681 vec_st(vec_perm(pixelsv1B, pixelsv2B, perm),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	682 line_size, (unsigned char*)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	683 vec_st(vec_perm(pixelsv1C, pixelsv2C, perm),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	684 line_size_2, (unsigned char*)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	685 vec_st(vec_perm(pixelsv1D, pixelsv2D, perm),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	686 line_size_3, (unsigned char*)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	687 pixels+=line_size_4;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	688 block +=line_size_4;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	689 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	690 #endif
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	691 POWERPC_PERF_STOP_COUNT(altivec_put_pixels16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	692 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	693
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	694 /* next one assumes that ((line_size % 16) == 0) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	695 #define op_avg(a,b) a = ( ((a)\|(b)) - ((((a)^(b))&0xFEFEFEFEUL)>>1) )
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	696 void avg_pixels16_altivec(uint8_t block, const uint8_t pixels, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	697 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	698 POWERPC_PERF_DECLARE(altivec_avg_pixels16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	699 register vector unsigned char pixelsv1, pixelsv2, pixelsv, blockv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	700 register vector unsigned char perm = vec_lvsl(0, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	701 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	702
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	703 POWERPC_PERF_START_COUNT(altivec_avg_pixels16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	704
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	705 for(i=0; i<h; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	706 pixelsv1 = vec_ld(0, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	707 pixelsv2 = vec_ld(16, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	708 blockv = vec_ld(0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	709 pixelsv = vec_perm(pixelsv1, pixelsv2, perm);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	710 blockv = vec_avg(blockv,pixelsv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	711 vec_st(blockv, 0, (unsigned char*)block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	712 pixels+=line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	713 block +=line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	714 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	715
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	716 POWERPC_PERF_STOP_COUNT(altivec_avg_pixels16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	717 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	718
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	719 /* next one assumes that ((line_size % 8) == 0) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	720 void avg_pixels8_altivec(uint8_t * block, const uint8_t * pixels, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	721 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	722 POWERPC_PERF_DECLARE(altivec_avg_pixels8_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	723 register vector unsigned char pixelsv1, pixelsv2, pixelsv, blockv;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	724 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	725
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	726 POWERPC_PERF_START_COUNT(altivec_avg_pixels8_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	727
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	728 for (i = 0; i < h; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	729 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	730 block is 8 bytes-aligned, so we're either in the
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	731 left block (16 bytes-aligned) or in the right block (not)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	732 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	733 int rightside = ((unsigned long)block & 0x0000000F);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	734
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	735 blockv = vec_ld(0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	736 pixelsv1 = vec_ld(0, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	737 pixelsv2 = vec_ld(16, (unsigned char*)pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	738 pixelsv = vec_perm(pixelsv1, pixelsv2, vec_lvsl(0, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	739
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	740 if (rightside)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	741 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	742 pixelsv = vec_perm(blockv, pixelsv, vcprm(0,1,s0,s1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	743 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	744 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	745 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	746 pixelsv = vec_perm(blockv, pixelsv, vcprm(s0,s1,2,3));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	747 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	748
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	749 blockv = vec_avg(blockv, pixelsv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	750
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	751 vec_st(blockv, 0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	752
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	753 pixels += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	754 block += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	755 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	756
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	757 POWERPC_PERF_STOP_COUNT(altivec_avg_pixels8_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	758 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	759
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	760 /* next one assumes that ((line_size % 8) == 0) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	761 void put_pixels8_xy2_altivec(uint8_t block, const uint8_t pixels, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	762 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	763 POWERPC_PERF_DECLARE(altivec_put_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	764 register int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	765 register vector unsigned char
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	766 pixelsv1, pixelsv2,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	767 pixelsavg;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	768 register vector unsigned char
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	769 blockv, temp1, temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	770 register vector unsigned short
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	771 pixelssum1, pixelssum2, temp3;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	772 register const_vector unsigned char vczero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	773 register const_vector unsigned short vctwo = (const_vector unsigned short)vec_splat_u16(2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	774
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	775 temp1 = vec_ld(0, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	776 temp2 = vec_ld(16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	777 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(0, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	778 if ((((unsigned long)pixels) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	779 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	780 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	781 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	782 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	783 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	784 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	785 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	786 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	787 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	788 pixelssum1 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	789 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	790 pixelssum1 = vec_add(pixelssum1, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	791
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	792 POWERPC_PERF_START_COUNT(altivec_put_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	793 for (i = 0; i < h ; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	794 int rightside = ((unsigned long)block & 0x0000000F);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	795 blockv = vec_ld(0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	796
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	797 temp1 = vec_ld(line_size, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	798 temp2 = vec_ld(line_size + 16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	799 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(line_size, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	800 if (((((unsigned long)pixels) + line_size) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	801 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	802 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	803 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	804 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	805 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	806 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(line_size + 1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	807 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	808
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	809 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	810 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	811 pixelssum2 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	812 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	813 temp3 = vec_add(pixelssum1, pixelssum2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	814 temp3 = vec_sra(temp3, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	815 pixelssum1 = vec_add(pixelssum2, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	816 pixelsavg = vec_packsu(temp3, (vector unsigned short) vczero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	817
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	818 if (rightside)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	819 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	820 blockv = vec_perm(blockv, pixelsavg, vcprm(0, 1, s0, s1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	821 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	822 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	823 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	824 blockv = vec_perm(blockv, pixelsavg, vcprm(s0, s1, 2, 3));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	825 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	826
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	827 vec_st(blockv, 0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	828
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	829 block += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	830 pixels += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	831 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	832
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	833 POWERPC_PERF_STOP_COUNT(altivec_put_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	834 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	835
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	836 /* next one assumes that ((line_size % 8) == 0) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	837 void put_no_rnd_pixels8_xy2_altivec(uint8_t block, const uint8_t pixels, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	838 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	839 POWERPC_PERF_DECLARE(altivec_put_no_rnd_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	840 register int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	841 register vector unsigned char
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	842 pixelsv1, pixelsv2,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	843 pixelsavg;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	844 register vector unsigned char
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	845 blockv, temp1, temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	846 register vector unsigned short
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	847 pixelssum1, pixelssum2, temp3;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	848 register const_vector unsigned char vczero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	849 register const_vector unsigned short vcone = (const_vector unsigned short)vec_splat_u16(1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	850 register const_vector unsigned short vctwo = (const_vector unsigned short)vec_splat_u16(2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	851
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	852 temp1 = vec_ld(0, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	853 temp2 = vec_ld(16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	854 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(0, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	855 if ((((unsigned long)pixels) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	856 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	857 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	858 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	859 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	860 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	861 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	862 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	863 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	864 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	865 pixelssum1 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	866 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	867 pixelssum1 = vec_add(pixelssum1, vcone);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	868
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	869 POWERPC_PERF_START_COUNT(altivec_put_no_rnd_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	870 for (i = 0; i < h ; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	871 int rightside = ((unsigned long)block & 0x0000000F);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	872 blockv = vec_ld(0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	873
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	874 temp1 = vec_ld(line_size, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	875 temp2 = vec_ld(line_size + 16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	876 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(line_size, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	877 if (((((unsigned long)pixels) + line_size) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	878 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	879 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	880 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	881 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	882 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	883 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(line_size + 1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	884 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	885
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	886 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	887 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	888 pixelssum2 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	889 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	890 temp3 = vec_add(pixelssum1, pixelssum2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	891 temp3 = vec_sra(temp3, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	892 pixelssum1 = vec_add(pixelssum2, vcone);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	893 pixelsavg = vec_packsu(temp3, (vector unsigned short) vczero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	894
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	895 if (rightside)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	896 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	897 blockv = vec_perm(blockv, pixelsavg, vcprm(0, 1, s0, s1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	898 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	899 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	900 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	901 blockv = vec_perm(blockv, pixelsavg, vcprm(s0, s1, 2, 3));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	902 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	903
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	904 vec_st(blockv, 0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	905
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	906 block += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	907 pixels += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	908 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	909
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	910 POWERPC_PERF_STOP_COUNT(altivec_put_no_rnd_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	911 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	912
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	913 /* next one assumes that ((line_size % 16) == 0) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	914 void put_pixels16_xy2_altivec(uint8_t * block, const uint8_t * pixels, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	915 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	916 POWERPC_PERF_DECLARE(altivec_put_pixels16_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	917 register int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	918 register vector unsigned char
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	919 pixelsv1, pixelsv2, pixelsv3, pixelsv4;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	920 register vector unsigned char
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	921 blockv, temp1, temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	922 register vector unsigned short
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	923 pixelssum1, pixelssum2, temp3,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	924 pixelssum3, pixelssum4, temp4;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	925 register const_vector unsigned char vczero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	926 register const_vector unsigned short vctwo = (const_vector unsigned short)vec_splat_u16(2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	927
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	928 POWERPC_PERF_START_COUNT(altivec_put_pixels16_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	929
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	930 temp1 = vec_ld(0, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	931 temp2 = vec_ld(16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	932 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(0, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	933 if ((((unsigned long)pixels) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	934 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	935 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	936 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	937 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	938 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	939 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	940 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	941 pixelsv3 = vec_mergel(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	942 pixelsv4 = vec_mergel(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	943 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	944 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	945 pixelssum3 = vec_add((vector unsigned short)pixelsv3,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	946 (vector unsigned short)pixelsv4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	947 pixelssum3 = vec_add(pixelssum3, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	948 pixelssum1 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	949 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	950 pixelssum1 = vec_add(pixelssum1, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	951
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	952 for (i = 0; i < h ; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	953 blockv = vec_ld(0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	954
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	955 temp1 = vec_ld(line_size, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	956 temp2 = vec_ld(line_size + 16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	957 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(line_size, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	958 if (((((unsigned long)pixels) + line_size) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	959 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	960 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	961 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	962 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	963 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	964 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(line_size + 1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	965 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	966
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	967 pixelsv3 = vec_mergel(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	968 pixelsv4 = vec_mergel(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	969 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	970 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	971
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	972 pixelssum4 = vec_add((vector unsigned short)pixelsv3,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	973 (vector unsigned short)pixelsv4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	974 pixelssum2 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	975 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	976 temp4 = vec_add(pixelssum3, pixelssum4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	977 temp4 = vec_sra(temp4, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	978 temp3 = vec_add(pixelssum1, pixelssum2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	979 temp3 = vec_sra(temp3, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	980
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	981 pixelssum3 = vec_add(pixelssum4, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	982 pixelssum1 = vec_add(pixelssum2, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	983
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	984 blockv = vec_packsu(temp3, temp4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	985
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	986 vec_st(blockv, 0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	987
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	988 block += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	989 pixels += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	990 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	991
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	992 POWERPC_PERF_STOP_COUNT(altivec_put_pixels16_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	993 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	994
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	995 /* next one assumes that ((line_size % 16) == 0) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	996 void put_no_rnd_pixels16_xy2_altivec(uint8_t * block, const uint8_t * pixels, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	997 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	998 POWERPC_PERF_DECLARE(altivec_put_no_rnd_pixels16_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	999 register int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1000 register vector unsigned char
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1001 pixelsv1, pixelsv2, pixelsv3, pixelsv4;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1002 register vector unsigned char
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1003 blockv, temp1, temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1004 register vector unsigned short
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1005 pixelssum1, pixelssum2, temp3,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1006 pixelssum3, pixelssum4, temp4;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1007 register const_vector unsigned char vczero = (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1008 register const_vector unsigned short vcone = (const_vector unsigned short)vec_splat_u16(1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1009 register const_vector unsigned short vctwo = (const_vector unsigned short)vec_splat_u16(2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1010
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1011 POWERPC_PERF_START_COUNT(altivec_put_no_rnd_pixels16_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1012
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1013 temp1 = vec_ld(0, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1014 temp2 = vec_ld(16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1015 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(0, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1016 if ((((unsigned long)pixels) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1017 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1018 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1019 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1020 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1021 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1022 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1023 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1024 pixelsv3 = vec_mergel(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1025 pixelsv4 = vec_mergel(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1026 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1027 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1028 pixelssum3 = vec_add((vector unsigned short)pixelsv3,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1029 (vector unsigned short)pixelsv4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1030 pixelssum3 = vec_add(pixelssum3, vcone);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1031 pixelssum1 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1032 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1033 pixelssum1 = vec_add(pixelssum1, vcone);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1034
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1035 for (i = 0; i < h ; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1036 blockv = vec_ld(0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1037
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1038 temp1 = vec_ld(line_size, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1039 temp2 = vec_ld(line_size + 16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1040 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(line_size, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1041 if (((((unsigned long)pixels) + line_size) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1042 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1043 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1044 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1045 else
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1046 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1047 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(line_size + 1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1048 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1049
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1050 pixelsv3 = vec_mergel(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1051 pixelsv4 = vec_mergel(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1052 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1053 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1054
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1055 pixelssum4 = vec_add((vector unsigned short)pixelsv3,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1056 (vector unsigned short)pixelsv4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1057 pixelssum2 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1058 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1059 temp4 = vec_add(pixelssum3, pixelssum4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1060 temp4 = vec_sra(temp4, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1061 temp3 = vec_add(pixelssum1, pixelssum2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1062 temp3 = vec_sra(temp3, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1063
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1064 pixelssum3 = vec_add(pixelssum4, vcone);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1065 pixelssum1 = vec_add(pixelssum2, vcone);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1066
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1067 blockv = vec_packsu(temp3, temp4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1068
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1069 vec_st(blockv, 0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1070
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1071 block += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1072 pixels += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1073 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1074
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1075 POWERPC_PERF_STOP_COUNT(altivec_put_no_rnd_pixels16_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1076 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1077
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1078 int hadamard8_diff8x8_altivec(/MpegEncContext/ void s, uint8_t dst, uint8_t *src, int stride, int h){
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1079 POWERPC_PERF_DECLARE(altivec_hadamard8_diff8x8_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1080 int sum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1081 register const_vector unsigned char vzero =
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1082 (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1083 register vector signed short temp0, temp1, temp2, temp3, temp4,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1084 temp5, temp6, temp7;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1085 POWERPC_PERF_START_COUNT(altivec_hadamard8_diff8x8_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1086 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1087 register const_vector signed short vprod1 =(const_vector signed short)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1088 AVV( 1,-1, 1,-1, 1,-1, 1,-1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1089 register const_vector signed short vprod2 =(const_vector signed short)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1090 AVV( 1, 1,-1,-1, 1, 1,-1,-1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1091 register const_vector signed short vprod3 =(const_vector signed short)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1092 AVV( 1, 1, 1, 1,-1,-1,-1,-1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1093 register const_vector unsigned char perm1 = (const_vector unsigned char)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1094 AVV(0x02, 0x03, 0x00, 0x01, 0x06, 0x07, 0x04, 0x05,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1095 0x0A, 0x0B, 0x08, 0x09, 0x0E, 0x0F, 0x0C, 0x0D);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1096 register const_vector unsigned char perm2 = (const_vector unsigned char)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1097 AVV(0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02, 0x03,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1098 0x0C, 0x0D, 0x0E, 0x0F, 0x08, 0x09, 0x0A, 0x0B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1099 register const_vector unsigned char perm3 = (const_vector unsigned char)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1100 AVV(0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1101 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1102
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1103 #define ONEITERBUTTERFLY(i, res) \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1104 { \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1105 register vector unsigned char src1, src2, srcO; \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1106 register vector unsigned char dst1, dst2, dstO; \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1107 register vector signed short srcV, dstV; \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1108 register vector signed short but0, but1, but2, op1, op2, op3; \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1109 src1 = vec_ld(stride * i, src); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1110 if ((((stride * i) + (unsigned long)src) & 0x0000000F) > 8) \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1111 src2 = vec_ld((stride * i) + 16, src); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1112 srcO = vec_perm(src1, src2, vec_lvsl(stride * i, src)); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1113 dst1 = vec_ld(stride * i, dst); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1114 if ((((stride * i) + (unsigned long)dst) & 0x0000000F) > 8) \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1115 dst2 = vec_ld((stride * i) + 16, dst); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1116 dstO = vec_perm(dst1, dst2, vec_lvsl(stride * i, dst)); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1117 /* promote the unsigned chars to signed shorts */ \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1118 /* we're in the 8x8 function, we only care for the first 8 */ \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1119 srcV = \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1120 (vector signed short)vec_mergeh((vector signed char)vzero, \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1121 (vector signed char)srcO); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1122 dstV = \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1123 (vector signed short)vec_mergeh((vector signed char)vzero, \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1124 (vector signed char)dstO); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1125 /* substractions inside the first butterfly */ \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1126 but0 = vec_sub(srcV, dstV); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1127 op1 = vec_perm(but0, but0, perm1); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1128 but1 = vec_mladd(but0, vprod1, op1); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1129 op2 = vec_perm(but1, but1, perm2); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1130 but2 = vec_mladd(but1, vprod2, op2); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1131 op3 = vec_perm(but2, but2, perm3); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1132 res = vec_mladd(but2, vprod3, op3); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1133 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1134 ONEITERBUTTERFLY(0, temp0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1135 ONEITERBUTTERFLY(1, temp1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1136 ONEITERBUTTERFLY(2, temp2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1137 ONEITERBUTTERFLY(3, temp3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1138 ONEITERBUTTERFLY(4, temp4);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1139 ONEITERBUTTERFLY(5, temp5);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1140 ONEITERBUTTERFLY(6, temp6);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1141 ONEITERBUTTERFLY(7, temp7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1142 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1143 #undef ONEITERBUTTERFLY
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1144 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1145 register vector signed int vsum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1146 register vector signed short line0 = vec_add(temp0, temp1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1147 register vector signed short line1 = vec_sub(temp0, temp1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1148 register vector signed short line2 = vec_add(temp2, temp3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1149 register vector signed short line3 = vec_sub(temp2, temp3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1150 register vector signed short line4 = vec_add(temp4, temp5);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1151 register vector signed short line5 = vec_sub(temp4, temp5);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1152 register vector signed short line6 = vec_add(temp6, temp7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1153 register vector signed short line7 = vec_sub(temp6, temp7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1154
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1155 register vector signed short line0B = vec_add(line0, line2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1156 register vector signed short line2B = vec_sub(line0, line2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1157 register vector signed short line1B = vec_add(line1, line3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1158 register vector signed short line3B = vec_sub(line1, line3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1159 register vector signed short line4B = vec_add(line4, line6);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1160 register vector signed short line6B = vec_sub(line4, line6);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1161 register vector signed short line5B = vec_add(line5, line7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1162 register vector signed short line7B = vec_sub(line5, line7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1163
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1164 register vector signed short line0C = vec_add(line0B, line4B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1165 register vector signed short line4C = vec_sub(line0B, line4B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1166 register vector signed short line1C = vec_add(line1B, line5B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1167 register vector signed short line5C = vec_sub(line1B, line5B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1168 register vector signed short line2C = vec_add(line2B, line6B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1169 register vector signed short line6C = vec_sub(line2B, line6B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1170 register vector signed short line3C = vec_add(line3B, line7B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1171 register vector signed short line7C = vec_sub(line3B, line7B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1172
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1173 vsum = vec_sum4s(vec_abs(line0C), vec_splat_s32(0));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1174 vsum = vec_sum4s(vec_abs(line1C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1175 vsum = vec_sum4s(vec_abs(line2C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1176 vsum = vec_sum4s(vec_abs(line3C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1177 vsum = vec_sum4s(vec_abs(line4C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1178 vsum = vec_sum4s(vec_abs(line5C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1179 vsum = vec_sum4s(vec_abs(line6C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1180 vsum = vec_sum4s(vec_abs(line7C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1181 vsum = vec_sums(vsum, (vector signed int)vzero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1182 vsum = vec_splat(vsum, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1183 vec_ste(vsum, 0, &sum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1184 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1185 POWERPC_PERF_STOP_COUNT(altivec_hadamard8_diff8x8_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1186 return sum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1187 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1188
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1189 /*
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1190 16x8 works with 16 elements ; it allows to avoid replicating
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1191 loads, and give the compiler more rooms for scheduling.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1192 It's only used from inside hadamard8_diff16_altivec.
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1193
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1194 Unfortunately, it seems gcc-3.3 is a bit dumb, and
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1195 the compiled code has a LOT of spill code, it seems
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1196 gcc (unlike xlc) cannot keep everything in registers
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1197 by itself. The following code include hand-made
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1198 registers allocation. It's not clean, but on
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1199 a 7450 the resulting code is much faster (best case
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1200 fall from 700+ cycles to 550).
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1201
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1202 xlc doesn't add spill code, but it doesn't know how to
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1203 schedule for the 7450, and its code isn't much faster than
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1204 gcc-3.3 on the 7450 (but uses 25% less instructions...)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1205
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1206 On the 970, the hand-made RA is still a win (arount 690
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1207 vs. around 780), but xlc goes to around 660 on the
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1208 regular C code...
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1209 */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1210
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1211 static int hadamard8_diff16x8_altivec(/MpegEncContext/ void s, uint8_t dst, uint8_t *src, int stride, int h) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1212 int sum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1213 register vector signed short
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1214 temp0 REG_v(v0),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1215 temp1 REG_v(v1),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1216 temp2 REG_v(v2),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1217 temp3 REG_v(v3),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1218 temp4 REG_v(v4),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1219 temp5 REG_v(v5),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1220 temp6 REG_v(v6),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1221 temp7 REG_v(v7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1222 register vector signed short
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1223 temp0S REG_v(v8),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1224 temp1S REG_v(v9),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1225 temp2S REG_v(v10),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1226 temp3S REG_v(v11),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1227 temp4S REG_v(v12),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1228 temp5S REG_v(v13),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1229 temp6S REG_v(v14),
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1230 temp7S REG_v(v15);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1231 register const_vector unsigned char vzero REG_v(v31)=
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1232 (const_vector unsigned char)vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1233 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1234 register const_vector signed short vprod1 REG_v(v16)=
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1235 (const_vector signed short)AVV( 1,-1, 1,-1, 1,-1, 1,-1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1236 register const_vector signed short vprod2 REG_v(v17)=
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1237 (const_vector signed short)AVV( 1, 1,-1,-1, 1, 1,-1,-1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1238 register const_vector signed short vprod3 REG_v(v18)=
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1239 (const_vector signed short)AVV( 1, 1, 1, 1,-1,-1,-1,-1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1240 register const_vector unsigned char perm1 REG_v(v19)=
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1241 (const_vector unsigned char)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1242 AVV(0x02, 0x03, 0x00, 0x01, 0x06, 0x07, 0x04, 0x05,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1243 0x0A, 0x0B, 0x08, 0x09, 0x0E, 0x0F, 0x0C, 0x0D);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1244 register const_vector unsigned char perm2 REG_v(v20)=
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1245 (const_vector unsigned char)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1246 AVV(0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02, 0x03,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1247 0x0C, 0x0D, 0x0E, 0x0F, 0x08, 0x09, 0x0A, 0x0B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1248 register const_vector unsigned char perm3 REG_v(v21)=
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1249 (const_vector unsigned char)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1250 AVV(0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1251 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1252
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1253 #define ONEITERBUTTERFLY(i, res1, res2) \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1254 { \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1255 register vector unsigned char src1 REG_v(v22), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1256 src2 REG_v(v23), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1257 dst1 REG_v(v24), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1258 dst2 REG_v(v25), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1259 srcO REG_v(v22), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1260 dstO REG_v(v23); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1261 \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1262 register vector signed short srcV REG_v(v24), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1263 dstV REG_v(v25), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1264 srcW REG_v(v26), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1265 dstW REG_v(v27), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1266 but0 REG_v(v28), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1267 but0S REG_v(v29), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1268 op1 REG_v(v30), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1269 but1 REG_v(v22), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1270 op1S REG_v(v23), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1271 but1S REG_v(v24), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1272 op2 REG_v(v25), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1273 but2 REG_v(v26), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1274 op2S REG_v(v27), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1275 but2S REG_v(v28), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1276 op3 REG_v(v29), \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1277 op3S REG_v(v30); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1278 \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1279 src1 = vec_ld(stride * i, src); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1280 src2 = vec_ld((stride * i) + 16, src); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1281 srcO = vec_perm(src1, src2, vec_lvsl(stride * i, src)); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1282 dst1 = vec_ld(stride * i, dst); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1283 dst2 = vec_ld((stride * i) + 16, dst); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1284 dstO = vec_perm(dst1, dst2, vec_lvsl(stride * i, dst)); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1285 /* promote the unsigned chars to signed shorts */ \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1286 srcV = \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1287 (vector signed short)vec_mergeh((vector signed char)vzero, \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1288 (vector signed char)srcO); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1289 dstV = \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1290 (vector signed short)vec_mergeh((vector signed char)vzero, \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1291 (vector signed char)dstO); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1292 srcW = \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1293 (vector signed short)vec_mergel((vector signed char)vzero, \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1294 (vector signed char)srcO); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1295 dstW = \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1296 (vector signed short)vec_mergel((vector signed char)vzero, \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1297 (vector signed char)dstO); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1298 /* substractions inside the first butterfly */ \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1299 but0 = vec_sub(srcV, dstV); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1300 but0S = vec_sub(srcW, dstW); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1301 op1 = vec_perm(but0, but0, perm1); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1302 but1 = vec_mladd(but0, vprod1, op1); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1303 op1S = vec_perm(but0S, but0S, perm1); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1304 but1S = vec_mladd(but0S, vprod1, op1S); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1305 op2 = vec_perm(but1, but1, perm2); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1306 but2 = vec_mladd(but1, vprod2, op2); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1307 op2S = vec_perm(but1S, but1S, perm2); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1308 but2S = vec_mladd(but1S, vprod2, op2S); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1309 op3 = vec_perm(but2, but2, perm3); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1310 res1 = vec_mladd(but2, vprod3, op3); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1311 op3S = vec_perm(but2S, but2S, perm3); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1312 res2 = vec_mladd(but2S, vprod3, op3S); \
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1313 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1314 ONEITERBUTTERFLY(0, temp0, temp0S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1315 ONEITERBUTTERFLY(1, temp1, temp1S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1316 ONEITERBUTTERFLY(2, temp2, temp2S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1317 ONEITERBUTTERFLY(3, temp3, temp3S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1318 ONEITERBUTTERFLY(4, temp4, temp4S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1319 ONEITERBUTTERFLY(5, temp5, temp5S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1320 ONEITERBUTTERFLY(6, temp6, temp6S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1321 ONEITERBUTTERFLY(7, temp7, temp7S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1322 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1323 #undef ONEITERBUTTERFLY
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1324 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1325 register vector signed int vsum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1326 register vector signed short line0S, line1S, line2S, line3S, line4S,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1327 line5S, line6S, line7S, line0BS,line2BS,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1328 line1BS,line3BS,line4BS,line6BS,line5BS,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1329 line7BS,line0CS,line4CS,line1CS,line5CS,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1330 line2CS,line6CS,line3CS,line7CS;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1331
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1332 register vector signed short line0 = vec_add(temp0, temp1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1333 register vector signed short line1 = vec_sub(temp0, temp1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1334 register vector signed short line2 = vec_add(temp2, temp3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1335 register vector signed short line3 = vec_sub(temp2, temp3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1336 register vector signed short line4 = vec_add(temp4, temp5);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1337 register vector signed short line5 = vec_sub(temp4, temp5);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1338 register vector signed short line6 = vec_add(temp6, temp7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1339 register vector signed short line7 = vec_sub(temp6, temp7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1340
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1341 register vector signed short line0B = vec_add(line0, line2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1342 register vector signed short line2B = vec_sub(line0, line2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1343 register vector signed short line1B = vec_add(line1, line3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1344 register vector signed short line3B = vec_sub(line1, line3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1345 register vector signed short line4B = vec_add(line4, line6);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1346 register vector signed short line6B = vec_sub(line4, line6);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1347 register vector signed short line5B = vec_add(line5, line7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1348 register vector signed short line7B = vec_sub(line5, line7);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1349
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1350 register vector signed short line0C = vec_add(line0B, line4B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1351 register vector signed short line4C = vec_sub(line0B, line4B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1352 register vector signed short line1C = vec_add(line1B, line5B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1353 register vector signed short line5C = vec_sub(line1B, line5B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1354 register vector signed short line2C = vec_add(line2B, line6B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1355 register vector signed short line6C = vec_sub(line2B, line6B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1356 register vector signed short line3C = vec_add(line3B, line7B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1357 register vector signed short line7C = vec_sub(line3B, line7B);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1358
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1359 vsum = vec_sum4s(vec_abs(line0C), vec_splat_s32(0));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1360 vsum = vec_sum4s(vec_abs(line1C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1361 vsum = vec_sum4s(vec_abs(line2C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1362 vsum = vec_sum4s(vec_abs(line3C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1363 vsum = vec_sum4s(vec_abs(line4C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1364 vsum = vec_sum4s(vec_abs(line5C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1365 vsum = vec_sum4s(vec_abs(line6C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1366 vsum = vec_sum4s(vec_abs(line7C), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1367
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1368 line0S = vec_add(temp0S, temp1S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1369 line1S = vec_sub(temp0S, temp1S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1370 line2S = vec_add(temp2S, temp3S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1371 line3S = vec_sub(temp2S, temp3S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1372 line4S = vec_add(temp4S, temp5S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1373 line5S = vec_sub(temp4S, temp5S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1374 line6S = vec_add(temp6S, temp7S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1375 line7S = vec_sub(temp6S, temp7S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1376
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1377 line0BS = vec_add(line0S, line2S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1378 line2BS = vec_sub(line0S, line2S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1379 line1BS = vec_add(line1S, line3S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1380 line3BS = vec_sub(line1S, line3S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1381 line4BS = vec_add(line4S, line6S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1382 line6BS = vec_sub(line4S, line6S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1383 line5BS = vec_add(line5S, line7S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1384 line7BS = vec_sub(line5S, line7S);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1385
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1386 line0CS = vec_add(line0BS, line4BS);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1387 line4CS = vec_sub(line0BS, line4BS);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1388 line1CS = vec_add(line1BS, line5BS);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1389 line5CS = vec_sub(line1BS, line5BS);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1390 line2CS = vec_add(line2BS, line6BS);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1391 line6CS = vec_sub(line2BS, line6BS);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1392 line3CS = vec_add(line3BS, line7BS);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1393 line7CS = vec_sub(line3BS, line7BS);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1394
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1395 vsum = vec_sum4s(vec_abs(line0CS), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1396 vsum = vec_sum4s(vec_abs(line1CS), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1397 vsum = vec_sum4s(vec_abs(line2CS), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1398 vsum = vec_sum4s(vec_abs(line3CS), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1399 vsum = vec_sum4s(vec_abs(line4CS), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1400 vsum = vec_sum4s(vec_abs(line5CS), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1401 vsum = vec_sum4s(vec_abs(line6CS), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1402 vsum = vec_sum4s(vec_abs(line7CS), vsum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1403 vsum = vec_sums(vsum, (vector signed int)vzero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1404 vsum = vec_splat(vsum, 3);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1405 vec_ste(vsum, 0, &sum);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1406 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1407 return sum;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1408 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1409
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1410 int hadamard8_diff16_altivec(/MpegEncContext/ void s, uint8_t dst, uint8_t *src, int stride, int h){
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1411 POWERPC_PERF_DECLARE(altivec_hadamard8_diff16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1412 int score;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1413 POWERPC_PERF_START_COUNT(altivec_hadamard8_diff16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1414 score = hadamard8_diff16x8_altivec(s, dst, src, stride, 8);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1415 if (h==16) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1416 dst += 8*stride;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1417 src += 8*stride;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1418 score += hadamard8_diff16x8_altivec(s, dst, src, stride, 8);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1419 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1420 POWERPC_PERF_STOP_COUNT(altivec_hadamard8_diff16_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1421 return score;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1422 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1423
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1424 int has_altivec(void)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1425 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1426 #ifdef __AMIGAOS4__
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1427 ULONG result = 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1428 extern struct ExecIFace *IExec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1429
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1430 IExec->GetCPUInfoTags(GCIT_VectorUnit, &result, TAG_DONE);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1431 if (result == VECTORTYPE_ALTIVEC) return 1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1432 return 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1433 #else /* __AMIGAOS4__ */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1434
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1435 #ifdef CONFIG_DARWIN
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1436 int sels[2] = {CTL_HW, HW_VECTORUNIT};
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1437 int has_vu = 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1438 size_t len = sizeof(has_vu);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1439 int err;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1440
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1441 err = sysctl(sels, 2, &has_vu, &len, NULL, 0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1442
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1443 if (err == 0) return (has_vu != 0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1444 #else /* CONFIG_DARWIN */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1445 /* no Darwin, do it the brute-force way */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1446 /* this is borrowed from the libmpeg2 library */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1447 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1448 signal (SIGILL, sigill_handler);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1449 if (sigsetjmp (jmpbuf, 1)) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1450 signal (SIGILL, SIG_DFL);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1451 } else {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1452 canjump = 1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1453
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1454 asm volatile ("mtspr 256, %0\n\t"
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1455 "vand %%v0, %%v0, %%v0"
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1456 :
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1457 : "r" (-1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1458
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1459 signal (SIGILL, SIG_DFL);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1460 return 1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1461 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1462 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1463 #endif /* CONFIG_DARWIN */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1464 return 0;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1465 #endif /* __AMIGAOS4__ */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1466 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1467
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1468 static void vorbis_inverse_coupling_altivec(float mag, float ang,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1469 int blocksize)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1470 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1471 int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1472 vector float m, a;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1473 vector bool int t0, t1;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1474 const vector unsigned int v_31 = //XXX
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1475 vec_add(vec_add(vec_splat_u32(15),vec_splat_u32(15)),vec_splat_u32(1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1476 for(i=0; i<blocksize; i+=4) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1477 m = vec_ld(0, mag+i);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1478 a = vec_ld(0, ang+i);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1479 t0 = vec_cmple(m, (vector float)vec_splat_u32(0));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1480 t1 = vec_cmple(a, (vector float)vec_splat_u32(0));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1481 a = vec_xor(a, (vector float) vec_sl((vector unsigned int)t0, v_31));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1482 t0 = (vector bool int)vec_and(a, t1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1483 t1 = (vector bool int)vec_andc(a, t1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1484 a = vec_sub(m, (vector float)t1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1485 m = vec_add(m, (vector float)t0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1486 vec_stl(a, 0, ang+i);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1487 vec_stl(m, 0, mag+i);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1488 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1489 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1490
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1491 /* next one assumes that ((line_size % 8) == 0) */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1492 void avg_pixels8_xy2_altivec(uint8_t block, const uint8_t pixels, int line_size, int h)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1493 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1494 POWERPC_PERF_DECLARE(altivec_avg_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1495 register int i;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1496 register vector unsigned char pixelsv1, pixelsv2, pixelsavg;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1497 register vector unsigned char blockv, temp1, temp2, blocktemp;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1498 register vector unsigned short pixelssum1, pixelssum2, temp3;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1499
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1500 register const_vector unsigned char vczero = (const_vector unsigned char)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1501 vec_splat_u8(0);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1502 register const_vector unsigned short vctwo = (const_vector unsigned short)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1503 vec_splat_u16(2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1504
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1505 temp1 = vec_ld(0, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1506 temp2 = vec_ld(16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1507 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(0, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1508 if ((((unsigned long)pixels) & 0x0000000F) == 0x0000000F) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1509 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1510 } else {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1511 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1512 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1513 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1514 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1515 pixelssum1 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1516 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1517 pixelssum1 = vec_add(pixelssum1, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1518
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1519 POWERPC_PERF_START_COUNT(altivec_avg_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1520 for (i = 0; i < h ; i++) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1521 int rightside = ((unsigned long)block & 0x0000000F);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1522 blockv = vec_ld(0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1523
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1524 temp1 = vec_ld(line_size, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1525 temp2 = vec_ld(line_size + 16, pixels);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1526 pixelsv1 = vec_perm(temp1, temp2, vec_lvsl(line_size, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1527 if (((((unsigned long)pixels) + line_size) & 0x0000000F) == 0x0000000F)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1528 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1529 pixelsv2 = temp2;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1530 } else {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1531 pixelsv2 = vec_perm(temp1, temp2, vec_lvsl(line_size + 1, pixels));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1532 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1533
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1534 pixelsv1 = vec_mergeh(vczero, pixelsv1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1535 pixelsv2 = vec_mergeh(vczero, pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1536 pixelssum2 = vec_add((vector unsigned short)pixelsv1,
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1537 (vector unsigned short)pixelsv2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1538 temp3 = vec_add(pixelssum1, pixelssum2);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1539 temp3 = vec_sra(temp3, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1540 pixelssum1 = vec_add(pixelssum2, vctwo);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1541 pixelsavg = vec_packsu(temp3, (vector unsigned short) vczero);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1542
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1543 if (rightside) {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1544 blocktemp = vec_perm(blockv, pixelsavg, vcprm(0, 1, s0, s1));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1545 } else {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1546 blocktemp = vec_perm(blockv, pixelsavg, vcprm(s0, s1, 2, 3));
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1547 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1548
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1549 blockv = vec_avg(blocktemp, blockv);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1550 vec_st(blockv, 0, block);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1551
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1552 block += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1553 pixels += line_size;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1554 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1555
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1556 POWERPC_PERF_STOP_COUNT(altivec_avg_pixels8_xy2_num, 1);
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1557 }
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1558
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1559 void dsputil_init_altivec(DSPContext* c, AVCodecContext *avctx)
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1560 {
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1561 c->pix_abs[0][1] = sad16_x2_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1562 c->pix_abs[0][2] = sad16_y2_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1563 c->pix_abs[0][3] = sad16_xy2_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1564 c->pix_abs[0][0] = sad16_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1565 c->pix_abs[1][0] = sad8_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1566 c->sad[0]= sad16_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1567 c->sad[1]= sad8_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1568 c->pix_norm1 = pix_norm1_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1569 c->sse[1]= sse8_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1570 c->sse[0]= sse16_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1571 c->pix_sum = pix_sum_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1572 c->diff_pixels = diff_pixels_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1573 c->get_pixels = get_pixels_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1574 c->add_bytes= add_bytes_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1575 c->put_pixels_tab[0][0] = put_pixels16_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1576 /* the two functions do the same thing, so use the same code */
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1577 c->put_no_rnd_pixels_tab[0][0] = put_pixels16_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1578 c->avg_pixels_tab[0][0] = avg_pixels16_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1579 c->avg_pixels_tab[1][0] = avg_pixels8_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1580 c->avg_pixels_tab[1][3] = avg_pixels8_xy2_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1581 c->put_pixels_tab[1][3] = put_pixels8_xy2_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1582 c->put_no_rnd_pixels_tab[1][3] = put_no_rnd_pixels8_xy2_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1583 c->put_pixels_tab[0][3] = put_pixels16_xy2_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1584 c->put_no_rnd_pixels_tab[0][3] = put_no_rnd_pixels16_xy2_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1585
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1586 c->hadamard8_diff[0] = hadamard8_diff16_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1587 c->hadamard8_diff[1] = hadamard8_diff8x8_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1588 #ifdef CONFIG_VORBIS_DECODER
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1589 c->vorbis_inverse_coupling = vorbis_inverse_coupling_altivec;
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1590 #endif
e8776388b02a [svn] - add ffmpeg nenolod parents: diff changeset	1591 }

Mercurial > audlegacy-plugins

annotate src/ffmpeg/libavcodec/ppc/dsputil_altivec.c @ 854:aac49941ee8f trunk